Bei der Datenextraktion und -analyse ist das Scraping von Suchmaschinenergebnissen für Forscher, Entwickler und Analysten von entscheidender Bedeutung, die nach substanziellen Daten für Erkenntnisse oder Anwendungen suchen. Die Bedeutung des Scrapings erkennen Bing-Suchergebnisse gibt Zugang zu einer Fülle von Informationen und ermöglicht Benutzern, die umfangreiche Datenbank von Bing zu nutzen.

Dieser Leitfaden bietet einen praktischen Ansatz zum Scraping von Bing-Suchergebnissen mithilfe von JavaScript Puppeteer und Crawlbase Crawling API. Wir werden uns mit der Bedeutung von JavaScript Puppeteer für eine optimierte Interaktion mit der Suchmaschine von Bing befassen und verstehen, wie die Integration der Crawlbase Crawling API gewährleistet einen nahtlosen Zugriff auf Bing-Ergebnisse und umgeht mühelos gängige Scraping-Probleme.

Erkunden Sie mit uns das Bing SERP Scraping, während wir fortgeschrittene Web Scraping-Techniken erlernen, um das volle Potenzial von Microsoft Bing als wertvolle Datenquelle auszuschöpfen.

Inhaltsverzeichnis

I. Die Suchseitenstruktur von Bing verstehen

  • Bing SERP-Struktur
  • Zu scrapende Daten

II. Voraussetzungen
III. Puppeteer einrichten

  • Vorbereiten der Codierungsumgebung
  • Scraping der Bing-SERP mit Puppeteer

IV. Einrichten von Crawlbase Crawling API

  • API-Anmeldeinformationen abrufen
  • Vorbereiten der Codierungsumgebung
  • Scraping von Bing SERP mit Crawling API

V. Puppenspieler vs Crawling API

  • Vor-und Nachteile
  • Schlussfolgerung

VI. Häufig gestellte Fragen (FAQ)

I. Die Suchseitenstruktur von Bing verstehen

Suchmaschinen spielen eine entscheidende Rolle dabei, Benutzern dabei zu helfen, sich in der riesigen Informationsflut des Internets zurechtzufinden. Mit seinen besonderen Funktionen und seiner wachsenden Nutzerbasis ist Microsofts Bing ein bedeutender Akteur in der Websuche. Im April 2024 erreichte Bing.com fast 1.3 Milliarden einzigartige Besucher weltweit, ein Beweis für seine weit verbreitete Nutzung und seinen Einfluss im Online-Bereich. Obwohl Bing im Vergleich zu den 1.4 Milliarden Besuchern des Vormonats einen leichten Rückgang verzeichnete und weit hinter Google liegt, bleibt es bei der Bereitstellung von Suchergebnissen relevant.

Warum Bing scrapen?

Quelle

Bevor wir mit der Arbeit mit unserem Scraper beginnen, ist es wichtig, das Layout einer Bing SERP (Search Engine Results Page) zu verstehen, wie unsere Ziel-URL für diesen Leitfaden. Bing präsentiert Suchergebnisse normalerweise in einem Format, das verschiedene Elemente enthält, und Sie können mithilfe von Web Scraping-Techniken wertvolle Informationen aus diesen Elementen extrahieren. Hier ist ein Überblick über die Struktur und die Daten, die Sie scrapen können:

Bing SERP-Struktur

1. Suchergebnisse-Container

  • Bing zeigt Suchergebnisse in einem Container an, normalerweise in einem Listenformat, wobei jedes Ergebnis einen eigenen Block hat.

2. Individueller Suchergebnisblock

  • Jeder Suchergebnisblock enthält Informationen zu einer bestimmten Webseite, einschließlich Titel, Beschreibung und Link.

3. Titel

  • Der Titel des Suchergebnisses ist die anklickbare Überschrift, die die Webseite repräsentiert. Benutzer müssen die Relevanz des Ergebnisses schnell erkennen.

4. Beschreibung

  • Die Beschreibung bietet eine kurze Zusammenfassung oder einen Ausschnitt des Inhalts der Webseite. Sie bietet Benutzern zusätzlichen Kontext darüber, was sie von der verlinkten Seite erwarten können.

5. Verknüpfung

  • Bei dem Link handelt es sich um die URL der zum Suchergebnis gehörenden Webseite. Durch Anklicken des Links gelangt der Nutzer auf die entsprechende Webseite.

6. Ergebnisvideos

  • Bing kann Videoergebnisse direkt in die Suchergebnisse einbinden. Dabei kann es sich um Videos aus verschiedenen Quellen wie YouTube, Vimeo oder anderen Videoplattformen handeln.
Bing SERP

Zu scrapende Daten:

1. Titel

  • Extrahieren Sie die Titel jedes Suchergebnisses, um die Hauptthemen oder -motive der Webseiten zu verstehen.

2. Beschreibungen

  • Scrapen Sie die Beschreibungen, um präzise Informationen über den Inhalt jeder Webseite zu sammeln. Dies kann zum Erstellen von Zusammenfassungen oder Snippets nützlich sein.

3. Links

  • Erfassen Sie die URLs der Webseiten, die mit jedem Suchergebnis verknüpft sind. Diese Links sind für die Navigation zu den Quellseiten wichtig.

Wir zeigen Ihnen, wie einfach die Nutzung der Crawling API um die oben genannten Daten zu scrapen. Außerdem verwenden wir die Methode page.evaluate in Puppeteer, um eine Funktion im Kontext der von Puppeteer gesteuerten Seite auszuführen. Diese Funktion wird in der Browserumgebung ausgeführt und kann auf die DOM- (Document Object Model) und JavaScript-Variablen innerhalb der Seite zugreifen. Hier ist ein Beispiel:

1
2
3
4
5
6
7
8
const Ergebnisse = – warten auf Sie!  bewerten(() => {
Rückkehr Feld.für(Dokument.querySelectorAll(„li.b_algo“)).Karte((Liste, Index) => ({
Position: Index + 1,
Titel: Liste.querySelector(„h2 a“).Textinhalt,
URL: Liste.querySelector(„h2 a“).getAttribut('href'),
Beschreibung: Liste.querySelector(„p.b_algoSlug“).Textinhalt,
}));
});

Kommen wir nun zum Hauptteil unseres Leitfadens, in dem wir Sie durch die Verwendung von Puppeteer führen und Crawling API Schritt für Schritt zum Scrapen von Bing-SERP-Daten.

II. Voraussetzungen

Stellen Sie vor dem Start sicher, dass die folgenden Voraussetzungen erfüllt sind:

  1. Node.js: Stellen Sie sicher, dass Node.js auf Ihrem Computer installiert ist. Sie können es hier herunterladen: Offizielle Website von Node.js.
  2. npm (Node-Paket-Manager): npm ist normalerweise in der Node.js-Installation enthalten. Überprüfen Sie, ob es verfügbar ist, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:
1
npm -v

Wenn die Version angezeigt wird, ist npm installiert. Wenn nicht, stellen Sie sicher, dass Node.js korrekt installiert ist, da npm darin gebündelt ist.

Die Installation von Node.js und npm gewährleistet ein reibungsloses Erlebnis beim Einrichten Ihrer Umgebung für Web Scraping mit Puppeteer oder Crawling API.

III. Puppeteer einrichten

Puppenspieler ist eine leistungsstarke Node.js-Bibliothek, die vom Chrome-Team bei Google entwickelt wurde. Sie bietet eine High-Level-API zur Steuerung von Headless- oder Vollbrowsern über das DevTools-Protokoll und ist damit eine ausgezeichnete Wahl für Aufgaben wie Web Scraping und automatisiertes Testen. Bevor wir uns in das Projekt mit Puppeteer stürzen, richten wir ein Node.js-Projekt ein und installieren das Puppeteer-Paket.

Vorbereiten der Codierungsumgebung

  1. Erstellen eines Node.js-Projekts
    Öffnen Sie Ihr Terminal und führen Sie den folgenden Befehl aus, um ein einfaches Node.js-Projekt mit Standardeinstellungen zu erstellen:
1
npm init -y

Dieser Befehl erzeugt eine package.json Datei, die Metadaten zu Ihrem Projekt und seinen Abhängigkeiten enthält.

  1. Puppeteer installieren:
    Sobald das Projekt eingerichtet ist, installieren Sie das Puppeteer-Paket mit dem folgenden Befehl:
1
npm ich Puppenspieler

Dieser Befehl lädt die Puppeteer-Bibliothek herunter und installiert sie, sodass Sie Browser programmgesteuert steuern können.

  1. Erstellen Sie eine Indexdatei:
    Um den Code Ihres Web Scrapers zu schreiben, erstellen Sie eine index.js Datei. Verwenden Sie den folgenden Befehl, um die Datei zu generieren:
1
aufnehmen index.js

Dieser Befehl erzeugt eine leere index.js Datei, in die Sie das Puppeteer-Skript zum Scraping von Bing-SERP-Daten schreiben. Sie haben die Möglichkeit, den Dateinamen beliebig zu ändern.

Scraping der Bing-SERP mit Puppeteer

Wenn Ihr Node.js-Projekt initialisiert ist, Puppeteer installiert ist und ein index.js Datei fertig, sind Sie bereit, die Fähigkeiten von Puppeteer für Web Scraping zu nutzen. Kopieren Sie den Code unten und speichern Sie ihn auf Ihrem index.js Datei.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
// Benötigte Module importieren
const Puppenspieler = erfordern('Puppenspieler');
const fs = erfordern('fs');

// Definieren Sie eine asynchrone Funktion zum Scrapen der Bing-Suchergebnisse
async Funktion BingData abrufen(Suchbegriff) {
// Starten Sie einen Headless-Browser
const Browser = – warten auf Sie! Puppenspieler.starten({
kopflos: 'Neu', // „neu“ öffnet ein neues Browserfenster
});

//Erstelle eine neue Seite im Browser
const Seite = – warten auf Sie! Browser.neue Seite();

// Navigieren Sie zur Bing-Suchergebnisseite für die angegebene Suchzeichenfolge
– warten auf Sie! goto(`https://bing.com/search?q=${URI kodieren(Suchzeichenfolge)}`);

// Auf den Selektor „.b_pag“ warten, um sicherzustellen, dass die Suchergebnisse geladen werden
– warten auf Sie! warteAufAuswahl('.b_pag');

// Extrahieren Sie relevante Daten aus den Suchergebnissen mit page.evaluate
const Ergebnisse = – warten auf Sie! bewerten(() => {
// Ordnen Sie jedes Suchergebniselement zu, um ein Array von Ergebnisobjekten zu erstellen
Rückkehr Feld.für(Dokument.querySelectorAll(„li.b_algo“)).Karte((Liste, Index) => ({
Position: Index + 1,
Titel: Liste.querySelector(„h2 a“).Textinhalt,
URL: Liste.querySelector(„h2 a“).getAttribut('href'),
Beschreibung: Liste.querySelector(„p.b_algoSlug“).Textinhalt,
}));
});

// Schließen Sie den Browser, nachdem das Scraping abgeschlossen ist
– warten auf Sie! Browser.schließen();

// Die Ergebnisse in der Konsole protokollieren
trösten.Log(Ergebnisse);

//Schreibe die Ergebnisse zur weiteren Verwendung in eine JSON-Datei
fs.SchreibeFileSync(„bing-serp.json“, JSON.stringifizieren({ Ergebnisse }, null, 2));

// Die Scraped-Ergebnisse zurückgeben
Rückkehr Ergebnisse;
}

// Rufe die Funktion mit einem Beispielsuchstring auf (zB „samsung s23 ultra“)
BingData abrufen(„Samsung S23 Ultra“);

Lassen Sie uns den obigen Code mit einem einfachen Befehl ausführen:

1
Knoten index.js

Bei Erfolg erhalten Sie das Ergebnis im JSON-Format wie unten gezeigt:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"Ergebnisse": [
{
"Position": 1,
„Titel“: „Samsung Galaxy S23 Ultra | Samsung US – Samsung …“,
"URL": „https://www.samsung.com/us/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebLernen Sie das neueste Galaxy S23 Ultra-Telefon kennen, das mit Blick auf den Planeten entwickelt wurde und mit einem integrierten S Pen, einer Nightography-Kamera und einem leistungsstarken Chip für episches Gaming ausgestattet ist.“
},
{
"Position": 2,
„Titel“: „Samsung Galaxy S23 Ultra – Vollständige Telefonspezifikationen …“,
"URL": „https://www.gsmarena.com/samsung_galaxy_s23_ultra-12024.php“,
„Beschreibung“: „WebSamsung Galaxy S23 Ultra Android-Smartphone. Angekündigt im Februar 2023. Mit 6.8-Zoll-Display, Snapdragon 8 Gen 2-Chipsatz, 5000 mAh-Akku, …“
},
{
"Position": 3,
„Titel“: „Samsung Galaxy S23 Ultra | Samsung PK“,
"URL": „https://www.samsung.com/pk/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebMobile. Smartphones. Galaxy S23 Ultra. Lernen Sie das neue Galaxy S23 Ultra kennen, das mit Blick auf den Planeten entwickelt wurde und mit einem integrierten S Pen, einer Nightography-Kamera und einem leistungsstarken Chip für episches Gaming ausgestattet ist.“
},
{
"Position": 4,
„Titel“: „Samsung Galaxy S23 Ultra Preis in Pakistan 2023“,
"URL": „https://www.whatmobile.com.pk/Samsung_Galaxy-S23-Ultra“,
„Beschreibung“: „WebSamsung Galaxy S23 Ultra – Das Ultra-Smartphone der Ultra-Company Samsung bringt ein neues Galaxy S23 auf den Markt, das den Spitznamen … trägt“
},
{
"Position": 5,
„Titel“: „Samsung Galaxy S23 Ultra 5G – Kamera & Spezifikationen“,
"URL": „https://www.samsung.com/ph/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebEntdecken Sie das neue Samsung Galaxy S23 Ultra 5G mit verbesserten Nachtkameras, 6.8-Zoll-120-Hz-adaptivem Anti-Glare-Display und epischer Leistung. Zum Inhalt springen Samsung und Cookies“
},
{
"Position": 6,
„Titel“: „Samsung Galaxy S23 Ultra | Samsung Kanada“,
"URL": „https://www.samsung.com/ca/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebGalaxy S23 Ultra JETZT KAUFEN Ultra Reborn Neu entwickelte Nachtaufnahmekamera Revolutionärer Gaming-Prozessor Renommierter S Pen Experten-Review Highlights Einführung …“
},
{
"Position": 7,
„Titel“: „Galaxy S23 Ultra: Offizieller Einführungsfilm | Samsung – YouTube“,
"URL": „https://www.youtube.com/watch?v=BSYsXVFzmKA“,
„Beschreibung“: „Web1. Februar 2023 · Was ist neu? Das neue Galaxy S23 Ultra. Teilen Sie das Epos mit unserem bisher leistungsstärksten Prozessor, einer Profi-Kamera mit epischer Nachtfotografie und dem mächtigen e...“
},
{
"Position": 8,
„Titel“: „Samsung Galaxy S23 Ultra Testbericht | Tom‘s Guide“,
"URL": „https://www.tomsguide.com/reviews/samsung-galaxy-s23-ultra“,
„Beschreibung“: „Web18. September 2023 · Das Samsung Galaxy S23 Ultra bringt Samsungs Flaggschiff mit einer satten 200-MP-Kamera und vielen weiteren Verbesserungen in der Fotografie auf die nächste Stufe. Sie erhalten außerdem einen Qualcomm Snapdragon 8 …“
},
{
"Position": 9,
„Titel“: „Samsung Galaxy S23 Ultra Preis in Pakistan 2024“,
"URL": „https://priceoye.pk/mobiles/samsung/samsung-galaxy-s23-ultra“,
„Beschreibung“: „Kaufen Sie das Samsung Galaxy S23 Ultra im Internet zum niedrigsten Preis in Pakistan für 494,999 Rupien. Prüfen Sie die Preise in allen Online-Shops, vergleichen Sie Spezifikationen und Funktionen und erhalten Sie die neuesten Angebote und Geschenkgutscheine. Sehen Sie sich die Highlights, Spezifikationen usw.“ an.“
},
{
"Position": 10,
„Titel“: „Samsung Galaxy S23 Ultra: Erscheinungsdatum, Preis, Spezifikationen …“,
"URL": „https://www.techradar.com/news/samsung-galaxy-s23-ultra“,
„Beschreibung“: „Web1. Februar 2023 · Das Samsung Galaxy S23 Ultra sowie die parallel dazu auf den Markt gebrachten Smartphones werden am Freitag, den 17. Februar, auf den Markt kommen. Die Geräte können ab sofort vorbestellt werden. Wenn Sie sich jedoch ein … sichern möchten, …“
}
]
}

IV. Einrichten des Crawlbase Scrapers

Nachdem wir nun die Schritte für Puppeteer erläutert haben, erkunden wir den Scraper. Folgendes müssen Sie tun, wenn Sie den Scraper zum ersten Mal verwenden:

API-Anmeldeinformationen abrufen:

  1. Melden Sie sich für Scraper an:
  • Beginnen Sie mit Anmeldung auf der Crawlbase-Website, um Zugriff auf den Scraper zu erhalten.
  1. Zugriff auf die API-Dokumentation:
  1. API-Anmeldeinformationen abrufen:
  • Finden Sie Ihre API-Anmeldeinformationen (z. B. API-Schlüssel) entweder in der Dokumentation oder auf Ihrem Benutzerkonto Übersicht. Diese Anmeldeinformationen sind für die Authentifizierung Ihrer Anfragen an den Scraper von entscheidender Bedeutung.
Crawlbase-Dokumente

Vorbereiten der Codierungsumgebung

Um Ihr Scraper-Projekt mit Crawlbase Scraper zu starten und die Scraping-Umgebung erfolgreich einzurichten, folgen Sie diesen Befehlen:

  1. Projektordner erstellen
1
mkdir Bing-SERP

Dieser Befehl erstellt einen leeren Ordner namens „bing-serp“, um Ihr Scraping-Projekt zu organisieren.

  1. Zum Projektordner navigieren
1
cd Bing-SERP

Verwenden Sie diesen Befehl, um das neu erstellte Verzeichnis aufzurufen und sich auf das Schreiben Ihres Scraping-Codes vorzubereiten.

  1. JS-Datei erstellen
1
aufnehmen index.js

Dieser Befehl erzeugt eine index.js Datei, in die Sie den JavaScript-Code für Ihren Scraper schreiben.

  1. Crawlbase-Paket installieren
1
npm installiere Crawlbase

Die Crawlbase Node-Paket wird für die Interaktion mit den Crawlbase-APIs, einschließlich dem Scraper, verwendet. So können Sie HTML abrufen, ohne blockiert zu werden, und Inhalte effizient von Websites scrapen.

Scraping der Bing-SERP mit Scraper

Nachdem wir mit der Einrichtung Ihrer Codierungsumgebung fertig sind, können wir nun mit der Integration des Scrapers in unser Skript beginnen.

Kopieren Sie den untenstehenden Code und ersetzen Sie ihn "Crawlbase_TOKEN" mit Ihrem tatsächlichen Crawlbase API-Token für eine ordnungsgemäße Authentifizierung.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
// Crawlbase Scraper API-Paket importieren
const { SchaberAPI } = erfordern(„Crawlbase“);

// Importieren Sie das Modul „fs“
const fs = erfordern('fs');

// Scraper-API initialisieren
const API = neu SchaberAPI({ Zeichen: 'Crawlbase_TOKEN' }); // Ersetzen Sie es durch Ihr Crawlbase-Token

// Bing SERP-URL
const bingSerpURL = „https://www.bing.com/search?q=samsung+s23+ultra“;

// Definieren des Javascript-Parameters, um korrektes Scraping für Bing SERP zu ermöglichen
const Optionen = {
Javascript: was immer dies auch sein sollte.,
};

// Scraper-API erhält Anforderungsausführung
Bienen
.bekommen(bingSerpURL, Optionen)
.dann((Antwort) => {
const scrapedData = Antwort.JSON.Körper;

fs.SchreibeFileSync(„bing_scraped.json“, JSON.stringifizieren({ scrapedData }, null, 2));
})
.Fang((Fehler) => {
trösten.Log(Fehler, 'FEHLER');
});

Führen Sie den obigen Code mit einem einfachen Befehl aus:

1
Knoten index.js

Das Ergebnis sollte im JSON-Format vorliegen, wie unten gezeigt:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
{
„abgekratztDaten“: {
"Suchergebnisse": [
{
"Position": 1,
„Titel“: „Samsung Galaxy S23 Ultra | Samsung US – Samsung Electronics America“,
"URL": „https://www.samsung.com/us/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebGalaxy S23 Ultra. Mit einer 200-MP-Kamera und unserem schnellsten Mobilprozessor aller Zeiten haben wir die Messlatte höher gelegt. ** Spezielle Angebote der Mobilfunkanbieter. JETZT KAUFEN. Ultra weiterentwickelt. 200-MP-Kamera, die höchste Auflösung auf einem Telefon. Unser schnellster Mobilprozessor aller Zeiten** Erweiterte Nachtfotografie. Eingebauter S Pen mit Kamera-Auslöser. Sehen Sie, was andere sagen.“
},
{
"Position": 2,
„Titel“: „Technische Daten | Samsung Galaxy S23 Ultra | Samsung US“,
"URL": „https://www.samsung.com/us/smartphones/galaxy-s23-ultra/specs/“,
„Beschreibung“: „JETZT IM WEB KAUFEN. 360°-ANSICHT. *Die Farbverfügbarkeit kann je nach Land oder Anbieter variieren. *Online-exklusive Farben nur auf Samsung.com verfügbar. Display. Optimiert für immersives Gaming. 6.8 Zoll* 3088 x 1440 (Edge Quad HD+) Spitzenhelligkeit. 1750 Nits. HDR. 1200 Nits. HBM. 1200 Nits. Adaptive Bildwiederholfrequenz. 1~120 Hz. Sehen Sie draußen klar und deutlich.“
},
{
"Position": 3,
„Titel“: „Samsung Galaxy S23 Ultra Testbericht | Tom‘s Guide“,
"URL": „https://www.tomsguide.com/reviews/samsung-galaxy-s23-ultra“,
„Beschreibung“: „Web, 18. September 2023 · Das Samsung Galaxy S23 Ultra bringt Samsungs Flaggschiff mit einer gewaltigen 200-MP-Kamera und vielen anderen Verbesserungen in der Fotografie auf die nächste Stufe. Sie erhalten außerdem einen Qualcomm Snapdragon 8 Gen...“
},
{
"Position": 4,
„Titel“: „Samsung Galaxy S23 Ultra | Samsung Kanada“,
"URL": „https://www.samsung.com/ca/smartphones/galaxy-s23-ultra/“,
„Beschreibung“: „WebGalaxy S23 Ultra. Lernen Sie das neue Galaxy S23 Ultra kennen, das für mehr Nachhaltigkeit entwickelt wurde und mit einem integrierten S Pen, einer Nightography-Kamera und einem leistungsstarken Chip für episches Gaming ausgestattet ist.“
},
{
"Position": 5,
„Titel“: „Galaxy S23 Ultra: Offizieller Einführungsfilm | Samsung – YouTube“,
"URL": „https://www.youtube.com/watch?v=BSYsXVFzmKA“,
„Beschreibung“: „Web 1. Februar 2023 · 6.55 Mio. Abonnenten. Abonniert. 106. Teilen. 25 Mio. Aufrufe vor 11 Monaten #GalaxyS23 #SharetheEpic #Samsung. Was ist neu? Das neue Galaxy S23 Ultra. Teile das Epos mit unserem leistungsstärksten …“
},
{
"Position": 6,
„Titel“: „Samsung Galaxy S23 vs. S23+ vs. S23 Ultra: Was ist der …“,
"URL": „https://www.pcmag.com/news/samsung-galaxy-s23-vs-s23-plus-vs-s23-ultra-whats-the-difference“,
„Beschreibung“: „Web, 1. Februar 2023 · 5G. Samsung Galaxy S23 vs. S23+ vs. S23 Ultra: Was ist der Unterschied? Alle drei Modelle der Galaxy S23-Reihe bieten erstklassige Leistung und Funktionen, aber welches sollten Sie kaufen? Wir...“
},
{
"Position": 7,
„Titel“: „Samsung Galaxy S23 Ultra im Test: Unbezwingbarer Showman“,
"URL": „https://www.techradar.com/reviews/samsung-galaxy-s23-ultra“,
„Beschreibung“: „Web, 13. Februar 2023 · Samsung Galaxy S23 Ultra. Kein Vertrag. 2 GB Datenvolumen. Kostenlos. Im Voraus. Monatlich 68.18 $/Monat. Website besuchen.“
},
{
"Position": 8,
„Titel“: „Galaxy S23 Ultra, 512 GB (entsperrt) | Samsung US“,
"URL": „https://www.samsung.com/us/smartphones/galaxy-s23-ultra/buy/galaxy-s23-ultra-512gb-unlocked-sm-s918uzrfxaa/“,
„Beschreibung“: „WebErfahren Sie mehr über die Hauptfunktionen des Galaxy S23 Ultra. Chatten Sie mit einem Experten. Galaxy S23 Ultra Galaxy S23 | S23+-Konnektivität. Wählen Sie Ihren Mobilfunkanbieter. Ausverkauft. Ausverkauft. Ausverkauft. Speicher. 256 GB. 1,199.99 $. 512 GB. 1,379.99 $. 1 TB. 1,619.99 $. ... Melden Sie sich jetzt an, um bis zu undefined % in Form von Samsung Rewards-Punkten zurückzuerhalten.“
},
{
"Position": 9,
„Titel“: „Samsung – Galaxy S23 Ultra 256 GB (entsperrt) – Phantomschwarz“,
"URL": „https://www.bestbuy.com/site/samsung-galaxy-s23-ultra-256gb-unlocked-phantom-black/6529723.p“,
„Beschreibung“: „Samsung Galaxy S23 Ultra 256 GB (entsperrt) Phantom Black im WebShop bei Best Buy. Finden Sie täglich niedrige Preise und kaufen Sie online zur Lieferung oder Abholung im Geschäft. Preisgarantie.“
},
{
"Position": 10,
„Titel“: „Samsung Galaxy S23 Ultra – Vollständige Telefonspezifikationen – GSMArena.com“,
"URL": „https://www.gsmarena.com/samsung_galaxy_s23_ultra-12024.php“,
„Beschreibung“: „WebSamsung Galaxy S23 Ultra. Erscheint am 2023. Februar 17. 234 g, 8.9 mm dick. Android 13, bis zu Android 14, One UI 6. 256 GB/512 GB/1 TB Speicher, kein Kartensteckplatz. 52 % 11,347,994 Treffer. 1485 werden …“
}
],
"VideosSuchergebnisse": [],
"verwandteSuchen": [],
"AnzahlErgebnisse": 14400000
}
}

V. Puppenspieler vs. Crawlbase Scraper

Bei der Entscheidung zwischen Puppeteer und Crawlbases Scraper zum Scraping von Bing Search Engine Results Pages (SERP) in JavaScript müssen mehrere Faktoren berücksichtigt werden. Lassen Sie uns die Vor- und Nachteile jeder Option aufschlüsseln:

Crawlbase VS Puppenspieler

Puppenspieler:

Vorteile:

  1. Volle Kontrolle: Puppeteer ist eine Headless-Browser-Automatisierungsbibliothek, die vollständige Kontrolle über den Browser bietet und Ihnen die Interaktion mit Webseiten wie ein Benutzer ermöglicht.
  2. Dynamischer Inhalt: Puppeteer eignet sich hervorragend zum Scraping von Seiten mit dynamischem Inhalt und starker JavaScript-Nutzung, da es Seiten rendert und JavaScript ausführt.
  3. Anpassung: Sie können Ihre Scraping-Logik umfassend anpassen und sie an spezifische Website-Strukturen und -Verhaltensweisen anpassen.
  4. Flexibilität: Puppeteer ist nicht auf Scraping beschränkt. Es kann auch für automatisierte Tests, das Erstellen von Screenshots, das Generieren von PDFs und mehr verwendet werden.

Nachteile:

  1. Lernkurve: Die Lernkurve bei Puppeteer ist möglicherweise steiler, insbesondere für Anfänger, da man verstehen muss, wie Browser funktionieren und wie man programmgesteuert mit ihnen interagiert.
  2. Ressourcenintensiv: Das Ausführen eines Headless-Browsers kann ressourcenintensiv sein und im Vergleich zu einfacheren Scraping-Lösungen mehr Speicher und CPU verbrauchen.
  3. Entwicklungszeit: Das Erstellen und Warten von Puppeteer-Skripten kann mehr Entwicklungszeit erfordern und potenziell die Gesamtprojektkosten erhöhen.

Scraper von Crawlbase:

Vorteile:

  1. Einfache Bedienung: Die Crawlbase-API ist benutzerfreundlich gestaltet, sodass Entwickler schnell loslegen können, ohne dass umfassende Kenntnisse im Bereich Codierung oder Browserautomatisierung erforderlich sind.
  2. Skalierbarkeit: Crawlbase API ist eine Cloud-basierte Lösung, die Skalierbarkeit bietet und Sie von der Verwaltung von Infrastrukturproblemen befreit.
  3. Proxy-Verwaltung: Die Crawlbase-API handhabt Proxys und IP-Rotation automatisch, was für die Vermeidung von IP-Sperren und die Verbesserung der Zuverlässigkeit entscheidend sein kann.
  4. Kosteneffizient: Abhängig von Ihren Scraping-Anforderungen kann die Verwendung eines Dienstes wie API kostengünstiger sein, insbesondere wenn Sie nicht die umfangreichen Funktionen eines Headless-Browsers benötigen.

Nachteile:

  1. Begrenzte Anpassung: Die Crawlbase-API weist im Vergleich zu Puppeteer möglicherweise Einschränkungen hinsichtlich der Anpassung auf. Sie ist möglicherweise nicht so flexibel, wenn Sie eine hochspezialisierte Scraping-Logik benötigen.
  2. Abhängigkeit von externen Diensten: Ihr Scraping-Prozess basiert auf einem externen Dienst. Das bedeutet, dass Sie der Verfügbarkeit und den Richtlinien dieses Dienstes unterliegen.

Fazit:

Wählen Sie Puppeteer, wenn:

  • Sie benötigen die volle Kontrolle und Möglichkeit zur individuellen Anpassung des Scraping-Vorgangs.
  • Ihnen ist bewusst, dass die Entwicklungszeit länger sein kann und die Kosten dadurch möglicherweise steigen.
  • Sie verfügen über Kenntnisse in der Verwaltung eines Headless-Browsers und sind bereit, Zeit in das Erlernen zu investieren.

Wählen Sie Crawlbase API, wenn:

  • Sie möchten eine schnelle und benutzerfreundliche Lösung, für die keine umfassenden Kenntnisse zur Browserautomatisierung erforderlich sind.
  • Skalierbarkeit und Proxy-Verwaltung sind für Ihre Scraping-Anforderungen von entscheidender Bedeutung.
  • Sie bevorzugen einen verwalteten Dienst und eine einfache Lösung für die schnelle Projektbereitstellung.
  • Sie streben eine kosteneffizientere Lösung unter Berücksichtigung der potenziellen Entwicklungszeit und Ressourcen an.

Letztendlich hängt die Wahl zwischen Puppeteer und Crawlbase API von Ihren spezifischen Anforderungen, Ihrem technischen Fachwissen und Ihren Präferenzen in Bezug auf Kontrolle und Benutzerfreundlichkeit ab.

Wenn Ihnen dieser Leitfaden gefällt, sehen Sie sich auch die anderen Scraping-Leitfäden von Crawlbase an. Nachfolgend finden Sie unsere empfohlenen Anleitungen:

Wie man Flipkart scrapt
Wie man Yelp scrapt
So kratzen Sie Glassdoor

VI. Häufig gestellte Fragen (FAQ)

F: Kann ich die Crawlbase-API für andere Websites verwenden?

Ja, die Crawlbase-API ist mit anderen Websites kompatibel, insbesondere mit beliebten wie Amazon, Google, Facebook, LinkedIn und mehr. Überprüfen Sie die Crawlbase API-Dokumentation für die vollständige Liste.

F: Gibt es eine kostenlose Testversion für die Crawlbase-API?

Ja, die ersten 1,000 kostenlosen Anfragen sind für reguläre Anfragen kostenlos. Wenn Sie JavaScript-Rendering benötigen, können Sie eines der kostenpflichtigen Pakete abonnieren.

F: Kann die Crawlbase-API meine IP-Adresse verbergen, um Sperren oder IP-Verbote zu vermeiden?

Ja. Die Crawlbase-API verwendet bei jeder Anfrage Millionen von Proxys, um gängige Scraping-Probleme wie Bot-Erkennung, CAPTCHAs und IP-Blockierungen effektiv zu umgehen.

Wenn Sie weitere Fragen oder Bedenken zu diesem Handbuch oder zur API haben, helfen Ihnen unsere Produktexperten gerne weiter. Bitte zögern Sie nicht, Kontaktieren Sie unser Support-Team. Viel Spaß beim Schaben!