Bei der Datenextraktion und -analyse ist das Scraping von Suchmaschinenergebnissen für Forscher, Entwickler und Analysten von entscheidender Bedeutung, die nach substanziellen Daten für Erkenntnisse oder Anwendungen suchen. Die Bedeutung des Scrapings erkennen Bing-Suchergebnisse gibt Zugang zu einer Fülle von Informationen und ermöglicht Benutzern, die umfangreiche Datenbank von Bing zu nutzen.
Dieser Leitfaden bietet einen praktischen Ansatz zum Scraping von Bing-Suchergebnissen mithilfe von JavaScript Puppeteer und dem Crawlbase Crawling API. Wir werden uns mit der Bedeutung von JavaScript Puppeteer für eine optimierte Interaktion mit der Suchmaschine von Bing befassen und verstehen, wie die Integration von Crawlbase Crawling API gewährleistet einen nahtlosen Zugriff auf Bing-Ergebnisse und umgeht mühelos gängige Scraping-Probleme.
Erkunden Sie mit uns das Bing SERP Scraping, während wir fortgeschrittene Web Scraping-Techniken erlernen, um das volle Potenzial von Microsoft Bing als wertvolle Datenquelle auszuschöpfen.
Inhaltsverzeichnis
I. Die Suchseitenstruktur von Bing verstehen
- Bing SERP-Struktur
- Zu scrapende Daten
II. Voraussetzungen
III. Puppeteer einrichten
- Vorbereiten der Codierungsumgebung
- Scraping der Bing-SERP mit Puppeteer
IV. Einrichten Crawlbase Crawling API
- API-Anmeldeinformationen abrufen
- Vorbereiten der Codierungsumgebung
- Scraping von Bing SERP mit Crawling API
V. Puppenspieler vs Crawling API
- Vor-und Nachteile
- Fazit
VI. Häufig gestellte Fragen (FAQ)
I. Die Suchseitenstruktur von Bing verstehen
Suchmaschinen spielen eine entscheidende Rolle dabei, Benutzern dabei zu helfen, sich in der riesigen Informationsflut des Internets zurechtzufinden. Mit seinen besonderen Funktionen und seiner wachsenden Nutzerbasis ist Microsofts Bing ein bedeutender Akteur in der Websuche. Im April 2024 erreichte Bing.com fast 1.3 Milliarden einzigartige Besucher weltweit, ein Beweis für seine weit verbreitete Nutzung und seinen Einfluss im Online-Bereich. Obwohl Bing im Vergleich zu den 1.4 Milliarden Besuchern des Vormonats einen leichten Rückgang verzeichnete und weit hinter Google liegt, bleibt es bei der Bereitstellung von Suchergebnissen relevant.

Bevor wir mit der Arbeit mit unserem Scraper beginnen, ist es wichtig, das Layout einer Bing SERP (Search Engine Results Page) zu verstehen, wie unsere Ziel-URL für diesen Leitfaden. Bing präsentiert Suchergebnisse normalerweise in einem Format, das verschiedene Elemente enthält, und Sie können mithilfe von Web Scraping-Techniken wertvolle Informationen aus diesen Elementen extrahieren. Hier ist ein Überblick über die Struktur und die Daten, die Sie scrapen können:
Bing SERP-Struktur
1. Suchergebnisse-Container
- Bing zeigt Suchergebnisse in einem Container an, normalerweise in einem Listenformat, wobei jedes Ergebnis einen eigenen Block hat.
2. Individueller Suchergebnisblock
- Jeder Suchergebnisblock enthält Informationen zu einer bestimmten Webseite, einschließlich Titel, Beschreibung und Link.
3. Titel
- Der Titel des Suchergebnisses ist die anklickbare Überschrift, die die Webseite repräsentiert. Benutzer müssen die Relevanz des Ergebnisses schnell erkennen.
4. Beschreibung
- Die Beschreibung bietet eine kurze Zusammenfassung oder einen Ausschnitt des Inhalts der Webseite. Sie bietet Benutzern zusätzlichen Kontext darüber, was sie von der verlinkten Seite erwarten können.
5. Verknüpfung
- Bei dem Link handelt es sich um die URL der zum Suchergebnis gehörenden Webseite. Durch Anklicken des Links gelangt der Nutzer auf die entsprechende Webseite.
6. Ergebnisvideos
- Bing kann Videoergebnisse direkt in die Suchergebnisse einbinden. Dabei kann es sich um Videos aus verschiedenen Quellen wie YouTube, Vimeo oder anderen Videoplattformen handeln.

Zu scrapende Daten:
1. Titel
- Extrahieren Sie die Titel jedes Suchergebnisses, um die Hauptthemen oder -motive der Webseiten zu verstehen.
2. Beschreibungen
- Scrapen Sie die Beschreibungen, um präzise Informationen über den Inhalt jeder Webseite zu sammeln. Dies kann zum Erstellen von Zusammenfassungen oder Snippets nützlich sein.
3. Links
- Erfassen Sie die URLs der Webseiten, die mit jedem Suchergebnis verknüpft sind. Diese Links sind für die Navigation zu den Quellseiten wichtig.
Wir zeigen Ihnen, wie einfach die Nutzung der Crawling API um die oben genannten Daten zu scrapen. Außerdem verwenden wir die Methode page.evaluate in Puppeteer, um eine Funktion im Kontext der von Puppeteer gesteuerten Seite auszuführen. Diese Funktion wird in der Browserumgebung ausgeführt und kann auf die DOM- (Document Object Model) und JavaScript-Variablen innerhalb der Seite zugreifen. Hier ist ein Beispiel:
1 | const Ergebnisse = – warten auf Sie! bewerten(() => { |
Kommen wir nun zum Hauptteil unseres Leitfadens, in dem wir Sie durch die Verwendung von Puppeteer führen und Crawling API Schritt für Schritt zum Scrapen von Bing-SERP-Daten.
II. Voraussetzungen
Stellen Sie vor dem Start sicher, dass die folgenden Voraussetzungen erfüllt sind:
- Node.js: Stellen Sie sicher, dass Node.js auf Ihrem Computer installiert ist. Sie können es hier herunterladen: Offizielle Website von Node.js.
- npm (Node-Paket-Manager): npm ist normalerweise in der Node.js-Installation enthalten. Überprüfen Sie, ob es verfügbar ist, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:
1 | npm -v |
Wenn die Version angezeigt wird, ist npm installiert. Wenn nicht, stellen Sie sicher, dass Node.js korrekt installiert ist, da npm darin gebündelt ist.
Die Installation von Node.js und npm gewährleistet ein reibungsloses Erlebnis beim Einrichten Ihrer Umgebung für Web Scraping mit Puppeteer oder Crawling API.
III. Puppeteer einrichten
Puppenspieler ist eine leistungsstarke Node.js-Bibliothek, die vom Chrome-Team bei Google entwickelt wurde. Sie bietet eine High-Level-API zur Steuerung von Headless- oder Vollbrowsern über das DevTools-Protokoll und ist damit eine ausgezeichnete Wahl für Aufgaben wie Web Scraping und automatisiertes Testen. Bevor wir uns in das Projekt mit Puppeteer stürzen, richten wir ein Node.js-Projekt ein und installieren das Puppeteer-Paket.
Vorbereiten der Codierungsumgebung
- Erstellen eines Node.js-Projekts
Öffnen Sie Ihr Terminal und führen Sie den folgenden Befehl aus, um ein einfaches Node.js-Projekt mit Standardeinstellungen zu erstellen:
1 | npm init -y |
Dieser Befehl erzeugt eine package.json Datei, die Metadaten zu Ihrem Projekt und seinen Abhängigkeiten enthält.
- Puppeteer installieren:
Sobald das Projekt eingerichtet ist, installieren Sie das Puppeteer-Paket mit dem folgenden Befehl:
1 | npm ich Puppenspieler |
Dieser Befehl lädt die Puppeteer-Bibliothek herunter und installiert sie, sodass Sie Browser programmgesteuert steuern können.
- Erstellen Sie eine Indexdatei:
Um den Code Ihres Web Scrapers zu schreiben, erstellen Sie eineindex.jsDatei. Verwenden Sie den folgenden Befehl, um die Datei zu generieren:
1 | aufnehmen index.js |
Dieser Befehl erzeugt eine leere index.js Datei, in die Sie das Puppeteer-Skript zum Scraping von Bing-SERP-Daten schreiben. Sie haben die Möglichkeit, den Dateinamen beliebig zu ändern.
Scraping der Bing-SERP mit Puppeteer
Wenn Ihr Node.js-Projekt initialisiert ist, Puppeteer installiert ist und ein index.js Datei fertig, sind Sie bereit, die Fähigkeiten von Puppeteer für Web Scraping zu nutzen. Kopieren Sie den Code unten und speichern Sie ihn auf Ihrem index.js Datei.
1 | // Benötigte Module importieren |
Lassen Sie uns den obigen Code mit einem einfachen Befehl ausführen:
1 | Knoten index.js |
Bei Erfolg erhalten Sie das Ergebnis im JSON-Format wie unten gezeigt:
1 | { |
IV. Einrichten Crawlbase's Schaber
Nachdem wir nun die Schritte für Puppeteer erläutert haben, erkunden wir den Scraper. Folgendes müssen Sie tun, wenn Sie den Scraper zum ersten Mal verwenden:
API-Anmeldeinformationen abrufen:
- Melden Sie sich für Scraper an:
- Beginnen Sie mit Anmeldung auf die Crawlbase Website, um Zugriff auf den Scraper zu erhalten.
- Zugriff auf die API-Dokumentation:
- Auf der Website Crawlbase API-Dokumentation um ein umfassendes Verständnis der Endpunkte und Parameter zu erlangen.
- API-Anmeldeinformationen abrufen:
- Finden Sie Ihre API-Anmeldeinformationen (z. B. API-Schlüssel) entweder in der Dokumentation oder auf Ihrem Benutzerkonto Übersicht. Diese Anmeldeinformationen sind für die Authentifizierung Ihrer Anfragen an den Scraper von entscheidender Bedeutung.

Vorbereiten der Codierungsumgebung
So starten Sie Ihr Scraper-Projekt mit Crawlbase Um Scraper zu installieren und die Scraping-Umgebung erfolgreich einzurichten, befolgen Sie diese Befehle:
- Projektordner erstellen
1 | mkdir Bing-SERP |
Dieser Befehl erstellt einen leeren Ordner namens „bing-serp“, um Ihr Scraping-Projekt zu organisieren.
- Zum Projektordner navigieren
1 | cd Bing-SERP |
Verwenden Sie diesen Befehl, um das neu erstellte Verzeichnis aufzurufen und sich auf das Schreiben Ihres Scraping-Codes vorzubereiten.
- JS-Datei erstellen
1 | aufnehmen index.js |
Dieser Befehl erzeugt eine index.js Datei, in die Sie den JavaScript-Code für Ihren Scraper schreiben.
- Installieren Crawlbase Verpackung
1 | npm installiere Crawlbase |
Die Crawlbase Knotenpaket dient zur Interaktion mit dem Crawlbase APIs, einschließlich des Scrapers, ermöglichen Ihnen das Abrufen von HTML ohne Blockierung und das effiziente Scrapen von Inhalten von Websites.
Scraping der Bing-SERP mit Scraper
Nachdem wir mit der Einrichtung Ihrer Codierungsumgebung fertig sind, können wir nun mit der Integration des Scrapers in unser Skript beginnen.
Kopieren Sie den untenstehenden Code und ersetzen Sie ihn "Crawlbase_TOKEN" mit Ihrem tatsächlichen Crawlbase API-Token für die ordnungsgemäße Authentifizierung.
1 | // importieren Crawlbase Scraper API Paket |
Führen Sie den obigen Code mit einem einfachen Befehl aus:
1 | Knoten index.js |
Das Ergebnis sollte im JSON-Format vorliegen, wie unten gezeigt:
1 | { |
V. Puppenspieler vs Crawlbase Schaber
Bei der Entscheidung zwischen Puppeteer und CrawlbaseBeim Scraping von Bing-Suchmaschinen-Ergebnisseiten (SERP) in JavaScript gibt es mehrere Faktoren zu berücksichtigen. Lassen Sie uns die Vor- und Nachteile der einzelnen Optionen analysieren:

Puppenspieler:
Vorteile:
- Volle Kontrolle: Puppeteer ist eine Headless-Browser-Automatisierungsbibliothek, die vollständige Kontrolle über den Browser bietet und Ihnen die Interaktion mit Webseiten wie ein Benutzer ermöglicht.
- Dynamischer Inhalt: Puppeteer eignet sich hervorragend zum Scraping von Seiten mit dynamischem Inhalt und starker JavaScript-Nutzung, da es Seiten rendert und JavaScript ausführt.
- Anpassung: Sie können Ihre Scraping-Logik umfassend anpassen und sie an spezifische Website-Strukturen und -Verhaltensweisen anpassen.
- Flexibilität: Puppeteer ist nicht auf Scraping beschränkt. Es kann auch für automatisierte Tests, das Erstellen von Screenshots, das Generieren von PDFs und mehr verwendet werden.
Nachteile:
- Lernkurve: Die Lernkurve bei Puppeteer ist möglicherweise steiler, insbesondere für Anfänger, da man verstehen muss, wie Browser funktionieren und wie man programmgesteuert mit ihnen interagiert.
- Ressourcenintensiv: Das Ausführen eines Headless-Browsers kann ressourcenintensiv sein und im Vergleich zu einfacheren Scraping-Lösungen mehr Speicher und CPU verbrauchen.
- Entwicklungszeit: Das Erstellen und Warten von Puppeteer-Skripten kann mehr Entwicklungszeit erfordern und potenziell die Gesamtprojektkosten erhöhen.
Crawlbase's Schaber:
Vorteile:
- Einfache Bedienung: Crawlbase Die API ist benutzerfreundlich gestaltet, sodass Entwickler schnell und einfach loslegen können, ohne dass umfangreiche Kenntnisse im Bereich Codierung oder Browserautomatisierung erforderlich sind.
- Skalierbarkeit: Crawlbase API ist eine Cloud-basierte Lösung, die Skalierbarkeit bietet und Sie von der Verwaltung von Infrastrukturproblemen befreit.
- Proxy-Verwaltung: Crawlbase Die API verarbeitet Proxys und IP-Rotation automatisch, was für die Vermeidung von IP-Sperren und die Verbesserung der Zuverlässigkeit entscheidend sein kann.
- Kosteneffizient: Abhängig von Ihren Scraping-Anforderungen kann die Verwendung eines Dienstes wie API kostengünstiger sein, insbesondere wenn Sie nicht die umfangreichen Funktionen eines Headless-Browsers benötigen.
Nachteile:
- Begrenzte Individualisierung: Crawlbase Die API weist im Vergleich zu Puppeteer möglicherweise Einschränkungen hinsichtlich der Anpassungsmöglichkeiten auf. Sie ist möglicherweise nicht so flexibel, wenn Sie eine hochspezialisierte Scraping-Logik benötigen.
- Abhängigkeit von externen Diensten: Ihr Scraping-Prozess basiert auf einem externen Dienst. Das bedeutet, dass Sie der Verfügbarkeit und den Richtlinien dieses Dienstes unterliegen.
Fazit:
Wählen Sie Puppeteer, wenn:
- Sie benötigen die volle Kontrolle und Möglichkeit zur individuellen Anpassung des Scraping-Vorgangs.
- Ihnen ist bewusst, dass die Entwicklungszeit länger sein kann und die Kosten dadurch möglicherweise steigen.
- Sie verfügen über Kenntnisse in der Verwaltung eines Headless-Browsers und sind bereit, Zeit in das Erlernen zu investieren.
Wählen Crawlbase API, wenn:
- Sie möchten eine schnelle und benutzerfreundliche Lösung, für die keine umfassenden Kenntnisse zur Browserautomatisierung erforderlich sind.
- Skalierbarkeit und Proxy-Verwaltung sind für Ihre Scraping-Anforderungen von entscheidender Bedeutung.
- Sie bevorzugen einen verwalteten Dienst und eine einfache Lösung für die schnelle Projektbereitstellung.
- Sie streben eine kosteneffizientere Lösung unter Berücksichtigung der potenziellen Entwicklungszeit und Ressourcen an.
Letztlich ist die Wahl zwischen Puppenspieler und Crawlbase Die API hängt von Ihren spezifischen Anforderungen, Ihrem technischen Fachwissen und Ihren Präferenzen hinsichtlich Kontrolle und Benutzerfreundlichkeit ab.
Wenn Ihnen dieser Leitfaden gefällt, schauen Sie sich auch andere Scraping-Anleitungen an von Crawlbase. Nachfolgend finden Sie unsere empfohlenen Anleitungen:
Wie man Flipkart scrapt
Wie man Yelp scrapt
So kratzen Sie Glassdoor
VI. Häufig gestellte Fragen (FAQ)
F. Kann ich die Crawlbase API für andere Websites?
Ja, der Crawlbase Die API ist mit anderen Websites kompatibel, insbesondere mit beliebten wie Amazon, Google, Facebook, LinkedIn und anderen. Überprüfen Sie die Crawlbase API-Dokumentation für die vollständige Liste.
F: Gibt es eine kostenlose Testversion für Crawlbase API?
Ja, die ersten 1,000 kostenlosen Anfragen sind für reguläre Anfragen kostenlos. Wenn Sie JavaScript-Rendering benötigen, können Sie eines der kostenpflichtigen Pakete abonnieren.
F. Kann der Crawlbase API meine IP-Adresse verbergen, um Sperren oder IP-Verbote zu vermeiden?
Ja. die Crawlbase API nutzt Millionen von Proxys und verstecke deine IP bei jeder Anfrage, um gängige Scraping-Probleme wie Bot-Erkennung, CAPTCHAs und IP-Blockierungen effektiv zu umgehen.
Wenn Sie weitere Fragen oder Bedenken zu diesem Handbuch oder zur API haben, helfen Ihnen unsere Produktexperten gerne weiter. Bitte zögern Sie nicht, Kontaktieren Sie unser Support-Team. Viel Spaß beim Schaben!











