Baidu, besser bekannt als das „chinesische Google“, ist die meistgenutzte Suchmaschine in China. Wenn Sie sich für Markttrends, SEO-Recherche oder einfach nur für die beliebtesten Themen in China interessieren, sind Daten von Baidu fast ein Muss.
In diesem Blog zeigen wir Ihnen eine einfache Möglichkeit, Baidu mit Python zu scrapen und Crawlbase. Mit solchen Tools ist das manuelle Erstellen und Verwalten von Proxys nicht mehr erforderlich; ein einfaches Skript kann die Aufgabe erledigen.
Deine Reise Melden Sie sich an und erhalten Sie kostenlose Credits zum Ausprobieren Crawlbase jetzt an.
Inhaltsverzeichnis
- Scraping der Baidu-Suchergebnisse: Übersicht
- Einrichten Crawlbase und Codierungsumgebung
- So crawlen und scrapen Sie Baidu
- Schnelle Tipps zum Scrapen von Baidu
- Häufig gestellte Fragen
Scraping der Baidu-Suchergebnisse: Übersicht
Wir kombinieren zwei Haupttools, um Daten aus Baidu zu extrahieren, das allgemein als chinesisch-englische Suchmaschine bezeichnet wird: Crawlbase und BeautifulSoup.
Crawlbase Crawling API ermöglicht es Ihnen, Blockaden beim Crawlen von Websites zu vermeiden. Es nutzt alle notwendigen Techniken, wie z. B. rotierende IPs, die Handhabung von CAPTCHAs und die Simulation realer Browser, um den Erfolg des Projekts sicherzustellen. Das bedeutet, dass Sie keinen komplexen Scraper benötigen, der menschliches Verhalten nachahmt. Sie müssen die URL an Crawlbase und erhalten Sie die vollständige HTML-Antwort.
Sobald wir das HTML haben, nutzen wir BeautifulSoup zum Scraping. Die Python-Bibliothek vereinfacht das Parsen von Webseiten, sodass Sie die gewünschten Informationen schnell und einfach finden und abrufen können. Sie können beliebige Tags oder Klassen auswählen, fast wie mit bekannten CSS-Selektoren. Das macht das Skript einfach und für jeden leicht lesbar.
Wir werden uns mit dem Scraper, den wir erstellen werden, auf drei Schlüsselbereiche der Baidu-Suchergebnisseite konzentrieren. Schauen wir uns das an Beispiel-Baidu-URL.
Öffnen Sie die Seite in Ihrem Browser und prüfen Sie die folgenden Elemente (Rechtsklick → Prüfen):
- Search Results: Sie finden dies in einem
divmit der Klassetitle-box_4YBsj, gefolgt von einemh3tag mit der klasset.

- Verwandte Suchen: Diese befinden sich in einem
tablemit der Klassers-table_3RiQc, navigieren Sie durch seinetrundtdTags, um die Links zu erhalten.

- Seitennummerierung: Um mehr Ergebnisse zu laden, erhöhen wir den Abfrageparameter pn in der URL um ein Vielfaches von 10 (wie
pn=10,pn=20, Etc.).
Einrichten Crawlbase und Codierungsumgebung
- Gehe zu Crawlbase um ein Konto zu erstellen und sich anzumelden.
- Die ersten 1,000 Anfragen sind kostenlos. Wenn Sie weitere 9,000 Anfragen kostenlos erhalten möchten, Fügen Sie Ihre Rechnungsdetails hinzu bevor Sie eines der kostenlosen Startguthaben verbrauchen.
- Holen Sie sich Ihren API-Schlüssel oder die Normales Anforderungstoken. Wir werden es zum Crawlen von Baidu verwenden.
Richten Sie als Nächstes Ihre Python-Umgebung ein:
- Stelle sicher Python 3 installiert ist.
- Öffnen Sie ein Terminal und installieren Sie die erforderlichen Bibliotheken:
1 | Pip-Installationsanfragen beautifulsoup4 |
Das war's. Sie können jetzt mit dem Schreiben des Scrapers beginnen.
So crawlen und scrapen Sie Baidu-Suchergebnisse
Jetzt sind Ihre wichtigsten Tools bereit. Lassen Sie uns Spaß haben, indem wir ein einfaches Skript erstellen, um den HTML-Code abzurufen mit CrawlbaseDies ist mit diesen Schritten möglich:
Schritt 1: Behandeln Sie Blöcke und CAPTCHAs mit Crawlbase
Erstellen Sie eine neue Datei mit dem Namen crawling.pyund fügen Sie den folgenden Code hinzu:
1 | von Anfragen.Ausnahmen importieren RequestException |
Was dieses Skript macht:
- Definiert a
crawl()Funktion, die eine Ziel-URL akzeptiert. - Verwendung
requestsum eine GET-Anfrage an die Crawlbase API. - Akzeptiert Ihre Normales Anforderungstoken um die Anfrage zu authentifizieren. Vergessen Sie also nicht, es zu ändern.
- Überprüft, ob die Originalseite eine 200 OK Status.
- Gibt den vollständigen HTML-Inhalt aus dem Hauptteil der Antwort zurück.
Mit diesem Skript können Sie problemlos jede öffentliche Webseite abrufen, während Crawlbase behandelt Probleme wie Blockierungen, CAPTCHAs und Ratenbegrenzungen für Sie.
Schritt 2: HTML mit Beautifulsoup scrapen
Wir werden verwenden BeautifulSoup um die notwendigen Daten aus der Baidu-Suchergebnisseite für diesen Schritt zu extrahieren, die aus dem Roh-HTML stammen, das mit Crawlbase.
Erstellen Sie also eine Datei mit dem Namen scraping.py und fügen Sie den folgenden Code hinzu:
1 | von bs4 importieren BeautifulSuppe |
Was dieses Skript macht:
- Analysiert das HTML mit
BeautifulSoup. - Extrahiert die folgenden Daten:
- Die Seite
<title>-Tag. - Die Suchanfrage aus dem Eingabefeld mit dem Namen „wd".
- Suchergebnistitel und URLs von
div.title-box_4YBsj h3.t. - Verwandte Suchlinks von
table.rs-table_3RiQc tr td a.
- Die Seite
- Gibt die Daten in einem sauberen, strukturierten Format zurück, das Sie verwenden oder speichern können.
Schritt 3: Kombinieren Sie Ihre Skripte
Nachdem wir nun sowohl die Crawling- als auch die Scraping-Skripte bereit haben, ist es an der Zeit, alles zusammenzufügen und die Ergebnisse anzuzeigen.
Speichern Sie Folgendes in einer Datei mit dem Namen main.py:
1 | von Krabbeln importieren kriechen |
Was dieses Skript macht:
- Verwendet Ihre
crawl()Funktion zum Abrufen des HTML-Inhalts der Baidu-Suchergebnisse für die Abfrage „苹果 iPhone". - Übergibt das HTML an
scrape_html()um strukturierte Daten zu extrahieren. - Konvertiert das Ergebnis in schön gedrucktes JSON und zeigt es in der Konsole an.
Schritt 4: Führen Sie das Hauptskript aus
Führen Sie von Ihrem Terminal aus:
1 | python main.py |
Sie sollten so etwas sehen:

Diese Ausgabe bestätigt, dass Ihr Crawler und Scraper erfolgreich zusammenarbeiten, um Roh-HTML in saubere, nutzbare Daten umzuwandeln.
Kurztipps zum Scraping der Baidu-Suchergebnisse
Hier sind einige kurze Tipps, die Sie beim weiteren Aufbau beachten sollten, nachdem Sie Ihren Baidu-Such-Scraper mit Python eingerichtet haben. Crawlbaseund BeautifulSoup:
- Crawlbase Ratenbegrenzungen: Beachten Sie die Standard-Ratenbegrenzung von 20 Anfragen pro Sekunde, um 429-Fehler zu vermeiden. Wenn Sie mehr Anfragen als die Standardeinstellung senden müssen, wenden Sie sich bitte an Crawlbase Kundendienst.
- 5XX PC-Statuscodes: Alle 5XX-Fehlercodes sind kostenlos. Wenn dieser Fehler auftritt, bedeutet dies in der Regel, dass Ihre URL blockiert ist, nicht reagiert oder derzeit nicht verfügbar ist. Glücklicherweise können Sie diese Fehler problemlos erneut versuchen, da dies kostenlos ist.
- HTML mit DevTools prüfen: Kehren Sie immer zur HTML-Seite zurück und überprüfen Sie die Elemente, um festzustellen, ob Änderungen an der CSS-Klasse vorgenommen wurden oder ob in Ihrem Scraper etwas kaputt geht. Das ist ein häufiges Problem, lässt sich aber schnell beheben.
- Probieren Sie verschiedene Abfragen aus: Ändern Sie die Baidu-Such-URL, um sie mit anderen Schlüsselwörtern zu testen und zu untersuchen, wie sich die Struktur ändert.
- Exportieren Sie Ihre Daten: Schreiben Sie die Ausgabe in eine
.jsonor.csvDatei mitjson.dump()orcsv.DictWriter()zur späteren Verwendung.
Wenn Sie es noch nicht getan haben, melden Sie sich an für Crawlbase um Ihr kostenloses API-Token zu erhalten und das Web in großem Umfang zu erkunden, ohne blockiert zu werden.
Häufig gestellte Fragen (FAQs)
F: Was ist Crawlbaseund wie hilft es beim Web Scraping von Baidu?
Crawlbase ist eine Plattform, die sich hauptsächlich auf die Erfassung von Webdaten konzentriert. Sie übernimmt die technischen Aspekte des Scrapings, wie das Ändern von IP-Adressen, das Umgehen von Anti-Bot-Schutzmechanismen und die Rückgabe der Rohwebseite als sauberes HTML, das Sie problemlos in Ihrem Code verwenden können. Sie müssen sich keine Sorgen mehr über typische Scraping-Hindernisse machen.
F: Kann ich Baidu mit Python scrapen?
Ja, das ist möglich. Mit Requests und BeautifulSoup können Sie Suchergebnisseiten abrufen und bearbeiten. Crawlbase fungiert als Brücke, stellt sicher, dass Ihre Anfragen reibungslos bearbeitet werden und verhindert, dass Sie blockiert werden.
F: Warum BeautifulSoup zum Scraping der Baidu-Suchmaschine verwenden?
BeautifulSoup wurde für die Datenextraktion aus Webseiten entwickelt. Selbst für Einsteiger ist es einfach zu bedienen. Es ist auch eine beliebte Wahl für die Verarbeitung von sowohl ordentlichem als auch unübersichtlichem HTML, wie z. B. Suchergebnissen.
F: Muss ich JavaScript-Rendering verwenden, um Baidu zu scrapen?
Normalerweise wird der Hauptinhalt von Baidu ohne zusätzliches Skripting geladen. Wenn Sie jedoch auf eine Seite stoßen, die dies erfordert, Crawlbase bietet eine JavaScript-Option zum Verarbeiten von Websites, die einen Abruf im Browserstil erfordern.











