Baidu-Suchergebnisse scrapen

Q: Wie paginiere ich durch mehr Baidu-Ergebnisse?

Verwenden Sie den Query-Parameter pn, der ein Offset in Vielfachen von 10 ist: pn=10 ist die zweite Seite, pn=20 die dritte und so weiter. Erstellen Sie jede Seiten-URL mit dem Offset, rufen Sie sie über die Crawling API ab, parsen Sie sie mit derselben Funktion und pausieren Sie ein paar Sekunden zwischen Anfragen, damit Sie das Crawlen bremsen statt es zu hämmern.

Q: Meine Selektoren geben nichts zurück. Was hat sich geändert?

Fast sicher Baidus Markup. Klassennamen wie title-box_4YBsj tragen ein generiertes Suffix, das sich ändert, wenn Baidu sein Frontend neu deployt, sodass Selektoren, die letzten Monat funktioniert haben, jetzt kaputt sein können. Untersuchen Sie eine Live-Ergebnisseite in den Dev-Tools Ihres Browsers und aktualisieren Sie die Selektoren. Periodische Selektor-Wartung ist bei jedem Produktions-Scraper normal.

Baidu ist die dominierende Suchmaschine in China, der erste Anlaufpunkt der meisten chinesischen Nutzer bei einer Suche. Das macht seine öffentlichen Suchergebnisse zu einem nützlichen Signal für jeden, der Keyword-Recherche, SEO-Tracking, Marktanalyse betreibt oder einfach verstehen möchte, was in einem Markt rankt, den Google nicht anführt. Die Ergebnisseite trägt dieselben strukturierten Daten, die ein SERP-Tool überall sonst möchte: Titel, Links, Snippets und die Reihenfolge, in der sie erscheinen.

Dieser Leitfaden zeigt Ihnen, wie Sie Baidu-Suchergebnisse mit Python zuverlässig scrapen. Sie bauen einen kleinen, lauffähigen Scraper, der eine gerenderte Ergebnisseite über die Crawling API abruft, jedes Ergebnis mit BeautifulSoup parst und saubere strukturierte Ausgaben druckt. Das gesamte Tutorial beschränkt sich auf öffentliche Suchergebnisdaten, die jeder ohne Konto sehen kann, und der Abschnitt zur Rechtslage am Ende ist kein Boilerplate, also lesen Sie ihn, bevor Sie dies auf echtes Volumen loslassen.

Was Sie bauen werden

Ein Python-Skript, das eine öffentliche Baidu-Such-URL nimmt, das HTML über die Crawling API abruft und einen strukturierten Datensatz für jedes organische Ergebnis auf der Seite extrahiert. Als laufendes Beispiel verwenden wir eine Beispielabfrage und ziehen diese Felder aus jedem Ergebnis:

Titel der Titeltext des Ergebnisses, wie im Angebot angezeigt.
Link die Ziel-URL, auf die das Ergebnis verweist.
Snippet die angezeigte Beschreibung oder Zusammenfassung unter dem Titel.
Position der Rang des Ergebnisses auf der Seite, von oben gezählt.

Warum eine einfache Anfrage bei Baidu scheitert

Wenn Sie eine rohe HTTP-Anfrage aus einem Skript an eine Baidu-Ergebnis-URL senden, bekommen Sie selten die saubere Seite, die Sie in Ihrem eigenen Browser sehen. Zwei Dinge arbeiten gegen Sie. Erstens wird Baidu von innerhalb Chinas bedient und passt an, was es basierend auf der anfragenden IP zurückgibt, sodass eine ausländische Rechenzentrums-Adresse möglicherweise eine Region-Sperre oder Teilinhalt zurückbekommt. Zweitens beobachtet Baidu automatisierten Traffic: Anfragen, die nicht wie ein echter Browser aussehen, werden herausgefordert, mit einer Verifikationsseite bedient oder blockiert, bevor sie die Angebote erreichen.

Ein funktionierender Baidu-Scraper benötigt also zwei Dinge in einer einzigen Anfrage: eine IP, die die Plattform als echten Besucher liest, und, wenn die Seite auf Scripts angewiesen ist, einen Browser, der sie rendert. Sie können das selbst mit einem Headless-Browser plus einem Pool rotierender Residential Proxys zusammenbauen, aber diese gesund zu halten ist der Hauptteil der Arbeit. Die Crawling API fasst beides in einem einzigen Aufruf zusammen: Sie senden die URL, sie ruft von einer vertrauenswürdigen Residential-IP ab und rendert bei Bedarf, und gibt fertiges HTML zum Parsen zurück.

Warum Residential Rotation hier wichtig ist

Baidu ist geo-sensitiv auf eine Weise, die die meisten westlichen Ziele nicht sind. Eine Anfrage von einer Residential-IP sieht wie ein gewöhnlicher Besucher aus, während eine ausländische Rechenzentrums-Adresse ein sofortiges Erkennungsmerkmal ist. Die Crawling API rotiert serverseitig durch Residential-Adressen, sodass Sie diesen Pool nicht selbst beschaffen und pflegen müssen. Sie können mit bis zu 20.000 kostenlosen Anfragen starten, keine Kreditkarte erforderlich.

Voraussetzungen

Bevor Sie Code schreiben, müssen einige Dinge eingerichtet sein. Keines davon dauert lange.

Python-Grundkenntnisse. Sie sollten in der Lage sein, ein Python-Skript zu schreiben und auszuführen und Pakete mit pip zu installieren. Wenn BeautifulSoup neu für Sie ist, behandelt unser Leitfaden zur Verwendung von BeautifulSoup in Python die Parsing-Grundlagen, auf die dieses Tutorial aufbaut.

Python 3.8 oder neuer. Überprüfen Sie Ihre Version mit python --version. Falls nicht vorhanden, installieren Sie Python von python.org oder über eine Distribution wie Anaconda.

Ein Crawlbase-Konto und Token. Melden Sie sich an, öffnen Sie Ihr Dashboard und kopieren Sie Ihr Anfrage-Token von der Kontodokumentationsseite. Sie erhalten bis zu 20.000 kostenlose Anfragen: 1.000 bei der Anmeldung und mehr, während Sie die Onboarding-Schritte abschließen. Behandeln Sie das Token wie ein Passwort: Es authentifiziert Ihre Anfragen, halten Sie es also aus der Versionsverwaltung heraus.

Das Projekt einrichten

Erstellen Sie eine virtuelle Umgebung, damit Projektabhängigkeiten isoliert bleiben, und installieren Sie dann die zwei Bibliotheken, die der Scraper benötigt.

bash

python --version

python -m venv baidu_env
source baidu_env/bin/activate

pip install requests beautifulsoup4

Unter Windows aktivieren Sie die Umgebung mit baidu_env\Scripts\activate statt der source-Zeile. Zwei Abhängigkeiten übernehmen die Arbeit: requests sendet den HTTP-Aufruf an die Crawling API, und beautifulsoup4 parst das zurückgegebene HTML, sodass Sie einzelne Felder per CSS-Selektor herausziehen können.

Schritt 1: Die Seite über die Crawling API abrufen

Beginnen Sie damit, das HTML zu laden. Schreiben Sie eine kleine crawl()-Funktion, die Ihre Ziel-URL mit Ihrem Token an die Crawling API sendet, prüft, dass die zugrundeliegende Seite mit einem 200-Status zurückgekommen ist, und den HTML-Body zurückgibt. Das Prüfen des Status vor dem Parsen hält Fehler laut statt stumm.

python

import json
import requests

API_TOKEN = "YOUR_CRAWLBASE_TOKEN"  # replace with your token
API_ENDPOINT = "https://api.crawlbase.com/"

def crawl(url):
    params = {"token": API_TOKEN, "url": url}
    response = requests.get(API_ENDPOINT, params=params)
    response.raise_for_status()

    data = json.loads(response.text)
    if data["original_status"] != 200:
        raise Exception(f"Unable to crawl '{url}'")

    return data["body"]

if __name__ == "__main__":
    url = "https://www.baidu.com/s?ie=utf-8&wd=%E8%8B%B9%E6%9E%9C%20iPhone"
    html = crawl(url)
    print(html[:500])

Die API gibt einen JSON-Envelope zurück, also laden Sie die Antwort mit json.loads und lesen Sie zwei Felder: original_status ist der Status, den Baidu selbst zurückgegeben hat, und body ist das Seiten-HTML. Die Prüfung auf original_status bedeutet, dass eine Region-Sperre oder eine Sperre als Exception auftaucht, statt Müll in den Parser zu speisen. Die Beispielabfrage ist "苹果 iPhone" (Apple iPhone), URL-kodiert im Parameter wd, was Baidus Art ist, den Suchbegriff zu übertragen. Führen Sie das Skript mit python crawling.py aus und Sie sollten echtes Ergebnis-Markup in den ersten 500 Zeichen sehen, was bestätigt, dass der Fetch funktioniert, bevor Sie einen einzigen Selektor schreiben.

Crawlbase Crawling API

Diese original_status-Prüfung liest nur deshalb immer 200, weil die Anfrage Baidu von vornherein als echter Besucher erreicht. Die Crawling API ruft die Seite von einer rotierenden Residential-IP in der richtigen Region ab, rendert sie wenn die Seite einen Browser benötigt, und gibt fertiges HTML zurück, sodass Sie kein eigenes Headless-Fleet und keinen Residential-Proxy-Pool selbst betreiben müssen. Richten Sie es zuerst auf eine öffentliche Ergebnis-URL im kostenlosen Tarif aus.

Start free

Schritt 2: Die Ergebnisse mit BeautifulSoup parsen

Mit dem HTML laden Sie es in BeautifulSoup und ziehen jedes Ergebnis per Selektor heraus. Baidu kapselt jedes organische Ergebnis in einem Titelblock und liest den Ziel-Link aus dem Anker darin. Untersuchen Sie die Live-Seite in den Dev-Tools Ihres Browsers (rechtsklick, dann Untersuchen), um die aktuellen Klassennamen zu bestätigen; die untenstehenden Selektoren entsprechen dem Layout zum Zeitpunkt des Schreibens.

python

from bs4 import BeautifulSoup

def scrape_html(html):
    soup = BeautifulSoup(html, "html.parser")

    page_title = soup.title.string if soup.title else None
    search_input = soup.find("input", {"name": "wd"})
    search_query = search_input.get("value", "") if search_input else ""

    results = []
    for position, block in enumerate(soup.select("div.title-box_4YBsj"), start=1):
        heading = block.select_one("h3.t")
        link = block.select_one("a[href]")
        snippet = block.find_next("div", class_="content-right_2s-H4")
        if not heading or not link:
            continue
        results.append({
            "position": position,
            "title": heading.get_text(strip=True),
            "url": link["href"],
            "snippet": snippet.get_text(strip=True) if snippet else None,
        })

    return {
        "pageTitle": page_title,
        "searchQuery": search_query,
        "results": results,
    }

Der Selektor div.title-box_4YBsj ist der Wrapper, den Baidu für den Titelblock jedes Ergebnisses verwendet, mit der Überschrift in einem h3.t-Tag und dem Ziel im Anker darin. Den Link aus dem href des Ankers zu lesen, hält die URL getrennt vom Titel. enumerate(..., start=1) gibt Ihnen die Position kostenlos beim Schleifen, sodass der Rang aus der Seitenreihenfolge statt aus einem fragilen Attribut kommt. Das if not heading or not link: continue-Guard überspringt alles, was kein echtes organisches Ergebnis ist, und hält Anzeigen und irrelevantes Markup aus Ihrer Ausgabe heraus. Das Snippet wird aus dem Beschreibungscontainer gelesen, der auf jeden Titel folgt, und fällt auf None zurück, wenn er fehlt.

Selektoren ändern sich

Baidus Klassennamen wie title-box_4YBsj und content-right_2s-H4 tragen ein generiertes Suffix, das sich ändert, wenn Baidu sein Frontend neu deployt. Behandeln Sie die obigen Selektoren als Ausgangssvorlage, nicht als Vertrag. Wenn ein Feld für jedes Ergebnis leer zurückkommt, untersuchen Sie eine Live-Seite in den Dev-Tools Ihres Browsers und aktualisieren Sie den Selektor. Periodische Selektor-Wartung ist bei jedem Produktions-Scraper normal, kein Zeichen dafür, dass etwas kaputt ist.

Schritt 3: Alles zusammenfügen

Verbinden Sie nun den Fetch und das Parsen zu einem lauffähigen Skript. Crawlen Sie die gerenderte Ergebnisseite, übergeben Sie das HTML an den Parser und schreiben Sie die strukturierte Ausgabe in JSON. Das Setzen von ensure_ascii=False hält chinesische Zeichen in der Datei lesbar, statt sie in \u-Sequenzen zu escapen.

python

import json
import requests
from bs4 import BeautifulSoup

API_TOKEN = "YOUR_CRAWLBASE_TOKEN"
API_ENDPOINT = "https://api.crawlbase.com/"

def crawl(url):
    params = {"token": API_TOKEN, "url": url}
    response = requests.get(API_ENDPOINT, params=params)
    response.raise_for_status()
    data = json.loads(response.text)
    if data["original_status"] != 200:
        raise Exception(f"Unable to crawl '{url}'")
    return data["body"]

def scrape_html(html):
    soup = BeautifulSoup(html, "html.parser")
    page_title = soup.title.string if soup.title else None
    search_input = soup.find("input", {"name": "wd"})
    search_query = search_input.get("value", "") if search_input else ""

    results = []
    for position, block in enumerate(soup.select("div.title-box_4YBsj"), start=1):
        heading = block.select_one("h3.t")
        link = block.select_one("a[href]")
        snippet = block.find_next("div", class_="content-right_2s-H4")
        if not heading or not link:
            continue
        results.append({
            "position": position,
            "title": heading.get_text(strip=True),
            "url": link["href"],
            "snippet": snippet.get_text(strip=True) if snippet else None,
        })

    return {"pageTitle": page_title, "searchQuery": search_query, "results": results}

def main():
    url = "https://www.baidu.com/s?ie=utf-8&wd=%E8%8B%B9%E6%9E%9C%20iPhone"
    html = crawl(url)
    data = scrape_html(html)
    with open("baidu_results.json", "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    print(f"Saved {len(data['results'])} results")

if __name__ == "__main__":
    main()

Führen Sie das vollständige Skript mit python main.py aus. Es ruft die Ergebnisseite für "苹果 iPhone" ab, extrahiert einen Datensatz für jedes organische Angebot und schreibt alles in baidu_results.json. Die zwei Funktionen sind alles, was Sie brauchen: tauschen Sie die Anfrage in der URL und der Parser verarbeitet was auch immer zurückkommt.

Wie die Ausgabe aussieht

Sie erhalten ein sauberes strukturiertes Objekt mit dem Seitentitel, der zurückgegebenen Suchanfrage und einer geordneten Liste von Ergebnissen, bereit zum Schreiben in JSON, CSV oder eine Datenbank.

json

{
  "pageTitle": "苹果 iPhone_百度搜索",
  "searchQuery": "苹果 iPhone",
  "results": [
    {
      "position": 1,
      "title": "Apple (中国大陆) - 官方网站",
      "url": "http://www.baidu.com/link?url=abc123",
      "snippet": "探索 iPhone、iPad、Mac 等 Apple 产品的全新阵容。"
    },
    {
      "position": 2,
      "title": "iPhone - 维基百科",
      "url": "http://www.baidu.com/link?url=def456",
      "snippet": "iPhone 是苹果公司设计和销售的智能手机系列。"
    }
  ]
}

Beachten Sie, dass Ergebnis-URLs als baidu.com/link?url=...-Weiterleitungslinks statt als endgültige Ziele zurückkommen. Das ist Baidus Art, ausgehende Klicks zu bedienen. Wenn Sie das echte Ziel benötigen, folgen Sie jeder Weiterleitung mit einer separaten Anfrage, aber tun Sie das sparsam und bei niedrigem Volumen, damit Sie Ihren Traffic gegenüber Baidu nicht vervielfachen.

Über Seiten und Anfragen skalieren

Eine Anfrage auf einer Seite ist ein Demo; ein echter Job läuft über mehrere Suchen und tiefer in die Ergebnisse. Baidu paginiert mit dem Query-Parameter pn, der ein Offset in Vielfachen von 10 ist: pn=10 ist die zweite Seite, pn=20 die dritte und so weiter. Die Form bleibt dieselbe: Erstellen Sie jede URL, rufen Sie sie über die Crawling API ab und parsen Sie sie mit derselben Funktion. Die einzige Gewohnheit, die einen langen Lauf gesund hält, ist Pacing, also pausieren Sie zwischen Anfragen, statt sie in einer engen Schleife abzufeuern.

python

import time
from urllib.parse import quote

query = "苹果 iPhone"
encoded = quote(query)

all_results = []
for page in range(3):
    offset = page * 10
    url = f"https://www.baidu.com/s?ie=utf-8&wd={encoded}&pn={offset}"
    html = crawl(url)
    all_results.extend(scrape_html(html)["results"])
    time.sleep(3)

print(f"Collected {len(all_results)} results across 3 pages")

Crawlbase bedient standardmäßig bis zu 20 Anfragen pro Sekunde, was für einen Scraper, der sich selbst bremst, reichlich Spielraum ist; wenn Sie wirklich mehr benötigen, kann der Support es erhöhen. Jede 5XX-Antwort von der API ist kostenlos, sodass das Wiederholen einer blockierten oder nicht verfügbaren URL Sie nichts kostet. Wenn Sie Ihren eigenen Traffic lieber durch einen rotierenden Pool leiten möchten, statt die verwaltete API zu verwenden, bietet der Smart AI Proxy (auch AI Proxy genannt) dieselbe Residential-IP-Rotation als Drop-in-Proxy-Endpunkt.

Nicht gesperrt bleiben

Selbst mit einer vertrauenswürdigen IP achtet Baidu auf Scraper-ähnlichen Traffic, und seine Prüfungen sind strenger als die meisten, aufgrund des Ortes, an dem es operiert. Einige Gewohnheiten halten einen Lauf gesund.

Drosseln Sie Ihre Anfragen. Ergebnisseiten in einer engen Schleife zu hämmern ist der schnellste Weg, herausgefordert zu werden. Verteilen Sie Anfragen und variieren Sie Ihre Anfragen, statt einen Begriff mit voller Geschwindigkeit zu paginieren.
Setzen Sie auf Rotation. Ein Pool von Residential IPs verteilt Anfragen über viele echte Nutzer-Adressen, sodass keine einzelne ein Limit auslöst. Die Crawling API erledigt das für Sie; wenn Sie Ihren eigenen Stack aufbauen, ist das der Teil, den Sie richtig machen müssen.
Lesen Sie die Status-Codes. Ein Lauf, der beginnt, Herausforderungen oder Verifikationsseiten zurückzugeben, teilt Ihnen mit, dass die aktuelle Rate oder IP-Tier nicht mehr ausreicht. Behandeln Sie das als Signal zum Zurückziehen, nicht als Rauschen, das ignoriert werden soll.
Untersuchen Sie neu, wenn Felder leer werden. Baidu ändert sein Markup regelmäßig. Wenn Ergebnisse aufhören zu parsen, öffnen Sie eine Live-Seite in den Dev-Tools und aktualisieren Sie die Selektoren.

Das breitere Spielbuch finden Sie in Wie man Websites scrapt, ohne gesperrt zu werden und im tieferen Einblick in Wie man CAPTCHAs beim Web-Scraping umgeht. Wenn eine Baidu-Seite, die Sie benötigen, auf Scripts angewiesen ist, um zu rendern, erklärt unser Leitfaden zum Crawlen von JavaScript-Websites, warum Rendering wichtig ist und wie man es aktiviert.

Ist es legal, Baidu zu scrapen?

Ob das Scrapen von Baidu erlaubt ist, hängt von Baidus Nutzungsbedingungen, Ihrer Rechtsprechung und der Verwendung der Daten ab. Baidus Bedingungen setzen Grenzen für den automatisierten Zugriff, sodass das Scrapen gegen diese Bedingungen verstoßen kann, unabhängig davon, wie sorgfältig Ihr Tooling ist. Kein Code hier ändert das; er macht nur den technischen Teil funktionieren. Lesen Sie Baidus Bedingungen und seine robots.txt und behandeln Sie beide als Grenze dessen, was Sie sammeln.

Einige Linien, die es wert sind einzuhalten. Sammeln Sie nur öffentliche Suchergebnisdaten: die Titel, Links, Snippets und Positionen, die jeder auf einer Ergebnisseite ohne Konto sehen kann. Halten Sie Ihr Anfragevolumen niedrig genug, um Baidus Server nicht zu belasten, und bremsen Sie Ihr Crawlen statt es mit voller Geschwindigkeit laufen zu lassen. Baidu veröffentlicht keine breit verfügbare offizielle SERP-API für diese Art von Zugriff, daher gibt es keinen sanktionierten Hochvolumen-Endpunkt als Rückfall, was umso mehr Grund ist, in Volumen bescheiden und respektvoll gegenüber den angegebenen Regeln der Website zu bleiben.

Dieser Leitfaden beschränkt sich bewusst auf öffentliche Suchergebnisseiten, weil das die Linie ist, die die Arbeit vertretbar hält. Er deckt nichts hinter einem Login ab, keine Konto- oder persönlichen Daten oder urheberrechtlich geschützte Medien, die von den verlinkten Zielen gezogen werden. Nur öffentliche SERP-Daten. Wenn Ihr Projekt mehr als das benötigt, ist eine offizielle Datenvereinbarung der richtige Weg, kein cleverer Scraper.

Zusammenfassung

Wichtigste Erkenntnisse

Baidu ist geo-sensitiv. Eine ausländische Rechenzentrums-IP bekommt eine andere Seite oder eine Sperre, Sie benötigen also eine vertrauenswürdige Residential-Adresse, um die echten Ergebnisse zu sehen.
Die Crawling API ruft hinter einer echten IP ab. Senden Sie ihr die URL, sie rotiert Residential IPs serverseitig und rendert bei Bedarf, und gibt fertiges HTML zum Parsen zurück.
BeautifulSoup übernimmt die Extraktion. Wählen Sie jedes div.title-box_4YBsj aus, lesen Sie dann Titel, Link, Snippet und Position daraus, und erwarten Sie, dass die gesuffixten Klassennamen driften.
Paginieren Sie mit dem pn-Offset. Erhöhen Sie pn in Vielfachen von 10, um tiefer in Ergebnisse zu gehen, und bremsen Sie Ihre Anfragen mit einem Sleep zwischen Seiten.
Bleiben Sie bei öffentlichen Daten. Respektieren Sie Baidus Nutzungsbedingungen und robots.txt, halten Sie das Volumen niedrig, da es keine offene offizielle SERP-API gibt, und berühren Sie niemals Konten oder persönliche Daten.

Häufig gestellte Fragen

Warum scheitert eine einfache Anfrage oder gibt die falsche Seite bei Baidu zurück?

Baidu wird von innerhalb Chinas bedient und passt an, was es basierend auf der anfragenden IP zurückgibt, sodass ein Aufruf von einer ausländischen Rechenzentrums-Adresse mit einer Region-Sperre, Teilinhalt oder einer Verifikationsseite statt der Ergebnisse, die Sie in Ihrem eigenen Browser sehen, zurückkommen kann. Es markiert auch Traffic, der nicht wie ein echter Browser aussieht. Das Abrufen über die Crawling API, die rotierende Residential IPs verwendet, lässt die Anfrage wie ein gewöhnlicher Besucher aussehen, sodass Sie die echte Ergebnisseite bekommen.

Kann ich Baidu-Suchergebnisse mit Python scrapen?

Ja. Mit requests und BeautifulSoup können Sie eine Ergebnisseite abrufen und Titel, Links, Snippets und Positionen herausziehen. Die Crawling API dient als Brücke, die Ihre Anfrage von einer vertrauenswürdigen IP zu Baidu bringt, sodass Anfragen reibungslos verarbeitet werden statt blockiert zu werden. Für einen breiteren Python-Primer lesen Sie unseren Leitfaden zum Scrapen von Websites mit Python.

Welche Felder kann ich von einer Baidu-Ergebnisseite extrahieren?

Dieses Tutorial zieht vier Felder aus jedem organischen Ergebnis: den Titel, den Ziel-Link, das angezeigte Snippet und die Position auf der Seite. Sie erfassen auch den Seitentitel und die zurückgegebene Suchanfrage aus dem wd-Input. Bleiben Sie bei öffentlichen Suchergebnisdaten und vermeiden Sie alles hinter einem Login.

Benötige ich JavaScript-Rendering zum Scrapen von Baidu?

Normalerweise laden die Hauptergebnisse ohne es, sodass der einfache Fetch in diesem Leitfaden ausreicht. Wenn Sie auf eine Seite treffen, die einen Browser benötigt, um sich zu füllen, bietet die Crawling API eine JavaScript-Rendering-Option, die die Seite so abruft, wie ein echter Browser es tun würde. Unser Leitfaden zum Scrapen von JavaScript-Seiten mit Python behandelt, wann das notwendig ist.

Wie paginiere ich durch mehr Baidu-Ergebnisse?

Verwenden Sie den Query-Parameter pn, der ein Offset in Vielfachen von 10 ist: pn=10 ist die zweite Seite, pn=20 die dritte und so weiter. Erstellen Sie jede Seiten-URL mit dem Offset, rufen Sie sie über die Crawling API ab, parsen Sie sie mit derselben Funktion und pausieren Sie ein paar Sekunden zwischen Anfragen, damit Sie das Crawlen bremsen statt es zu hämmern.

Meine Selektoren geben nichts zurück. Was hat sich geändert?

Fast sicher Baidus Markup. Klassennamen wie title-box_4YBsj tragen ein generiertes Suffix, das sich ändert, wenn Baidu sein Frontend neu deployt, sodass Selektoren, die letzten Monat funktioniert haben, jetzt kaputt sein können. Untersuchen Sie eine Live-Ergebnisseite in den Dev-Tools Ihres Browsers und aktualisieren Sie die Selektoren. Periodische Selektor-Wartung ist bei jedem Produktions-Scraper normal.

Ian Kalvin

Technical Support Engineer · Crawlbase

Technical Support Engineer bei Crawlbase, der von der Front darüber schreibt, was beim Scraping und bei Proxy-Setups im Produktivbetrieb tatsächlich kaputtgeht.

Neil Zamora

Senior Architect · Crawlbase

Senior Architect bei Crawlbase mit Fokus auf den Systemen hinter großflächigem Crawling: Proxy-Rotation, Anti-Bot-Resilienz und den APIs, die diese Komplexität verbergen.

Jetzt loslegen

Crawlen Sie jede Website im großen Maßstab, ohne gegen die Infrastruktur zu kämpfen.

Crawlbase übernimmt Proxys, Fingerprints und CAPTCHAs, damit Ihr Team Datenpipelines ausliefert, statt Crawl-Infrastruktur zu pflegen. 1.000 Anfragen kostenlos, keine Karte erforderlich.

Kostenlosen API-Schlüssel erhalten →Dokumentation lesen

Self-Service · Kein Verkaufsgespräch erforderlich · Enterprise-Crawl-Volumen verfügbar

Was Sie bauen werden

Warum eine einfache Anfrage bei Baidu scheitert

Voraussetzungen

Das Projekt einrichten

Schritt 1: Die Seite über die Crawling API abrufen

Schritt 2: Die Ergebnisse mit BeautifulSoup parsen

Schritt 3: Alles zusammenfügen

Wie die Ausgabe aussieht

Über Seiten und Anfragen skalieren

Nicht gesperrt bleiben

Ist es legal, Baidu zu scrapen?

Wichtigste Erkenntnisse

Häufig gestellte Fragen

Warum scheitert eine einfache Anfrage oder gibt die falsche Seite bei Baidu zurück?

Kann ich Baidu-Suchergebnisse mit Python scrapen?

Welche Felder kann ich von einer Baidu-Ergebnisseite extrahieren?

Benötige ich JavaScript-Rendering zum Scrapen von Baidu?

Wie paginiere ich durch mehr Baidu-Ergebnisse?

Meine Selektoren geben nichts zurück. Was hat sich geändert?

Crawlen Sie jede Website im großen Maßstab, ohne gegen die Infrastruktur zu kämpfen.

Weiterlesen

Moderne Anti-Bot-Umgehung von innen: Eine Systemperspektive

Lokale Unternehmensangebote mit Python scrapen: Namen, Adressen, Bewertungen und mehr

Einen Website-Change-Tracker mit Python erstellen: Snapshots und SHA-256-Diffs

Das Infrastruktur-Briefing, direkt in Ihr Postfach.