Um Kundenbewertungen in großem Umfang zu extrahieren, müssen Sie JavaScript-lastige Seiten rendern, systematisch alle Bewertungsseiten oder scrollbaren Inhalte sammeln und wichtige Felder wie Bewertung, Text und Datum in ein strukturiertes Format extrahieren.
Die meisten Bewertungsplattformen liefern nicht den vollständigen Inhalt bei einfachen Anfragen. Bewertungen werden dynamisch geladen, über Dutzende oder Hunderte von Seiten verteilt und durch Ratenbegrenzungen oder Bot-Erkennung geschützt. Daher ist eine browserbasierte Crawling-Schicht in Kombination mit einem konsistenten Parsing-Verfahren erforderlich, um über wenige Seiten hinaus zuverlässige Ergebnisse zu erhalten.
Diese Anleitung zeigt, wie man ein produktionsreifes System zum Auslesen von Rezensionen erstellt, das täglich Tausende von Rezensionen mit einer Extraktionsgenauigkeit von über 95 % verarbeitet. Dabei wird browserbasiertes Rendering verwendet, um JavaScript-intensive Plattformen zu bewältigen, und strukturiertes Parsing für zuverlässige Datenerfassung.
TL;DR: Kundenbewertungen extrahieren
Das Auslesen von Kundenbewertungen in großem Umfang ist schwierig, da die meisten Plattformen Inhalte dynamisch laden, über Hunderte von Seiten paginieren und automatisierte Anfragen aktiv blockieren, wodurch einfache HTTP-Skripte unzuverlässig werden.
Für den Aufbau einer zuverlässigen Datenpipeline benötigen Sie browserbasiertes Rendering für JavaScript-Inhalte, eine strukturierte Paginierung zur Erfassung aller Rezensionen und ein konsistentes Parsing, um Felder wie Bewertungen, Text und Datum in nutzbare Daten zu extrahieren.
Die Verwaltung dieser Infrastruktur, Headless-Browser, Proxys, Wiederholungsversuche und der Bot-Abwehr wird schnell komplex. Crawlbase Dies vereinfacht den Vorgang, indem Rendering, Blockierung und Skalierung über eine einzige API abgewickelt werden, sodass Sie sich auf das Extrahieren und Analysieren von Bewertungsdaten konzentrieren können, anstatt Scraping-Systeme zu warten.
Was ist Review Scraping und warum ist es wichtig?
Review-Scraping ist der automatisierte Prozess, Kundenfeedback von E-Commerce-Websites, Bewertungsplattformen und Branchenverzeichnissen in großem Umfang zu extrahieren. Für ein effektives Scraping von Kundenbewertungen in großem Umfang sind drei Kernkomponenten erforderlich: JavaScript-Rendering zur Verarbeitung dynamischer Inhalte, systematisches Paginierungsmanagement zur Erfassung aller verfügbaren Bewertungen und die Extraktion strukturierter Daten, die rohes HTML in analysierbare Datensätze umwandelt.
Die meisten Unternehmen nutzen Bewertungsdaten zur Wettbewerbsanalyse. Sie analysieren durchschnittlich 2,500 bis 10,000 Bewertungen pro Monat, um fundierte Produktentscheidungen zu treffen. Eine strukturierte Pipeline zum Auslesen von Bewertungsdaten erreicht bei korrekter Konfiguration typischerweise eine Datengenauigkeit von 92 bis 98 Prozent, im Vergleich zu 60 bis 75 Prozent bei einfachen HTTP-Anfragen, die per JavaScript geladene Inhalte nicht erfassen.
Die Herausforderung besteht nicht nur darin, Bewertungen zu sammeln, sondern auch die Datenqualität bei wachsendem Umfang zu gewährleisten. Bewertungsplattformen aktualisieren ihre Anti-Bot-Maßnahmen regelmäßig, und große Websites ändern ihre HTML-Struktur durchschnittlich alle 45 bis 90 Tage. Daher muss Ihre Scraping-Infrastruktur Zuverlässigkeit, Wartbarkeit und Anpassungsfähigkeit gleichermaßen berücksichtigen.
Was lässt sich aus Kundenrezensionen ableiten?
Die aussagekräftigsten Bewertungsdaten stammen aus fünf Kernfeldern, die plattformübergreifend konsistent auftreten:
- Rating: Dies liefert eine quantitative Stimmungsanalyse auf einer standardisierten Skala. Die meisten Plattformen verwenden 1–5 Sterne, einige, wie beispielsweise G2, jedoch Skalen von 1–10, die eine Normalisierung erfordern.
- Rezensionstext: Es enthält qualitative Erkenntnisse, die spezifische Stärken und Schwächen des Produkts aufzeigen. Die Textfelder umfassen in der Regel 50 bis 500 Wörter, wobei längere Rezensionen mit 40 % mehr hilfreichen Bewertungen korrelieren.
- Datum der Veröffentlichung: Es ermöglicht die Analyse von Zeitreihen, um Stimmungsänderungen nach Produktaktualisierungen oder Produkteinführungen von Wettbewerbern zu verfolgen.
- Kaufstatus verifiziert: Es hilft dabei, potenziell voreingenommene Bewertungen herauszufiltern. Verifizierte Bewertungen haben laut Vertrauensmetriken von 2024 ein 3.2-mal höheres Gewicht bei Kaufentscheidungen von Verbrauchern.
- Hilfreiche Bewertungen: Hier werden die informativsten Rezensionen angezeigt, wobei die am besten bewerteten Rezensionen 8- bis 12-mal mehr Aufrufe erhalten als durchschnittliche Bewertungen.
Der entscheidende Faktor ist die strukturelle Konsistenz. Wenn Amazon Bewertungen als ganze Zahlen (1-5) darstellt, Trustpilot Dezimalzahlen (4.5) verwendet und G2 eine völlig andere Skala nutzt, machen inkonsistente Datenstrukturen eine plattformübergreifende Analyse ohne Normalisierung unmöglich.
Ein einfaches, einheitliches Format funktioniert gut:
1 | { |
Sobald alles in diese Struktur passt, können Sie plattformübergreifende Vergleiche ohne zusätzlichen Aufwand durchführen.
Wie geht man mit JavaScript-lastigen Bewertungsseiten um?
Moderne Bewertungsplattformen rendern 80-95 % ihrer Inhalte clientseitig. JavaScript-Frameworks wie React, Vue oder Angular. Eine Standard-HTTP-Anfrage an diese Websites liefert unvollständiges HTML zurück, da der eigentliche Bewertungsinhalt erst nach der ersten Seitenantwort geladen wird.
Betrachten wir den Ablauf einer einfachen Anfrage: Der Server liefert ein minimales HTML-Gerüst, das hauptsächlich Platzhalter für <div>-Elemente und Skript-Tags enthält. Die eigentlichen Rezensionen werden durch nachfolgende API-Aufrufe geladen, die durch JavaScript ausgelöst werden, oft 2–4 Sekunden nach dem ersten Seitenaufruf. Einige Plattformen implementieren Infinite Scroll, wodurch zusätzliche Rezensionen erst beim Scrollen nachgeladen werden und der Inhalt für herkömmliche Web-Scraper vollständig unzugänglich wird.
Browserbasiertes Rendering löst dieses Problem, indem JavaScript exakt so ausgeführt wird, wie es ein echter Browser tun würde. Der Scraper wartet, bis dynamische Inhalte geladen sind, erfasst die durch Scrollen ausgelösten Elemente und gibt vollständig geladenes HTML zur Analyse zurück. Mit diesem Ansatz werden Erfassungsraten von über 95 % erzielt, verglichen mit 40–60 % bei direkten HTTP-Anfragen.
Der Aufbau dieser Infrastruktur erfordert die Verwaltung von Headless-Browsern wie Puppeteer oder Playwright, die Aufrechterhaltung der Proxy-Rotation, um IP-Sperren zu vermeiden (typischerweise 10-50 Proxys für Scraping mittleren Umfangs), die Implementierung einer Wiederholungslogik für fehlgeschlagene Anfragen und die Behandlung von CAPTCHA-Herausforderungen, die bei großem Umfang bei 15-30 % der Anfragen auftreten.
Warum verwenden Crawlbase zum Auslesen von Kundenbewertungen?
Crawlbase Diese Ebene wird vollständig entfernt. Anstatt eine eigene Infrastruktur aufzubauen, senden Sie eine JavaScript-Anfrage und erhalten vollständig gerendertes HTML zurück. Die Seite wird auf die gleiche Weise geladen, wie es ein echter Browser tun würde.
Was Sie bekommen:
- JavaScript-Ausführung direkt aus der Box
- automatische IP-Rotation
- Integrierte Behandlung von Blockierungen und Ratenbegrenzungen
- konsistente HTML-Ausgabe
Es gibt zwei Möglichkeiten zur Umsetzung Crawlbase:
- Crawling API für Anfragen auf Abruf
- Enterprise Crawler für große Mengen mit Webhook Lieferanten
Was sind die Kernkomponenten einer Pipeline zum Sammeln von Kundenbewertungen?
Im Prinzip ist das Sammeln von Kundenbewertungen nichts anderes als eine Verarbeitungskette. Jeder Schritt nimmt Rohdaten und bereitet sie besser auf.
So sieht das in der Praxis aus:

- Überprüfen Sie Websites
Dies sind Ihre Datenquellen. Amazon, Trustpilot, G2, Yelp, Google BewertungenJedes hat seine eigene Struktur und seine Eigenheiten. - Crawlbase API
Dies ist die Abrufschicht. Anstatt sich selbst mit Proxys, Blockierungen oder dem Rendern von JavaScript auseinanderzusetzen, liefert die API für jede Seite vollständig gerendertes HTML zurück. - Abholer
Eine kleine Schicht in Ihrem Code, die Anfragen sendet, Parameter wie page_wait verarbeitet und gegebenenfalls Wiederholungsversuche verwaltet. - Parser (Erweiterungspunkt)
Hier ist die plattformspezifische Logik implementiert. Trustpilot, Yelp, Amazon und G2 benötigen jeweils unterschiedliche Selektoren. Der Rest der Pipeline bleibt unverändert. - JSONL-Speicher
Die analysierten Rezensionen werden in einem strukturierten Format gespeichert. JSONL eignet sich gut, da es einfach ist und sich leicht in andere Systeme einbinden lässt. - Stimmungs-/Dashboards
Sobald die Daten strukturiert sind, können sie analysiert werden. Stimmungsanalysen, Trend-Dashboards, Wettbewerbsvergleiche – hier liegt der eigentliche Mehrwert.
Ein paar praktische Hinweise:
- Die Parserschicht ist der einzige Teil, der sich häufig ändert.
- Alles andere sollte nach der Einrichtung stabil bleiben.
- Das Hinzufügen einer neuen Plattform bedeutet in der Regel das Hinzufügen eines neuen Parsers, nicht das Umschreiben der Pipeline.
Diese Trennung macht das System skalierbar. Man muss nicht jedes Mal alles neu aufbauen, wenn sich das Layout einer Website ändert.
Vor der Implementierung dieser Pipeline benötigen Sie lediglich eine minimale Einrichtung. Nichts Kompliziertes, nur genug, um Seiten abzurufen und die Ergebnisse zu analysieren.
Erste Schritte: Erforderliche Einrichtung und Konfiguration
Sie benötigen:
Sie benötigen außerdem einige wenige Bibliotheken zum Abrufen von Seiten und zum Parsen von HTML:
Wenn Sie schon einmal Schaben angewendet haben, sollte Ihnen das bekannt vorkommen. Der Hauptunterschied besteht darin, dass Crawlbase Kümmert sich um Rendering und Blockierung, sodass Sie sich auf die Datenextraktion anstatt auf die Infrastruktur konzentrieren können.
Schritt 1: Wie kann ich eine Bewertungsseite aufrufen, ohne gesperrt zu werden?
Nachdem die Umgebung eingerichtet ist, beginnen Sie mit dem Abrufen des vollständig gerenderten HTML-Codes.
1 | importieren os |
Die Crawling API Das macht es einfach. Sie senden eine GET-Anfrage mit Ihrem Kontotoken und der Ziel-URL, und Sie erhalten die vollständig gerenderte Seite zurück.
Kurzübersicht:
Basis-URL: https://api.crawlbase.com
Erforderliche Parameter: token, url
page_waitfür dynamische Inhaltescroll=trueundscroll_intervalfür Seiten mit unendlichem Scrollen
Empfohlene Wartezeit: mindestens 90 Sekunden
Typische Reaktionszeit: 4 bis 10 Sekunden
Weitere Informationen im vollständiges Fetcher-Skript Implementierung mit Wiederholungsversuchen und Fehlerbehandlung.
Schritt 2: Wie lässt sich die Seitennummerierung am einfachsten handhaben?
Das Laden einer einzelnen Seite reicht selten aus. Die meisten Bewertungsplattformen verteilen die Inhalte auf Dutzende oder sogar Hunderte von Seiten.
Beispielsweise:
- Trustpilot nutzt
?page=2,?page=3, und so weiter - Einige Plattformen verwenden
offsetanstelle von Seitenzahlen - Andere setzen auf unendliches Scrollen.
Wenn Sie nur die erste Seite anfordern, entgeht Ihnen der Großteil der Rezensionen.
Die übliche Vorgehensweise besteht darin, Seiten-URLs zu generieren und diese in einer Schleife abzuarbeiten, bis das Limit erreicht ist oder keine weiteren Bewertungen mehr zurückgegeben werden.
Hol dir das komplette Paket Paginierungsskript ScraperHub bietet eine Hilfsfunktion, die paginierte URLs aus einer Basis-Bewertungsseite erstellt und Abfrageparameter sauber verarbeitet. Außerdem stellt sie ein Dienstprogramm zur Verfügung, mit dem Seitenzahlen während der Iteration dynamisch aktualisiert werden können.
Ein paar praktische Hinweise:
- Legen Sie ein angemessenes Seitenlimit fest, um unnötige Anfragen zu vermeiden.
- Stoppen Sie, sobald eine Seite keine Bewertungen zurückgibt.
- Für Seiten mit unendlichem Scrollen verwenden Sie
scroll=truestatt Seitennummerierung
Ziel ist es, sicherzustellen, dass Sie alle verfügbaren Rezensionen erfassen, nicht nur die der ersten Seite.
Schritt 3: Wie analysiert man Rezensionsdaten präzise?
Hier wird es plattformspezifisch. Jede Website strukturiert ihren HTML-Code anders, daher muss der Parser flexibel sein. Der untenstehende Trustpilot-Parser ist ein gutes Beispiel dafür, wie das in der Praxis aussieht.
1 | importieren re |
Vollständiger Code: ScraperHub → parsers/trustpilot.py
Schritt 4: Wie normalisiert man die aus dem Review-Scraping gewonnenen Daten?
Bis die Rezensionen analysiert werden, sind die meisten Felder bereits strukturiert. Der Parser extrahiert Bewertungen, Text, Datum und andere Attribute in ein einheitliches Format.
Wenn Sie jedoch plattformübergreifend arbeiten, benötigen Sie möglicherweise einen zusätzlichen Normalisierungsschritt.
Typische Anpassungen umfassen:
- Umrechnung der Bewertungen auf eine gemeinsame Skala (z. B. 1–10 → 1–5)
- Relative Datumsangaben in ein Standardformat umwandeln
- Angleichung der Feldnamen über verschiedene Quellen hinweg
Für eine einzelne Plattform ist der Parser in der Regel ausreichend. Bei der plattformübergreifenden Analyse stellt dieser Schritt sicher, dass Ihre Daten vergleichbar bleiben.
Schritt 5: So speichern Sie Bewertungen für die Datenanalyse
Sobald die Rezensionen analysiert und normalisiert sind, müssen sie in einem Format gespeichert werden, das später leicht verarbeitet werden kann.
Eine einfache und praktische Wahl ist JSONL (JSON Lines). Jede Bewertung wird als einzelne Zeile geschrieben, was das Einlesen in Analysetools oder Datenpipelines erleichtert.
Die vollständige Implementierung, einschließlich der Anbindung an die Pipeline, ist auf ScraperHub verfügbar → storage.py
Wenn Sie die Skalierung weiter vorantreiben möchten, können Sie JSONL später durch eine Datenbank oder ein Data Warehouse ersetzen. Der Rest der Pipeline muss nicht geändert werden.
Schritt 6: Skalierung auf viele Produkte
Die Herausforderung beginnt, wenn Sie Bewertungen über Dutzende oder Hunderte von URLs hinweg skalieren oder sammeln müssen.
An diesem Punkt werden einfache Schleifen und lokale Skripte schwieriger zu handhaben. Sie müssen sich mit Parallelverarbeitung, Wiederholungsversuchen und der Planung von Anfragen auseinandersetzen. Hier kommt die Crawlbase Enterprise Crawler kommt in.
Anstatt die Anfragen einzeln zu senden, übermitteln Sie eine Liste von URLs an CrawlbaseDer Crawler verarbeitet sie in der Cloud. Jede Seite wird abgerufen, gerendert und über einen Webhook an Ihr System zurückgesendet.
Für den Wechsel in diesen Modus sind nur wenige Parameter erforderlich:
1 | params["Rückruf"] = richtig |
Von dort:
- URLs werden parallel verarbeitet
- Fehlgeschlagene Anfragen werden automatisch wiederholt.
- Sie erhalten die Ergebnisse asynchron über einen Webhook.
Sie müssen Warteschlangen oder Skalierungslogik nicht mehr in Ihrem eigenen Code verwalten.
Diese Konfiguration eignet sich gut für:
- Überwachung mehrerer Produkte oder Marken
- Sammlung großer Datensätze für die Stimmungsanalyse
- Durchführung geplanter Überprüfungsabfragen im Laufe der Zeit
Wenn Sie nur mit einer Handvoll Seiten arbeiten, Crawling API ist ausreichend. Sobald man mit größeren Datensätzen arbeitet, Enterprise Crawler beseitigt den größten Teil des operativen Aufwands.
Vollständig funktionsfähige Implementierung (ScraperHub)
Die Beispiele in diesem Leitfaden konzentrieren sich auf einzelne Teile der Pipeline. Wenn Sie das komplette Projekt mit vereinfachten Einrichtungsanweisungen wünschen, können Sie direkt zu Review Scraper README.
Das Repository enthält dieselbe Pipeline, die in diesem Leitfaden beschrieben wird, sodass sich jeder Schritt leicht nachverfolgen lässt:
| Reichen Sie das | Was sie tut, |
|---|---|
| config.py | Verarbeitet Konfigurationen wie API-Token, Basis-URL, Timeouts und Wiederholungsversuche |
| modelle.py | Definiert die Struktur eines Bewertungsobjekts (Schema). |
| fetcher.py | Sendet Anfragen über Crawlbase und ruft gerendertes HTML ab |
| pagination.py | Generiert und verwaltet paginierte URLs |
| storage.py | Speichert extrahierte Rezensionen im JSONL-Format |
| parsers/base.py | Basisklasse zum Erstellen benutzerdefinierter Bewertungsparser |
| parsers/trustpilot.py | Parser zum Extrahieren von Trustpilot-Bewertungsdaten |
| main.py | Führt die gesamte Pipeline vom Abrufen über das Parsen bis zum Speichern aus. |
Welche geschäftlichen Anwendungsbereiche gibt es für das Auslesen von Kundenbewertungen?
Sobald Rezensionen strukturiert sind, werden sie mehr als nur Text. Man kann sie tatsächlich zur Entscheidungsfindung nutzen.
Wettbewerbsanalyse
Vergleichen Sie Bewertungen und Stimmungen im Vergleich zu Wettbewerbern. Schauen Sie über Durchschnittswerte hinaus und identifizieren Sie, worüber sich Nutzer immer wieder beschweren oder was sie loben.
Produktverbesserung
Gruppieren Sie negatives Feedback nach Themen. Muster wie Versandprobleme oder Produktmängel werden deutlich, sobald genügend Daten vorliegen.
Markenüberwachung
Verfolgen Sie die Entwicklung der Bewertungen im Zeitverlauf. Ein plötzlicher Rückgang der Rezensionen oder ein sprunghafter Anstieg negativer Rückmeldungen deutet in der Regel auf ein tatsächliches Problem hin.
Stimmungsentwicklung im Laufe der Zeit
Führen Sie den Scraper regelmäßig aus und messen Sie, wie sich die Wahrnehmung verändert. Dies hilft Ihnen zu erkennen, ob Updates oder Fehlerbehebungen die Benutzererfahrung tatsächlich verbessern.
Fazit
Das Auslesen von Kundenbewertungen beschränkt sich nicht nur auf das Sammeln von Text. Es geht darum, eine strukturierte Pipeline aufzubauen, die Rohdaten in messbare Erkenntnisse umwandelt.
Sobald Sie Bewertungsdaten plattformübergreifend normalisiert haben, können Sie Stimmungen analysieren, Produktlücken identifizieren und schneller als Ihre Wettbewerber auf Marktveränderungen reagieren. Die Herausforderung besteht nicht nur in der Datenextraktion, sondern auch in der reibungslosen Darstellung, Paginierung, Blockierung und Skalierung ohne ständigen Wartungsaufwand.
Beginnen Sie einfach:
- Erstellen Sie eine kostenlose Crawlbase Konto
- Rufen Sie eine Bewertungsseite mithilfe der Crawling API
- Strukturierte Daten mithilfe eines plattformspezifischen Parsers analysieren
- Ergebnisse zur Analyse speichern.
Wenn Ihr Datensatz wächst, wechseln Sie zu Enterprise Crawler Tausende von URLs verwalten, ohne die Infrastruktur selbst verwalten zu müssen.
Erstelle einen kostenlosen Account Jetzt können Sie Ihre erste Rezensionsextraktion durchführen.
Häufig gestellte Fragen
Wie kann man Rezensionen von Webseiten mit hohem JavaScript-Aufkommen extrahieren?
Diese Plattformen rendern Inhalte im Browser mithilfe von Frameworks wie React. Eine Standard-HTTP-Anfrage liefert unvollständiges HTML zurück.
Sie benötigen einen browserbasierten Crawler. Crawlbase verwendet JavaScript-Anfrage (über ein JavaScript-Token), das die Seite in einer echten Browsersitzung ausführt und so sicherstellt, dass alle Inhalte der Überprüfung vor der Extraktion vollständig geladen werden.
Kann ich diese Daten für Stimmungsanalysen und maschinelles Lernen verwenden?
Ja. Strukturierte Bewertungsdaten werden häufig verwendet für:
- Stimmungsklassifikation
- Themenmodellierung
- Feature-Extraktion
- Trendanalyse im Zeitverlauf
Sobald die Rezensionen in ein einheitliches Schema normalisiert sind, können sie direkt in NLP-Pipelines oder BI-Tools eingespeist werden.
Benötige ich Proxys, um Bewertungsseiten auszulesen?
Wenn Sie Ihren eigenen Schaber bauen, ja.
Du wirst brauchen:
- Rotierende Proxies
- CAPTCHA-Behandlung
- Browser-Automatisierung
Crawlbase Diese Anforderung entfällt, da IP-Rotation, Anti-Bot-Schutz und Rendering automatisch übernommen werden, sodass Sie sich auf Parsing und Analyse anstatt auf die Infrastruktur konzentrieren können.












