Entdecken Sie die Feinheiten des Scrapings von Amazon-Bewertungen mit unserem ausführlichen Leitfaden, der eine robuste Methodik bietet, die JavaScript und die Crawlbase Crawling API, wodurch ein ungehinderter, erfolgreicher Datenextraktionsprozess gewährleistet wird. Dieser praktische Ansatz führt durch die umfangreiche Sammlung des Kundenfeedbacks von Amazon und garantiert eine Fülle von Daten und einen Strom wertvoller Erkenntnisse, die für Marktforschung, Produktverbesserung und Wettbewerbsanalyse von entscheidender Bedeutung sind. Erweitern Sie Ihre Fähigkeiten und Ihr Toolset mit dieser umfassenden Anleitung und verwandeln Sie Amazon-Bewertungen in ein strategisches Kapital, das den Weg für fundierte Entscheidungen und eine kluge Marktpositionierung ebnet.

Inhaltsverzeichnis

I. Warum Amazon-Produktbewertungen scrapen?

II. So vermeiden Sie eine Sperrung durch Amazon

III. HTML der Amazon-Produktbewertungsseite verstehen

IV. So scrapen Sie Amazon-Bewertungen

  • Schritt 1. Vorbereiten Ihres Arbeitsbereichs: Voraussetzungen und Umgebungseinrichtung
  • Schritt 2. Amazon-Produktbewertungen abrufen
  • Schritt 3. Alle Bewertungen mit Paginierung auslesen
  • Schritt 4. Speichern der Daten

V. Häufig gestellte Fragen

I. Warum Amazon-Produktbewertungen scrapen?

Vorteile des Scrapings von Amazon-Bewertungen

Im Bereich E-Commerce dienen Produktbewertungen als Schatzkarte, die Sie durch die komplexe Landschaft der Kundenpräferenzen und -meinungen führt. Das Durchsuchen dieser Bewertungen ist so, als würde man eine Tür zu ihren ungefilterten Gedanken und Emotionen zu Produkten öffnen. Die Bedeutung dieser Bewertungen geht jedoch weit über bloße Erkenntnisse hinaus; sie sind unverzichtbar für die Durchführung von Marktforschung, die Förderung von Produktverbesserungen und die Durchführung von Wettbewerbsanalysen.

Markteinblicke freisetzen

Amazon-Produktbewertungen sind wie eine Schatzkarte, die zeigt, was Kunden mögen und was nicht. Wenn Sie diese Bewertungen durchsehen, erhalten Sie einen kleinen Einblick in ihre Gedanken und Gefühle zu Produkten. Es ist, als würden Sie ein Gespräch belauschen, in dem Kunden ausplaudern, was sie glücklich oder frustriert macht.

Bringen Sie Ihr Produkt auf Touren

Stellen Sie sich vor, Sie hätten eine magische Kristallkugel, die Ihnen zeigt, wo Ihr Produkt noch besser sein könnte. Amazon-Bewertungen sind wie diese Kristallkugel. Sie helfen Ihnen, häufige Probleme zu erkennen und herauszufinden, was verbessert werden muss. Es ist, als ob Sie Kunden als Ihre Produktentwicklungsberater hätten, die Ihnen sagen, wie Sie die Dinge noch besser machen können.

Spionieren Sie die Konkurrenz aus

Wollen Sie König oder Königin des Marktes sein? Mit Amazon-Bewertungen können Sie Detektiv spielen. Sie können sehen, wie Ihr Produkt im Vergleich zu den Produkten Ihrer Konkurrenten abschneidet. Es ist, als würden Sie die Spielbücher Ihrer Rivalen studieren und Wege finden, mehr Touchdowns zu erzielen.

Wenn Sie Amazon-Bewertungen scrapen, sammeln Sie nicht nur Daten; Sie verschaffen sich auch einen Wettbewerbsvorteil und gewinnen wertvolle Kundeneinblicke. Es ist eine Geheimwaffe für den Erfolg in der Welt des E-Commerce.

II. So vermeiden Sie eine Sperrung durch Amazon

Das Scraping von Amazon-Rezensionen liefert zwar eine Fülle wertvoller Daten, bringt aber auch seine Herausforderungen mit sich. Die digitale Landschaft des E-Commerce hat ihre eigenen Regeln, und Amazon, einer der Giganten dieser Branche, bildet hier keine Ausnahme. Das Scraping seiner Seiten ist komplexer, als es vielleicht scheint.

Um die Zuverlässigkeit und Kontinuität Ihres Datenerfassungsprozesses aufrechtzuerhalten, müssen Sie unbedingt verhindern, dass Ihr Amazon-Bewertungs-Scraper beim Scrapen von Produktbewertungen auf Blockaden stößt. Hier sind einige wirksame Strategien:

  1. User-Agent-Header: Amazon kann automatisiertes Scraping erkennen, indem es den User-Agent-Header in HTTP-Anfragen überprüft. Um eine Erkennung zu vermeiden, verwenden Sie einen Web-Crawling-Tool oder eine Bibliothek, mit der Sie User-Agent-Header so einstellen können, dass sie einen Webbrowser nachahmen. Dadurch ähneln Ihre Anfragen eher denen eines typischen Benutzers.
  2. Anforderungsratenbegrenzung: Implementieren Sie eine Verzögerung zwischen Ihren Scraping-Anfragen. Wenn die Server von Amazon mit schnellen und häufigen Anfragen überlastet werden, kann dies deren Sicherheitsmechanismen auslösen. Durch das Hinzufügen von Verzögerungen simulieren Sie ein menschlicheres Browsing-Muster und verringern so das Risiko einer Erkennung.
  3. IP-Rotation und Proxy-Server: Rotierende IP-Adressen oder mit Proxy-Server-Dienste kann helfen, IP-basierte Sperren zu verhindern. Beim Scraping im großen Maßstab ist die Verwendung eines Pools rotierender IPs oder Proxys ratsam. Auf diese Weise kann Amazon anhand einer einzelnen IP-Adresse kein konsistentes Muster erkennen, was es für Amazon schwieriger macht, Ihren Zugriff zu sperren.
  4. Respektiere robots.txt: Beachten Sie immer die in Amazons Datei „robots.txt“ definierten Regeln. Diese Datei gibt an, welche Teile der Website gescrapt werden dürfen und welche nicht. Das Scrapen nicht erlaubter Bereiche kann dazu führen, dass Ihr Scraper blockiert wird. Daher ist es wichtig, diese Regeln zu überprüfen und einzuhalten.
  5. Überwachung und Anpassung: Amazon aktualisiert seine Website-Struktur und Sicherheitsmaßnahmen regelmäßig. Um auf dem Laufenden zu bleiben, überwachen Sie die Website von Amazon auf strukturelle Änderungen und passen Sie Ihren Scraper entsprechend an. Web-Scraping-Bibliotheken wie BeautifulSoup und Scrapy können Ihnen dabei helfen, Ihren Scraper anzupassen, wenn sich die HTML-Struktur weiterentwickelt.

Beachten Sie, dass diese Strategien zwar dazu beitragen können, eine Blockierung Ihres Scrapers zu verhindern, für ihre wirksame Umsetzung jedoch möglicherweise einen erheblichen Aufwand und Fachkenntnisse erfordern.

Crawlbase kann alles bewältigen

Die Verwaltung aller Aspekte von Bahnkratzen kann eine anspruchsvolle und zeitaufwändige Aufgabe sein. Hier kommt Crawlbase ins Spiel. Crawling API glänzt. Crawlbase ist darauf ausgelegt, die Komplexität des Web Scraping zu bewältigen, einschließlich der Festlegung von User-Agent-Headern, der Verwaltung von Anfrageraten, der Rotation von IP-Adressen, der Einhaltung von Robots.txt-Regeln und der Überwachung von Website-Änderungen, was es zum perfekten Tool zum Scraping von Amazon-Bewertungen macht.

Amazon Bewertungen Scraping Amazon Scraping mit Crawlbase

Durch die Verwendung der Crawlbase-API können Sie sich auf das Extrahieren wertvoller Daten aus Amazon-Bewertungen konzentrieren, ohne sich Sorgen machen zu müssen, blockiert zu werden, da Crawlbase diese Herausforderungen für Sie übernimmt. Dies macht Amazon Scraping mit Crawlbase zu einer hervorragenden Wahl für Ihr Projekt und gewährleistet eine reibungslose und zuverlässige Datenextraktion.

III. HTML der Amazon-Produktbewertungsseite verstehen

Amazon-Produktbewertungsseite HTML

Bevor wir uns mit dem Schreiben von Code für unseren Amazon-Bewertungs-Scraper befassen, ist es wichtig, die Struktur der Amazon-Produktbewertungsseiten in HTML zu verstehen. Dieses Verständnis ist die Grundlage für einen erfolgreichen Scraping-Vorgang, da es Ihnen ermöglicht, die benötigten Daten präzise zu lokalisieren und zu extrahieren.

Die Produktbewertungsseiten von Amazon sind mit verschiedenen HTML-Elementen strukturiert, die jeweils wertvolle Informationen enthalten. Hier sind die wichtigsten Elemente, auf die Sie achten sollten:

Container überprüfen

Jede Kundenrezension auf Amazon befindet sich in einem Rezensionscontainer. Diese Container enthalten die Kommentare, Bewertungen und andere relevante Details des Rezensenten. Stellen Sie sie sich als ordentlich verpackte Feedback-Bündel vor.

Informationen zum Rezensenten

Amazon stellt Details zu den Rezensenten bereit, darunter deren Benutzernamen, das Datum der Rezension und gelegentlich zusätzliche Informationen wie deren Standort. Diese Informationen helfen Ihnen, den Kontext der Rezension zu verstehen.

Bewertungen und Sterne

Bewertungen und Sternebewertungen werden auf den Produktbewertungsseiten von Amazon deutlich sichtbar angezeigt. Diese visuellen Hinweise vermitteln den Grad der Zufriedenheit des Kunden mit dem Produkt und sind daher wichtige Datenpunkte.

Rezensionstext

Das Herzstück jeder Rezension ist der Rezensionstext selbst. Hier teilen Kunden ihre Erfahrungen, Meinungen und Rückmeldungen zum Produkt. Hier finden Sie wertvolle Einblicke und Einschätzungen.

Paginierung

Bei Produkten mit einer großen Anzahl von Rezensionen verwendet Amazon eine Paginierung, um diese auf mehrere Seiten aufzuteilen. Um alle Rezensionen effektiv zu scrapen, ist es wichtig zu verstehen, wie die Paginierung in HTML strukturiert ist. Es ist, als würde man herausfinden, wie man die Seiten eines Buches umblättert, um die ganze Geschichte zu lesen.

Behalten Sie diese Elemente im Hinterkopf, während wir mit der Entwicklung eines Scrapers für Amazon-Produktbewertungen fortfahren. Sie sind die Bausteine ​​unserer Scraping-Strategie.

IV. So scrapen Sie Amazon-Bewertungen

Schritt 1. Vorbereiten Ihres Arbeitsbereichs: Voraussetzungen und Umgebungseinrichtung

Kommen wir nun zur Sache und stellen sicher, dass Ihr Arbeitsbereich für die Erstellung eines Amazon-Bewertungs-Scrapers bereit ist. Bevor wir mit der Codierung beginnen, finden Sie hier eine Checkliste, um sicherzustellen, dass Sie alles haben, was Sie brauchen:

Node.js installiert

Stellen Sie sicher, dass Node.js auf Ihrem Computer installiert ist. Wenn Sie es noch nicht haben, können Sie es von deren Offizielle Node.js-Website. Node.js dient als Laufzeitumgebung, die es uns ermöglicht, JavaScript-Code auf Ihrem Computer auszuführen.

JavaScript-Token der Crawlbase-API

Um eine Verbindung mit der Crawlbase-API herzustellen, benötigen Sie ein API-Token. Sie erhalten das Token durch Anmeldung bei Crawlbase. Sobald Sie ein Konto haben, gehen Sie zum Konto-Dashboard und speichern Sie Ihr JavaScript-Token. Betrachten Sie dieses Token als Ihren Zugangsschlüssel zum Webdatenschatz.

Grundkenntnisse in JavaScript und npm

Etwas Vertrautheit mit JavaScript und npm (Node Package Manager) wird uns im weiteren Verlauf sehr nützlich sein. Wenn Sie neu bei JavaScript sind, machen Sie sich keine Sorgen; wir führen Sie Schritt für Schritt durch den Code. Npm wird uns bei der Verwaltung von Paketen und Abhängigkeiten während des gesamten Projekts unterstützen.

Indem Sie sicherstellen, dass diese Elemente vorhanden sind, können Sie problemlos und erfolgreich lernen, wie Sie Amazon-Bewertungen scrapen.

Einrichten der Umgebung

Jetzt, da wir bereit sind, unser Amazon-Produktbewertungs-Scraping-Projekt zu starten, beginnen wir mit der Vorbereitung unserer Codierungsumgebung. Dieser Schritt ist wichtig, da er die Grundlage für die bevorstehende Arbeit bildet.

Öffnen Sie Ihre Befehlszeilenschnittstelle. Dies kann die Eingabeaufforderung (Windows), das Terminal (macOS und Linux) oder eine ähnliche Terminalanwendung sein, und navigieren Sie zu dem Verzeichnis, in dem Sie Ihr Projekt erstellen möchten.

Sobald Sie sich im Terminal in Ihrem Projektverzeichnis befinden, ist es an der Zeit, Ihre Codedatei zu erstellen. Führen Sie den folgenden Befehl aus:

1
aufnehmen index.js und npm init -y

Als nächstes verwenden wir die Crawlbase Node-Bibliothek für eine einfachere Integration. Installieren Sie die Bibliothek, indem Sie die folgende Zeile ausführen:

1
npm installiere Crawlbase

Dieser Befehl verwendet npm (Node Package Manager), um die Crawlbase-Bibliothek abzurufen und zu installieren, die wir zur Interaktion mit der Crawlbase-API verwenden werden. Die Bibliothek bietet praktische Funktionen für Ihren JavaScript-Code, um Web Scraping zum Kinderspiel zu machen.

Wenn Sie fertig sind, fahren wir mit dem nächsten Schritt fort: Schreiben Sie den Code zum Extrahieren von Amazon-Produktbewertungen.

Schritt 2. Amazon-Produktbewertungen abrufen

In diesem Abschnitt sind wir bereit, in den Code einzutauchen, der Amazon-Produktbewertungen mithilfe der Crawlbase-Funktion abruft. Crawling API. Hier ist der Code, gefolgt von seiner Erklärung:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
const { CrawlingAPI } = erfordern(„Crawlbase“),
API = neu CrawlingAPI({ Zeichen: 'CRAWLBASE_JS_TOKEN' }),
amazonReviewsURL =
„https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews“;

async Funktion fetchReviews(URL, Bewertungen = []) {
versuchen {
const Antwort = – warten auf Sie! api.bekommen(URL, {
Schaber: „Amazon-Produktbewertungen“,
});

if (Antwort.Statuscode === 200) {
const Daten = Antwort.JSON.Körper;

trösten.Log(Daten);
} sonst {
werfen neu Fehler(`API-Anforderung fehlgeschlagen mit Status: ${response.statusCode}`);
}
} Fang (Fehler) {
trösten.Fehler(`API-Aufruf fehlgeschlagen: ${Fehlernachricht}`);
}
}

// Rufen Sie die Funktion fetchReviews auf, um den Scraping-Prozess zu starten
fetchReviews(amazonReviewsURL);
  1. Erforderliche Module importieren: Der Code beginnt mit dem Importieren der erforderlichen Module aus der Bibliothek „Crawlbase“. Er importiert die Klasse CrawlingAPI, die zur Interaktion mit der Crawlbase-API verwendet wird.
  2. Initialisieren Sie die API: Es initialisiert die Crawlbase API durch die Erstellung einer Instanz der CrawlingAPI Klasse und übergeben Sie Ihr Crawlbase JavaScript-Token als Konfigurationsparameter. Ersetzen Sie "CRAWLBASE_JS_TOKEN" mit Ihrem tatsächlichen Token.
  3. Definieren Sie die Amazon-Bewertungs-URL: Die URL der Amazon-Produktbewertungsseite wird gespeichert in amazonReviewsURL Variable. Diese URL verweist auf die spezifische Produktbewertungsseite, die Sie scrapen möchten.
  4. erstellen Sie fetchReviews Funktion: Diese Funktion ist für das Abrufen von Amazon-Produktbewertungen mithilfe der Crawlbase-API verantwortlich. Sie verwendet die URL als Argument und einen optionalen reviews Array zum Speichern der Scraped-Daten.
  5. Senden der GET-Anfrage: Innerhalb der try Block wird eine asynchrone GET-Anfrage an die Crawlbase-API gesendet mit api.get(url, options)dem „Vermischten Geschmack“. Seine scraper Option ist auf eingestellt "amazon-product-reviews" um anzugeben, dass Sie den von Crawlbase bereitgestellten Scraper für Amazon-Produktbewertungen verwenden möchten.
  6. Verarbeiten der Antwort: Wenn die API mit einem Statuscode von 200 (OK) antwortet, extrahiert der Code die Scraped-Daten aus dem Antwort-JSON und protokolliert sie in der Konsole. Sie können diesen Teil des Codes ändern, um die Daten in einer Datei zu speichern oder andere Aktionen auszuführen.
  7. Fehlerbehandlung: Wenn der Antwortstatuscode nicht 200 ist oder während des API-Aufrufs ein Fehler auftritt, fängt der Code den Fehler ab und protokolliert eine Fehlermeldung in der Konsole.
  8. Aufruf der Funktion: Abschließend wird die Funktion fetchReviews aufgerufen mit dem amazonReviewsURL als Argument, um den Scraping-Prozess zu starten.

Dieser Code legt die Grundlage für das Scraping von Amazon-Bewertungen mithilfe der Crawlbase-Bibliothek und API. Er vereinfacht den Scraping-Prozess, indem er den vorgefertigten Scraper von Crawlbase für Amazon-Produktbewertungen nutzt und den Aufwand für die Erstellung eines benutzerdefinierten Parsers eliminiert.

Codeausführung

Nun können Sie den Code ausführen, indem Sie node Befehl gefolgt vom Namen der JavaScript-Datei, die index.js in diesem Fall. Geben Sie den folgenden Befehl ein und drücken Sie die Eingabetaste:

1
Knoten index.js

Der Code protokolliert die Scraped-Daten oder etwaige Fehlermeldungen im Terminal. Überprüfen Sie die Ausgabe sorgfältig, um sicherzustellen, dass der Scraping-Prozess wie erwartet funktioniert.

Schritt 3. Alle Bewertungen mit Paginierung auslesen

Paginierung beim Web Scraping verstehen

Paginierung ist eine gängige Technik, die auf Websites verwendet wird, um große Mengen an Inhalten, wie z. B. Produktbewertungen, in kleinere, überschaubarere Abschnitte oder Seiten aufzuteilen. Jede Seite enthält normalerweise eine Teilmenge des Gesamtinhalts, und Benutzer können zwischen den Seiten navigieren, um auf unterschiedliche Teile der Daten zuzugreifen.

Im Kontext der Bahnkratzen, die Paginierung wird relevant, wenn Sie mit Websites arbeiten, die Daten auf mehreren Seiten anzeigen. Beispielsweise sind Amazon-Produktbewertungen oft auf mehrere Seiten verteilt. Um alle Bewertungen abzurufen, müssen Sie systematisch durch diese Seiten navigieren und die Daten nacheinander von jeder Seite abrufen.

Verwenden der Amazon-Paginierung zum Scraping

Amazon verwendet wie viele andere Websites ein Paginierungssystem, um seine Produktbewertungen zu organisieren. Das bedeutet, dass Sie, wenn Sie Amazon-Bewertungen mit mehreren Seiten scrapen möchten, einer Reihe von Seitenlinks folgen müssen, um auf die Daten jeder Bewertungsseite zuzugreifen und diese abzurufen.

Um ein besseres Verständnis zu bekommen, können Sie sich die folgenden URL-Beispiele ansehen, um zu sehen, wie Amazon mit der Paginierung umgeht:

Hauptbewertungsseite:
https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews

Zweite Seite:
https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews&pageNumber=2

Dritte Seite:
https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews&pageNumber=3

Sehen wir uns nun den bereitgestellten Code an und erklären wir, wie diese Paginierung erreicht wird:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
const { CrawlingAPI } = erfordern(„Crawlbase“),
API = neu CrawlingAPI({ Zeichen: 'CRAWLBASE_JS_TOKEN' }), // Ersetzen Sie es durch Ihr JS-Anforderungstoken
amazonReviewsURL =
„https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews“;

async Funktion fetchReviews(URL, Bewertungen = []) {
versuchen {
const Antwort = – warten auf Sie! api.bekommen(URL, {
Schaber: „Amazon-Produktbewertungen“,
ajax_wait: was immer dies auch sein sollte.,
Seite_warten: 3000,
});

// Überprüfen, ob der Antwortstatus 200 ist
if (Antwort.Statuscode === 200) {
const Daten = Antwort.JSON.Körper;

// Überprüfen, ob die Paginierungsnummer in der Antwort vorhanden ist
const nextPageNumber = Daten.Pagination.Nächste Seite;

trösten.Log(Bewertungen.Länge, „Antwort-Bewertungen“);

if (nächsteSeitennummer) {
// Rufen Sie die Funktion rekursiv mit der nächsten Seiten-URL auf
const nächsteSeitenURL = `${amazonReviewsURL}&Seitennummer=${nextPageNumber}`;
Rückkehr fetchReviews(nextPageUrl, Bewertungen.concat(Daten.Rezensionen));
} sonst {
trösten.Log(„Habe die letzte Seite erreicht.“, Bewertungen.Länge);
Rückkehr Bewertungen.concat(Daten.Rezensionen);
}
} sonst {
// Leere Datenantwort verarbeiten
werfen neu Fehler(`API-Anforderung fehlgeschlagen mit Status: ${response.statusCode}`);
}
} Fang (Fehler) {
trösten.Log(`API-Aufruf konnte die URL nicht erneut abrufen: $ {url}`);

// Wiederholen Sie den API-Aufruf mit derselben URL
Rückkehr fetchReviews(URL, Bewertungen);
}
}

async Funktion fetchAllReviews() {
versuchen {
const Bewertungen = – warten auf Sie! fetchReviews(amazonReviewsURL);
trösten.Log(„Gesamtzahl der Bewertungen:“, Bewertungen.Länge);
} Fang (Fehler) {
trösten.Fehler(`Rekursive API-Aufrufe sind fehlgeschlagen: ${Fehler}`);
}
}

// Starten Sie die rekursiven API-Aufrufe, um Amazon-Produktbewertungen abzurufen
fetchAllReviews();
  1. Kriechen und Schaben:
  • Der Code definiert eine Funktion namens fetchReviews, die für das Scraping von Amazon-Produktbewertungen zuständig ist.
  • Zunächst wird mithilfe der Crawlbase-API eine Anfrage an die URL der Amazon-Rezensionen gesendet. Die Optionen ajax_wait und page_wait werden gesetzt, um ein ordnungsgemäßes Laden und Warten auf die Seitenelemente sicherzustellen.
  • Es prüft, ob der Statuscode der API-Antwort 200 lautet (was Erfolg anzeigt) und fährt mit dem Extrahieren der Amazon-Bewertungen aus der Antwort fort.
  1. Paginierungslogik:
  • Innerhalb der Funktion wird geprüft, ob in der Datenantwort eine nextPageNumber vorhanden ist. Wenn dieser Wert vorhanden ist, bedeutet dies, dass eine weitere Seite mit Bewertungen vorhanden ist.
  • Wenn es eine nächste Seite gibt, wird die URL für diese Seite erstellt und ein rekursiver Aufruf von fetchReviews mit der neuen URL durchgeführt. Außerdem werden die Daten der aktuellen Seite mit dem Array der gesammelten Bewertungen verknüpft.
  1. Umgang mit der letzten Seite:
  • Wenn keine nächste Seite vorhanden ist (d. h. „nextPageNumber“ nicht vorhanden ist), wird protokolliert, dass die letzte Seite erreicht wurde, und das verknüpfte Array mit den Bewertungen zurückgegeben.
  1. Fehlerbehandlung:
  • Der Code enthält eine Fehlerbehandlung, um Fälle zu verwalten, in denen der API-Aufruf fehlschlagen oder leere Daten zurückgeben kann. Wenn ein Fehler auftritt, wird die Fehlermeldung protokolliert und der API-Aufruf mit derselben URL erneut versucht.

Dieser Code navigiert effektiv durch die paginierten Amazon-Produktbewertungen und führt rekursive Aufrufe durch, um Daten von jeder Seite abzurufen und zu sammeln, bis die letzte Seite erreicht ist. Dies ist eine zuverlässige Methode, um sicherzustellen, dass Sie alle verfügbaren Bewertungen für Ihr ausgewähltes Produkt abrufen.

Hier ist die Beispielantwort:

Amazon Produktbewertungen Terminal-Antwort

Schritt 4. Speichern der Daten

Nach dem erfolgreichen Scraping der Amazon-Produktbewertungen besteht der nächste entscheidende Schritt darin, diese wertvollen Daten für die Analyse, als zukünftige Referenz oder für andere Zwecke, die Ihnen in den Sinn kommen, zu speichern. Daten speichern ist ein wesentlicher Teil des Web-Scraping-Prozesses, da es die Ergebnisse Ihrer Bemühungen für die spätere Verwendung bewahrt.

Verwenden des fs-Moduls in Node.js

Um die gesammelten Bewertungen zu speichern, verwenden wir die fs (Dateisystem)-Modul in Node.js. Das fs module ist ein integriertes Modul, das uns die Interaktion mit dem Dateisystem auf unserem Computer ermöglicht. Damit können wir Dateien erstellen, lesen, schreiben und verwalten. In unserem Fall verwenden wir es, um die gesammelten Bewertungen in eine JSON-Datei zu schreiben.

Im nächsten Abschnitt stellen wir Ihnen den Code zum Speichern der Scraped-Bewertungen in einem amazon_reviews.json Datei und erklären Sie, wie es funktioniert. Dieser Schritt stellt sicher, dass Sie über eine strukturierte und zugängliche Aufzeichnung der gesammelten Bewertungen verfügen, sodass Sie datengesteuerte Entscheidungen treffen oder bei Bedarf weitere Analysen durchführen können.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
const { CrawlingAPI } = erfordern(„Crawlbase“),
fs = erfordern('fs'), // Importieren Sie das Modul „fs“
API = neu CrawlingAPI({ Zeichen: 'CRAWLBASE_JS_TOKEN' }), // Ersetzen Sie es durch Ihr JS-Anforderungstoken
amazonReviewsURL =
„https://www.amazon.com/Meta-Quest-Pro-Oculus/product-reviews/B09Z7KGTVW/?reviewerType=all_reviews“;

async Funktion fetchReviews(URL, Bewertungen = []) {
versuchen {
const Antwort = – warten auf Sie! api.bekommen(URL, {
Schaber: „Amazon-Produktbewertungen“,
ajax_wait: was immer dies auch sein sollte.,
Seite_warten: 3000,
});

// Überprüfen, ob der Antwortstatus 200 ist
if (Antwort.Statuscode === 200) {
const Daten = Antwort.JSON.Körper;

// Überprüfen, ob die Paginierungsnummer in der Antwort vorhanden ist
const nextPageNumber = Daten.Pagination.Nächste Seite;

trösten.Log(Bewertungen.Länge, „Antwort-Bewertungen“);

if (nächsteSeitennummer) {
// Rufen Sie die Funktion rekursiv mit der nächsten Seiten-URL auf
const nächsteSeitenURL = `${amazonReviewsURL}&Seitennummer=${nextPageNumber}`;
Rückkehr fetchReviews(nextPageUrl, Bewertungen.concat(Daten.Rezensionen));
} sonst {
trösten.Log(„Habe die letzte Seite erreicht.“, Bewertungen.Länge);
Rückkehr Bewertungen.concat(Daten.Rezensionen);
}
} sonst {
// Leere Datenantwort verarbeiten
werfen neu Fehler(`API-Anforderung fehlgeschlagen mit Status: ${response.statusCode}`);
}
} Fang (Fehler) {
trösten.Log(`API-Aufruf konnte die URL nicht erneut abrufen: $ {url}`);

// Wiederholen Sie den API-Aufruf mit derselben URL
Rückkehr fetchReviews(URL, Bewertungen);
}
}

async Funktion fetchAllReviews() {
versuchen {
const Bewertungen = – warten auf Sie! fetchReviews(amazonReviewsURL);
trösten.Log(„Gesamtzahl der Bewertungen:“, Bewertungen.Länge);
fs.SchreibeFileSync('amazon_reviews.json', JSON.stringifizieren({ Bewertungen }, null, 2));
} Fang (Fehler) {
trösten.Fehler(`Rekursive API-Aufrufe sind fehlgeschlagen: ${Fehler}`);
}
}

// Starten Sie die rekursiven API-Aufrufe, um Amazon-Produktbewertungen abzurufen
fetchAllReviews();
  1. Importe: Wir importieren die erforderlichen Module, darunter die Crawlbase-Bibliothek für Web Scraping (CrawlingAPI) und das integrierte Node.js-fs-Modul für Dateioperationen (fs).
  2. Amazon-Bewertungen abrufen: Die Funktion fetchReviews ist dafür verantwortlich, Anfragen an die Crawlbase-API zu senden, um Amazon-Produktbewertungen abzurufen. Sie übernimmt die Paginierung, indem sie sich selbst rekursiv für jede nächste Seite mit Bewertungen aufruft, bis keine Seiten mehr vorhanden sind.
  3. Umgang mit Fehlern: Es umfasst eine Fehlerbehandlung für Situationen, in denen die API-Anforderung fehlschlägt oder leere Daten zurückgibt. In solchen Fällen wird dieselbe URL erneut versucht.
  4. Speichern von Bewertungen: Die Funktion fetchAllReviews orchestriert den Prozess. Nachdem alle Bewertungen abgerufen wurden, werden sie mithilfe von fs.writeFileSync in einer Datei „amazon_reviews.json“ gespeichert. Die Bewertungen werden im JSON-Format gespeichert, um einen einfachen Zugriff und eine einfache Analyse zu ermöglichen.
  5. Einleitung des Prozesses: Das Skript beginnt mit dem Aufruf von fetchAllReviews, wodurch der Prozess zum Abrufen und Speichern von Amazon-Produktbewertungen gestartet wird.

Zusammengefasst ruft dieser Code Amazon-Produktbewertungen ab, kümmert sich um die Seitennummerierung und speichert die gesammelten Daten in einer JSON-Datei zur späteren Verwendung. Dies ist eine effiziente Möglichkeit, die gesammelten Informationen aufzubewahren und zu analysieren.

Führen Sie den Code aus. Sobald der Code ausgeführt wurde, wird die Gesamtzahl der abgerufenen Bewertungen angezeigt. Sie können dann die Datei „amazon_reviews.json“ im selben Verzeichnis überprüfen, um auf die abgerufenen Daten zuzugreifen.

Hier ist ein Beispiel für eine JSON-Antwort:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
{
"Bewertungen": [
{
"Bewertungs-ID": „RKQEU6WKR8K25“,
"Gutachtername": "Grrgoyl",
"RezensentenLink": "https://www.amazon.com/gp/profile/amzn1.account.AHRET2Q2B5UOD2H4BENDQRLWUOCA/ref=cm_cr_arp_d_gw_btm?ie=UTF8",
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/RKQEU6WKR8K25/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „4.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 2. August 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": „Kein Bedauern“,
"Bewertungstext": „Bin ich verrückt/dumm, weil ich mir das Pro nur wenige Monate vor der Markteinführung des Quest 3 kaufe? Ich glaube nicht. Auf meinem Quest 256 mit 2 GB läuft der Speicherplatz Gefahr, knapp zu werden.“,
"Bewertungsstimmen": „11 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „R5MWA1QYQQ08I“,
"Gutachtername": "Totty The Animator",
"RezensentenLink": „https://www.amazon.com/gp/profile/amzn1.account.AGHDQ5LDPFJWGULE6KCFUCIMVOVA/ref=cm_cr_arp_d_gw_btm?ie=UTF8“,
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/R5MWA1QYQQ08I/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „4.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 8. April 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": „Warte, aber wenn du nicht kannst, schön.“,
"Bewertungstext": „Ich habe mir ein M.Quest 2 besorgt, um Quill zu verwenden. Ich bin Animator und Steam hat zwar einige Kunstwerkzeuge, aber einige davon sind okay.“,
"Bewertungsstimmen": „27 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „R1SQONPI32TSA3“,
"Gutachtername": "Damian",
"RezensentenLink": "https://www.amazon.com/gp/profile/amzn1.account.AG7XUXY3DP5HLZMUXI5FRHGIUM2A/ref=cm_cr_arp_d_gw_btm?ie=UTF8",
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/R1SQONPI32TSA3/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „3.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 1. November 2022“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": „Extrem überteuert. Ausgezeichneter Komfort. Sehr schlechtes Display.“,
"Bewertungstext": „Ich habe dies vor Kurzem als Upgrade von meiner Oculus Rift der ersten Generation und meinem HTC Vive der ersten Generation gekauft.“,
"Bewertungsstimmen": „386 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „R1P51LFI4UT2BH“,
"Gutachtername": "Schildkröte",
"RezensentenLink": "https://www.amazon.com/gp/profile/amzn1.account.AGAM4YMLO2I3H573MRATCQBVH64A/ref=cm_cr_arp_d_gw_btm?ie=UTF8",
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/R1P51LFI4UT2BH/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „3.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 11. März 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": „Sparen Sie Ihr Geld“,
"Bewertungstext": „Aktualisierte Rezension – sparen Sie Ihr Geld, kaufen Sie das normale Quest 2. Warten Sie vielleicht mit der 3. Das Pro hat einige fantastische Funktionen.“,
"Bewertungsstimmen": „39 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „RR3IJVMY99Y92“,
"Gutachtername": "BC",
"RezensentenLink": „https://www.amazon.com/gp/profile/amzn1.account.AHVFQVUULJHUYMXXEK2RVE4EZPLQ/ref=cm_cr_arp_d_gw_btm?ie=UTF8“,
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/RR3IJVMY99Y92/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „4.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 19. August 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": "Lichtblocker"
}
],
"Rezensionstitel": „Verbessern Sie Ihr VR-Erlebnis mit dem Meta Quest Pro Full Light Blocker!“,
"Bewertungstext": „Ich habe mir vor Kurzem den Meta Quest Pro Full Light Blocker gekauft, um meine VR-Gaming-Sessions auf das nächste Level zu bringen, und bin ziemlich zufrieden.“,
"Bewertungsstimmen": „Eine Person fand dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „R2BGDJLIQH5KFX“,
"Gutachtername": „Eine Person mit einer Meinung“,
"RezensentenLink": "https://www.amazon.com/gp/profile/amzn1.account.AFSMEKU6NSM3JBKWG5VQO44AW2VA/ref=cm_cr_arp_d_gw_btm?ie=UTF8",
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/R2BGDJLIQH5KFX/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „4.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 20. Februar 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": „Großes Upgrade, das sich nicht groß anfühlt“,
"Bewertungstext": „Als Erstes möchte ich sagen, dass das Pro, obwohl es ein großes Upgrade gegenüber dem Quest 2 darstellt, nicht so glänzt, wie man erwarten würde.“,
"Bewertungsstimmen": „18 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
},
{
"Bewertungs-ID": „RVRX0CNDU7TYK“,
"Gutachtername": "Artjom",
"RezensentenLink": "https://www.amazon.com/gp/profile/amzn1.account.AG4F7G5EVO6D3NRSRVIRRNUR4P5A/ref=cm_cr_arp_d_gw_btm?ie=UTF8",
"Bewertungslink": "https://www.amazon.com/gp/customer-reviews/RVRX0CNDU7TYK/ref=cm_cr_arp_d_rvw_ttl?ie=UTF8&ASIN=B09Z7KGTVW",
"Bewertungsbewertung": „4.0 von 5 Sternen“,
"Überprüfungsdatum": „Rezension aus den Vereinigten Staaten vom 19. Juli 2023“,
"BewertungDetailsTop": [
{
"Name": "Stil",
"Wert": „Quest Pro System“
}
],
"Rezensionstitel": "Überteuert, aber ziemlich gut",
"Bewertungstext": "UPDATE: Es lebt. Ich weiß nicht warum und wie, aber in ein paar Tagen ist es wieder zum Leben erwacht. 4 Sterne, weil ich es eh für überteuert halte.",
"Bewertungsstimmen": „3 Personen fanden dies hilfreich“,
„BewertungVerifizierterKauf“: was immer dies auch sein sollte.,
"Anzahl der Bewertungskommentare": 0,
"Medien": {
"Bilder": [],
"Video": ""
}
}
...
]
}

Das war’s! Sie haben den Code erfolgreich ausgeführt, um Amazon-Bewertungen zu scrapen und in einer Datei zu speichern. Sie können diese Daten nun bei Bedarf für Analysen oder andere Zwecke verwenden.

Bei unserer Untersuchung, wie man Amazon-Bewertungen auswertet, haben wir ein wertvolles Tool entdeckt, mit dem man Erkenntnisse aus Amazon-Produktbewertungen gewinnen kann. Mithilfe der Crawlbase-Bibliothek und JavaScript haben wir gelernt, mühelos Kundenfeedback von Amazon zu sammeln und zu analysieren. Diese Bewertungen bieten einen Einblick in Markttrends, Bereiche für Produktverbesserungen und Einblicke in Ihre Konkurrenz. Da wir verstanden haben, wie man Amazon-Bewertungen auswertet, haben wir auch unsere Codierungsumgebung eingerichtet, Crawlbase integriert und Code entwickelt, der effizient durch die Bewertungsseiten von Amazon navigiert und uns Zeit, Mühe und Geld spart. Durch die systematische Speicherung dieser Daten stellen wir sicher, dass wir eine zuverlässige Aufzeichnung für zukünftige Entscheidungen haben.

Abschließend möchten wir Sie ermutigen, Web Scraping für datengesteuerte Entscheidungen zu erkunden. Egal, ob Sie geschäftlich tätig sind, forschen oder einfach nur neugierig sind, Web Scraping kann wertvolle Erkenntnisse liefern. Denken Sie immer daran, Amazon-Bewertungen verantwortungsbewusst zu scrapen und die Nutzungsbedingungen der Websites zu beachten. So erschließen Sie sich eine Welt datengesteuerter Möglichkeiten. Nutzen Sie das Potenzial von Web Scraping und lassen Sie sich von Daten leiten!

Häufig gestellte Fragen

Erlaubt Amazon Web Scraping?

Das Scraping von Bewertungen auf Amazon ist rechtlich eine Grauzone. Obwohl das Scraping öffentlich verfügbarer Daten auf einer Website im Allgemeinen als legal gilt, gibt es wichtige Einschränkungen. Die Servicebedingungen von Amazon verbieten das Web Scraping ausdrücklich. Um innerhalb der rechtlichen Grenzen zu bleiben, ist es wichtig, die Richtlinien von Amazon zu überprüfen und einzuhalten. Vermeiden Sie außerdem übermäßiges Scraping, das die Dienste von Amazon stören oder gegen geltende Gesetze verstoßen könnte. Datenschutz.

Amazon verwendet außerdem CAPTCHA-Herausforderungen, um zu überprüfen, ob der Benutzer, der auf die Website zugreift, ein Mensch ist. Diese Herausforderungen sollen verhindern, dass automatisierte Bots und Web Scraper die Site überlasten. Wenn Sie beim Zugriff auf Amazon auf CAPTCHA-Herausforderungen stoßen, ist dies Teil der Sicherheitsmaßnahmen von Amazon, um ein faires und sicheres Online-Einkaufserlebnis zu gewährleisten.

Welchen Vorteil bietet Crawlbase gegenüber anderen Scraping-Methoden?

Crawlbase Crawling API ist ein spezielles Tool, das für das Scraping von Amazon-Bewertungen entwickelt wurde. Es ist zuverlässiger und effizienter für das Scraping von Amazon-Bewertungen. Es bewältigt viele der mit dem Web Scraping verbundenen Herausforderungen, wie z. B. den Umgang mit CAPTCHAs, IP-Rotation, und Sitzungsverwaltung. Außerdem bietet es dedizierten Support und stellt sicher, dass Sie Amazon-Bewertungen in großem Umfang scrapen können, während das Risiko einer Blockierung minimiert wird. Obwohl andere Methoden möglich sind, kann Crawlbase Zeit, Aufwand und Ressourcen sparen.

Was ist der beste Weg, um bei Amazon Produktdaten zu durchsuchen?

Die beste Möglichkeit, Daten von Amazon-Produktseiten zu scrapen, ist die Verwendung von Crawlbase. Es ist, als hätten Sie einen intelligenten Assistenten, der Ihnen hilft, die benötigten Informationen schnell und präzise von der Amazon-Website zu erhalten. Crawlbase macht das Web Scraping einfach, sodass Sie nicht viel Zeit und Energie darauf verwenden müssen, es manuell zu erledigen. Es ist eine großartige Möglichkeit, um sicherzustellen, dass Sie Amazon-Bewertungen problemlos scrapen oder die gewünschten Daten ohne Probleme erhalten.

Kann ich Amazon-Bewertungen für jede Produktkategorie scrapen?

Ja, Sie können Amazon-Bewertungen für die meisten Produktkategorien scrapen. Allerdings kann das Layout von Amazon zwischen den Kategorien leicht variieren. Ihr Scraper sollte an verschiedene Produktseiten anpassbar sein, indem er kategoriespezifische Elemente erkennt und verarbeitet.

Kann ich Crawlbase mit verschiedenen Programmiersprachen verwenden?

Ja, Crawlbase kann mit verschiedenen Programmiersprachen arbeiten. Es ist auf Flexibilität ausgelegt. Aber hier ist der Tipp: Um die Dinge einfacher zu machen, empfehlen wir die Verwendung der Crawlbase-Bibliothek, die zu Ihrer Programmiersprache passt. Es ist, als hätten Sie ein spezielles Toolkit, das perfekt zu Ihrer Sprache passt. Dieses Toolkit enthält alle Tools, die Sie benötigen, um Ihren Code mit Crawlbase zu verbinden. Verwenden Sie also, wenn möglich, die Crawlbase-Bibliothek für ein reibungsloseres Erlebnis. Sie sparen Zeit und sorgen dafür, dass Ihr Web-Scraping-Projekt reibungsloser läuft, egal welche Programmiersprache Sie bevorzugen.