Tokopedia, eine der größten E-Commerce-Plattformen Indonesiens, hat über 90 Millionen aktive Benutzer und 350 Millionen monatliche Besuche. Die Plattform bietet eine breite Produktpalette, von Elektronik, Mode, Lebensmitteln bis hin zu Körperpflegeprodukten. Unternehmen und Entwickler können durch das Scraping von Tokopedia-Daten Einblicke in Produkttrends, Preisstrategien und Kundenpräferenzen erhalten.
Tokopedia verwendet JavaScript zum Rendern seiner Inhalte; die herkömmliche Scraping-Methode funktioniert nicht. Crawlbase Crawling API hilft, indem es mit JavaScript gerenderte Inhalte nahtlos verarbeitet. In diesem Tutorial erfahren Sie, wie Sie mit Python und Crawlbase Tokopedia-Suchlisten und Produktseiten nach Produktnamen, Preisen und Bewertungen durchsuchen.
Lass uns loslegen!
Inhaltsverzeichnis
- Warum Tokopedia-Daten scrapen?
- Wichtige Datenpunkte zum Extrahieren aus Tokopedia
- Crawlbase Crawling API für Tokopedia Scraping
- Crawlbase Python-Bibliothek
- Installieren von Python und erforderlichen Bibliotheken
- Auswahl einer IDE
- Untersuchen des HTML auf CSS-Selektoren
- Schreiben des Suchlisten-Scrapers
- Umgang mit Paginierung in Tokopedia
- Speichern von Daten in einer JSON-Datei
- Code vervollständigen
- Untersuchen des HTML auf CSS-Selektoren
- Schreiben des Produktseiten-Scrapers
- Speichern von Daten in einer JSON-Datei
- Code vervollständigen
Warum Tokopedia-Daten scrapen?
Das Scraping von Tokopedia-Daten kann für Unternehmen und Entwickler von Vorteil sein. Als eine der größten E-Commerce-Plattformen Indonesiens verfügt Tokopedia über zahlreiche Informationen zu Produkten, Preisen und Kundenverhalten. Durch das Extrahieren dieser Daten können Sie auf dem Online-Markt die Nase vorn haben.
Es gibt viele Gründe, warum man sich für das Scraping von Daten aus Tokopedia entscheiden würde:
- Marktforschung: Die Kenntnis der aktuellen Nachfrage hilft Ihnen bei der Bestands- und Marketingplanung. Durch die Betrachtung der allgemeinen Trends lassen sich immer Chancen finden.
- Preisvergleich: Man kann möglicherweise Tokopedia durchsuchen und mehrere Preise für Produkte aus verschiedenen Kategorien erhalten. Dies würde es einem ermöglichen, Preisanpassungen vorzunehmen, um wettbewerbsfähig zu bleiben.
- Wettbewerbsanalyse: Durch die Zusammenstellung der Daten zu den Produkten der Wettbewerber können Sie besser verstehen, wie diese sich positionieren und wo ihre Schwachstellen liegen.
- Customer Insights: Das Lesen von Produktrezensionen und -beurteilungen hilft dabei, die wichtigsten Vor- und Nachteile verschiedener Waren aus der Sicht der Kunden zu verstehen.
- Produktverfügbarkeit: Überwachen Sie die Produkte, damit Sie wissen, wann die begehrten Produkte zur Neige gehen, und stocken Sie die Lagerbestände auf, um die Kunden zufriedenzustellen.
Im nächsten Abschnitt werden wir sehen, was wir aus Tokopedia scrapen können.
Wichtige Datenpunkte zum Extrahieren aus Tokopedia
Konzentrieren Sie sich beim Scraping von Tokopedia auf die wichtigen Datenpunkte. So erhalten Sie umsetzbare Erkenntnisse für Ihr Unternehmen oder Ihre Forschung. Hier sind die Datenpunkte, die Sie erfassen sollten:
- Produktname: Identifiziert das Produkt.
- Preis: Zur Preisüberwachung und Wettbewerbsanalyse.
- Bewertungen und Rezensionen: Für Benutzererfahrung und Produktnutzbarkeit.
- Verfügbarkeit: Für Lagerbestand und Produktverfügbarkeit.
- Angaben zum Verkäufer: Details zu Drittanbietern, Verkäuferbewertungen und Standort.
- Produktbilder: Bilder zur visuellen Darstellung und zum Verständnis des Produkts.
- Beschreibung: Für die Einzelheiten zum Produkt.
- Kategorie und Tags: Zur Anordnung der Produkte und kategorisierten Analyse.
Wenn man sich auf diese Aspekte der Daten konzentriert, kann man nützliche Erkenntnisse aus Tokopedia gewinnen, die einem dabei helfen können, Entscheidungen zu verfeinern oder zu verbessern. Als Nächstes werden wir sehen, wie Sie Ihre Python-Umgebung für das Scraping einrichten.
Crawlbase Crawling API für Tokopedia Scraping
Die Crawlbase Crawling API macht das Scraping von Tokopedia schnell und unkompliziert. Da die Website von Tokopedia dynamische Inhalte verwendet, werden viele der Daten über JavaScript geladen, was das Scraping mit herkömmlichen Methoden schwierig macht. Aber Crawlbase Crawling API rendert die Seiten wie ein echter Browser, sodass Sie auf die Daten zugreifen können.
Darum Crawlbase Crawling API eignet sich gut zum Scrapen von Tokopedia:
- Verarbeitet dynamische Inhalte: Crawlbase verarbeitet JavaScript-lastige Seiten, sodass alle Produktdaten vollständig geladen und zum Scrapen bereit sind.
- IP-Rotation: Um eine Blockierung durch die Sicherheitssysteme von Tokopedia zu verhindern, rotiert Crawlbase automatisch die IPs, sodass Sie scrapen können, ohne sich um Ratenbegrenzungen oder Sperren sorgen zu müssen.
- Schnelle Leistungs: Mit Crawlbase können Sie große Datenmengen effizient scrapen und dabei Zeit und Ressourcen sparen.
- Anpassbare Anfrages: Sie können die Header, Cookies und Steueranfragen Ihren Bedürfnissen entsprechend ändern.
Mit diesen Funktionen, Crawlbase Crawling API macht das Scraping von Tokopedia einfacher und effizienter.
Crawlbase Python-Bibliothek
Crawlbase bietet auch eine Python-Bibliothek, um das Web Scraping noch einfacher zu machen. Um diese Bibliothek zu verwenden, benötigen Sie einen Zugriffstoken, den Sie erhalten können unter Anmeldung zu Crawlbase.
Hier ist eine Beispielfunktion zum Senden einer Anfrage an Crawlbase Crawling API:
1 | für Crawlbase importieren CrawlingAPI |
Note: Crawlbase bietet zwei Arten von Token. Normales Token für statische Sites. JavaScript (JS)-Token für dynamische oder im Browser gerenderte Inhalte, die zum Scraping von Tokopedia erforderlich sind. Crawlbase bietet 1,000 kostenlose Anfragen, um Ihnen den Einstieg zu erleichtern, und Sie können sich ohne Kreditkarte anmelden. Weitere Einzelheiten finden Sie in der Crawlbase Crawling API Dokumentation.
Im nächsten Abschnitt erfahren wir, wie man eine Python-Umgebung für das Tokopedia-Scraping einrichtet.
Einrichten Ihrer Python-Umgebung
Um mit dem Scraping von Tokopedia zu beginnen, müssen Sie Ihre Python-Umgebung einrichten. Befolgen Sie diese Schritte, um loszulegen:
Installieren von Python und erforderlichen Bibliotheken
Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Sie können es herunterladen HIER. Führen Sie nach der Installation den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren:
1 | pip installieren crawlbase beautifulsoup4 |
- Crawlbase: Zur Interaktion mit der Crawlbase Crawling API um dynamische Inhalte zu verarbeiten.
- BeautifulSuppe: Zum Parsen und Extrahieren von Daten aus HTML.
Diese Tools sind für das effiziente Scraping der Tokopedia-Daten unerlässlich.
Auswählen einer IDE
Wählen Sie eine IDE für eine nahtlose Entwicklung:
- Visual Studio Code: Leicht und häufig verwendet.
- PyCharm: Eine voll funktionsfähige IDE mit leistungsstarken Python-Funktionen.
- Jupyter Notizbuch: Ideal für interaktives Codieren und Testen.
Sobald Ihre Umgebung eingerichtet ist, können Sie mit dem Scraping von Tokopedia beginnen. Als Nächstes zeigen wir Ihnen, wie Sie den Tokopedia SERP Scraper erstellen.
Scraping von Tokopedia-Sucheinträgen
Jetzt, da Ihre Python-Umgebung bereit ist, können wir mit dem Scraping der Tokopedia-Suchlisten beginnen. In diesem Abschnitt führen wir Sie durch die Überprüfung des HTML, das Schreiben des Scrapers, die Handhabung der Paginierung und das Speichern der Daten in einer JSON-Datei.
Überprüfen der HTML-Struktur
Zuerst müssen Sie das HTML der Tokopedia-Suchergebnisseite überprüfen, von der Sie Produktlisten extrahieren möchten. In diesem Beispiel extrahieren wir Headset-Listen von der folgenden URL:
1 | https://www.tokopedia.com/search?q=headset |
Öffnen Sie die Entwicklertools in Ihrem Browser und navigieren Sie zu dieser URL.
Hier sind einige wichtige Auswahlkriterien, auf die Sie sich konzentrieren sollten:
- Produkttitel: Gefunden in einem
<span>
Tag mit KlasseOWkG6oHwAppMn1hIBsC3pQ==
welches den Namen des Produkts enthält. - Preis: In einem
<div>
Tag mit KlasseELhJqP-Bfiud3i5eBR8NWg==
das den Produktpreis anzeigt. - Name deines Geschäfts: Gefunden in einem
<span>
Tag mit KlasseX6c-fdwuofj6zGvLKVUaNQ==
. - Produktlink: Link zur Produktseite gefunden in einem
<a>
Tag mit KlasseNq8NlC5Hk9KgVBJzMYBUsg==
, erreichbar über diehref
Attribut.
Schreiben des Suchlisten-Scrapers
Wir schreiben eine Funktion, die eine Anfrage an die Crawlbase stellt Crawling API, ruft das HTML ab und analysiert die Daten dann mit BeautifulSoup.
Hier ist der Code zum Scrapen der Suchlisten:
1 | für Crawlbase importieren CrawlingAPI |
Diese Funktion holt zuerst das HTML mithilfe der Crawlbase Crawling API und analysiert dann die Daten mit BeautifulSoup, um die Produktinformationen zu extrahieren.
Umgang mit Paginierung in Tokopedia
Die Suchergebnisse von Tokopedia sind auf mehrere Seiten verteilt. Um alle Einträge zu erfassen, müssen wir die Seitennummerierung vornehmen. Jede weitere page
kann durch Anhängen eines Seitenparameters an die URL aufgerufen werden, wie etwa ?page=2
.
So handhaben Sie die Seitennummerierung:
1 | # Funktion zum Scrapen mehrerer Seiten von Suchlisten |
Diese Funktion durchläuft die Suchergebnisseiten, extrahiert die Produktlisten von jeder Seite und fasst die Ergebnisse zusammen.
Speichern von Daten in einer JSON-Datei
Nachdem Sie die Daten extrahiert haben, können Sie sie in einer JSON-Datei speichern, um einfach darauf zugreifen und sie später verwenden zu können. So können Sie das tun:
1 | # Funktion zum Speichern von Daten in einer JSON-Datei |
Vollständiges Codebeispiel
Unten finden Sie den vollständigen Code zum Scrapen der Tokopedia-Suchlisten nach Headsets, einschließlich Paginierung und Speichern der Daten in einer JSON-Datei:
1 | für Crawlbase importieren CrawlingAPI |
Beispielausgabe:
1 | [ |
Im nächsten Abschnitt behandeln wir das Scraping einzelner Produktseiten auf Tokopedia, um detaillierte Informationen zu erhalten.
Scraping Tokopedia-Produktseiten
Nachdem wir nun die Suchlisten ausgelesen haben, können wir mit dem Auslesen der Produktdetails von einzelnen Produktseiten fortfahren. In diesem Abschnitt werden wir Produktname, Preis, Shopname, Beschreibung und Bild-URL von einer Tokopedia-Produktseite auslesen.
Untersuchen des HTML auf CSS-Selektoren
Bevor wir den Scraper schreiben, müssen wir die HTML-Struktur der Produktseite überprüfen, um die richtigen CSS-Selektoren für die Daten zu finden, die wir scrapen möchten. Für dieses Beispiel scrapen wir die Produktseite von der folgenden URL:
1 | https://www.tokopedia.com/thebigboss/headset-bluetooth-tws-earphone-bluetooth-stereo-bass-tbb250-beige-8d839 |
Öffnen Sie die Entwicklertools in Ihrem Browser und navigieren Sie zu dieser URL.
Darauf müssen wir uns konzentrieren:
- Produkt Name: Gefunden in einem
<h1>
Tag mit dem Attributdata-testid="lblPDPDetailProductName"
. - Preis: Der Preis befindet sich in einem
<div>
Tag mit dem Attributdata-testid="lblPDPDetailProductPrice"
. - Name deines Geschäfts: Der Name des Geschäfts befindet sich in einem
<a>
Tag mit dem Attributdata-testid="llbPDPFooterShopName"
. - Beschreibung: Befindet sich in einem
<div>
Tag mit dem Attributdata-testid="lblPDPDescriptionProduk"
die detaillierte Informationen zum Produkt enthält. - Bilder-URL: Das Hauptproduktbild befindet sich innerhalb einer
<button>
Tag mit dem Attributdata-testid="PDPImageThumbnail"
und dersrc
Attribut des verschachtelten<img>
Tag (Klassecss-1c345mg
) enthält den Bildlink.
Schreiben des Produktseiten-Scrapers
Nachdem wir die Seite überprüft haben, können wir mit dem Schreiben des Scrapers beginnen. Unten sehen Sie eine Python-Funktion, die die Crawlbase verwendet. Crawling API um den HTML-Code abzurufen und BeautifulSoup
um den Inhalt zu analysieren.
1 | für Crawlbase importieren CrawlingAPI |
Speichern von Daten in einer JSON-Datei
Nach dem Scrapen der Produktdetails empfiehlt es sich, die Daten in einem strukturierten Format wie JSON zu speichern. So schreiben Sie die Scraped-Daten in eine JSON-Datei.
1 | def store_data_in_json(Daten, Dateiname=„tokopedia_product_data.json“): |
Vollständiges Codebeispiel
Hier ist der vollständige Code, der die Produktseite durchsucht und die Daten in einer JSON-Datei speichert.
1 | für Crawlbase importieren CrawlingAPI |
Beispielausgabe:
1 | { |
Dieses vollständige Beispiel zeigt, wie Produktdetails von der Tokopedia-Produktseite extrahiert und in einer JSON-Datei gespeichert werden. Es verarbeitet dynamische Inhalte und eignet sich daher gut zum Scrapen von Daten aus mit JavaScript gerenderten Seiten.
Optimieren Sie das Tokopedia Scraping mit Crawlbase
Das Scraping von Tokopedia kann Ihnen dabei helfen, Produktdaten für Recherchen, Preisvergleiche oder Marktanalysen zu erhalten. Mit Crawlbase Crawling APIkönnen Sie auf dynamischen Websites navigieren und selbst von Seiten mit viel JavaScript schnell Daten extrahieren.
In diesem Blog haben wir erläutert, wie Sie die Umgebung einrichten, CSS-Selektoren aus HTML finden und den Python-Code schreiben, um Produktlisten und Produktseiten aus Tokopedia zu extrahieren. Mit der in diesem Blog verwendeten Methode können Sie problemlos nützliche Informationen wie Produktnamen, Preise, Beschreibungen und Bilder aus Tokopedia sammeln und in einem strukturierten Format wie JSON speichern.
Wenn Sie sich für das Scraping von anderen E-Commerce-Plattformen interessieren, können Sie sich die folgenden umfassenden Anleitungen ansehen.
📜 Wie man Amazon scrapt
📜 Wie man Walmart scrapt
📜 So scrapen Sie AliExpress
📜 Wie man Zalando scrapt
📜 Wie man Costco ausbeutet
Hotline | KolbenKraft Deutschland Support wenn Sie Fragen haben. Viel Spaß beim Scrapen.
Häufig gestellte Fragen
F: Ist es legal, Daten aus Tokopedia zu extrahieren?
Das Scraping von Daten von Tokopedia kann legal sein, solange Sie die Nutzungsbedingungen einhalten und die Daten verantwortungsbewusst verwenden. Lesen Sie immer die Regeln der Website und vermeiden Sie das Scraping sensibler oder persönlicher Daten. Es ist wichtig, die Daten für ethische Zwecke wie Forschung oder Analyse zu verwenden, ohne gegen die Richtlinien von Tokopedia zu verstoßen.
F. Warum sollte ich Crawlbase verwenden? Crawling API zum Scrapen von Tokopedia?
Tokopedia verwendet dynamische Inhalte, die über JavaScript geladen werden, was das Scraping mit herkömmlichen Methoden erschwert. Crawlbase Crawling API erleichtert diesen Vorgang, indem die Website in einem echten Browser gerendert wird. Außerdem wird die IP-Rotation gesteuert, um Blockaden zu verhindern. Dadurch wird Scraping effektiver und zuverlässiger.
F: Welche wichtigen Datenpunkte kann ich aus den Produktseiten von Tokopedia extrahieren?
Beim Scraping von Tokopedia-Produktseiten können Sie mehrere wichtige Datenpunkte extrahieren, darunter Produkttitel, Preis, Beschreibung, Bewertungen und Bild-URLs. Diese Details sind nützlich für Analysen, Preisvergleiche oder den Aufbau einer Produktdatenbank, um Markttrends zu verstehen.