Temu ist eine schnell wachsende E-Commerce-Plattform, die für ihre riesige Produktauswahl zu wettbewerbsfähigen Preisen bekannt ist. Temu bietet alles von Elektronik bis hin zu Mode und Haushaltswaren und ist zu einer beliebten Anlaufstelle für Online-Käufer geworden. Die dynamischen, mit JavaScript gerenderten Seiten machen das Datenscraping mit herkömmlichen Methoden schwierig, aber mit den richtigen Tools ist es dennoch machbar.
In dieser Anleitung zeigen wir Ihnen, wie Sie Daten von Temu scrapen können mit dem Crawlbase Crawling API, entwickelt für die Verarbeitung von CAPTCHAs und JavaScript-gerenderten Seiten. Egal, ob Sie Produktinformationen für Analysen, Preisvergleiche oder Marktforschung sammeln möchten, dieser Blog behandelt alle wichtigen Schritte zur effektiven Datenextraktion. Sie erfahren, wie Sie Ihre Python-Umgebung einrichten, Temu-Scraper erstellen, die Temu-SERP-Paginierung handhaben und Daten für den einfachen Zugriff in einer CSV-Datei speichern.
Am Ende dieses Artikels verfügen Sie über Scraper, mit denen Sie wertvolle Daten aus den Listen und Produktseiten von Temu extrahieren können. Legen wir los!
Inhaltsverzeichnis
- Warum Temu scrapen?
- Wichtige Datenpunkte zum Extrahieren aus Temu
- Crawlbase Crawling API für Temu Scraping
- Crawlbase Python-Bibliothek
- Installieren von Python und erforderlichen Bibliotheken
- Auswahl einer IDE
- Untersuchen des HTML auf CSS-Selektoren
- Schreiben des Suchlisten-Scrapers
- Umgang mit der Seitennummerierung in Temu
- Speichern von Daten in einer CSV-Datei
- Vollständiges Codebeispiel
- Untersuchen des HTML auf CSS-Selektoren
- Schreiben des Produktseiten-Scrapers
- Speichern von Daten in einer CSV-Datei
- Vollständiges Codebeispiel
Warum Temu scrapen?
Das Scraping von Temu ist für Unternehmen, Analysten und Entwickler nützlich. Temu bietet alles von billiger Elektronik bis hin zu Kleidung und Haushaltsgegenständen und ist daher eine großartige Quelle für Marktforschung, Preisverfolgung und Wettbewerbsanalyse. Durch das Extrahieren von Produktdaten wie Preisen, Beschreibungen, Bewertungen und Verfügbarkeit können Unternehmen wettbewerbsfähig bleiben und mit dem Markt Schritt halten.
Beispielsweise kann das Scraping von Temu Online-Händlern und Wiederverkäufern dabei helfen, beliebte Produkte zu finden, Preistrends zu verstehen und die Lagerverfügbarkeit zu überwachen. Für persönliche Projekte oder akademische Zwecke können die Daten von Temu verwendet werden, um Preisvergleichstools zu erstellen, Verbrauchertrends zu untersuchen oder die Produktleistung im Laufe der Zeit zu betrachten.
Temu verwendet CAPTCHA und JavaScript, sodass herkömmliche Scraper die Daten nicht erfassen können. Aber mit dem Crawlbase Crawling API Sie können strukturierte Daten von Temu erhalten.
Wichtige Datenpunkte zum Extrahieren aus Temu
Wenn Sie Temu scrapen, möchten Sie die wichtigsten Produktdetails sammeln, um Ihre Ziele zu unterstützen, sei es für die Marktanalyse, die Produktverfolgung oder den Aufbau einer Datenbank. Hier sind die Datenpunkte, die Sie aus Temu extrahieren können:
- Produktname: Der Name hilft, jedes Produkt und jede Kategorie zu identifizieren.
- Preis: Der Preis ist wichtig für die Trendbeobachtung und den Vergleich ähnlicher Produkte.
- Bewertung und Rezensionen: Bewertungen geben Aufschluss über die Produktqualität und Kundenzufriedenheit, und Ratings geben die allgemeine Kundenmeinung wieder.
- Beschreibung: Beschreibungen geben den Funktionen, dem Material und den Alleinstellungsmerkmalen eines Produkts einen Kontext.
- Bild-URL: Bilder sind für eine visuelle Datenbank wichtig und können auf jeder Site oder App verwendet werden, die Sie erstellen.
- Rabatte und Angebote: Diese können wettbewerbsfähige Preise und Trendprodukte anzeigen.
Crawlbase Crawling API für Temu Scraping
Die Crawlbase Crawling API macht das Scraping von Temu effizient und unkompliziert, insbesondere weil Temu für einen Großteil seines Inhalts auf JavaScript angewiesen ist, was herkömmliche Scraping-Methoden erschwert. Crawlbase löst dieses Problem, indem es Webseiten wie einen echten Browser darstellt und Ihnen Zugriff auf vollständig geladenes HTML ermöglicht.
Darum Crawlbase Crawling API ist ideal zum Schaben von Temu:
- Verarbeitet dynamische Inhalte: Crawlbase verwaltet JavaScript-lastige Seiten, sodass alle Produktdaten auf Temu geladen und zum Scraping bereit sind.
- IP-Rotation: Um die Sicherheitsprüfungen von Temu zu umgehen, rotiert Crawlbase die IPs automatisch, wodurch Ratenbegrenzungen verhindert und die Wahrscheinlichkeit einer Blockierung verringert wird.
- Schnell und effizient: Mit Crawlbase können Sie Unmengen an Daten schnell scrapen und so Zeit und Ressourcen sparen.
- Anpassbare Anfragen: Sie können Header, Cookies und andere Anforderungsparameter entsprechend Ihren Scraping-Anforderungen steuern.
Crawlbase Python-Bibliothek
Die Crawlbase Python-Bibliothek vereinfacht Ihr Scraping-Setup noch weiter. Um die Bibliothek nutzen zu können, benötigen Sie einen Zugriffstoken, den Sie erhalten, indem Sie Anmeldung für Crawlbase.
Hier ist eine Beispielfunktion zum Anfordern der Crawlbase Crawling API:
1 | für Crawlbase importieren CrawlingAPI |
Note: Um JavaScript-gerenderte Inhalte wie die von Temu zu scrapen, benötigen Sie ein JavaScript (JS)-Token von Crawlbase. Crawlbase bietet 1,000 kostenlose Anfragen, um Ihnen den Einstieg zu erleichtern, und für die Anmeldung ist keine Kreditkarte erforderlich. Weitere Anleitungen finden Sie auf der offiziellen Crawlbase Crawling API Dokumentation.
Im nächsten Abschnitt gehen wir die Einrichtung Ihrer Python-Umgebung für das Scraping von Temu durch.
Einrichten Ihrer Python-Umgebung
Um mit dem Scraping von Temu zu beginnen, müssen Sie Ihre Python-Umgebung einrichten. Das bedeutet, dass Sie Python und die erforderlichen Bibliotheken installieren und eine integrierte Entwicklungsumgebung (IDE) zum Schreiben Ihres Codes auswählen.
Installieren von Python und erforderlichen Bibliotheken
Stellen Sie zunächst sicher, dass Python auf Ihrem Computer installiert ist. Sie können Python von der offiziellen Website. Befolgen Sie die Installationsanweisungen für Ihr Betriebssystem.
Nachdem Sie Python installiert haben, müssen Sie einige Bibliotheken installieren, die beim Scraping helfen. Die erforderlichen Bibliotheken sind requests
und crawlbase
So installieren Sie sie mit pip:
- Öffnen Sie Ihre Eingabeaufforderung oder Ihr Terminal.
- Geben Sie die folgenden Befehle ein und drücken Sie die Eingabetaste:
1 | Pip Installationsanforderungen |
Mit diesen Befehlen können Sie die benötigten Bibliotheken herunterladen und installieren. Die Bibliothek requests hilft Ihnen beim Erstellen von Webanfragen. Die Bibliothek crawlbase ermöglicht Ihnen die Interaktion mit der Crawlbase Crawling API.
Auswahl einer IDE
Jetzt müssen Sie eine IDE für die Codierung auswählen. Eine IDE ist ein Programm, das Ihnen beim Schreiben, Bearbeiten und Verwalten Ihres Codes hilft. Hier sind einige Optionen:
- PyCharm: Eine vollständige Python-IDE mit Codevervollständigung und Debugging-Tools; eine kostenlose Community Edition ist verfügbar.
- Visual Studio-Code (VS-Code): Ein leichtgewichtiger Editor mit Python-Unterstützung durch Erweiterungen und einer riesigen Benutzerbasis.
- Jupyter Notizbuch: Ideal für Datenanalyse und Tests. Code kann zur einfachen Weitergabe in einem Browser ausgeführt werden.
Jeder hat seine Vorteile, also wählen Sie einen aus, der zu Ihnen passt. Nachdem Ihre Python-Umgebung nun eingerichtet ist, können Sie mit dem Scraping der Suchlisten von Temu beginnen.
Scraping von Temu-Sucheinträgen
Um Temu-Suchergebnisse zu scrapen, müssen Sie die HTML-Struktur der Seite verstehen, ein Skript zum Sammeln von Produktinformationen schreiben, die Seitennummerierung mit der Schaltfläche „Mehr anzeigen“ verwalten und die gescrapten Daten strukturiert speichern. Lassen Sie uns das im Detail erklären.
Untersuchen des HTML auf CSS-Selektoren
Um mit dem Scraping zu beginnen, überprüfen Sie die HTML-Struktur der Temu-Suchergebnisseite. Öffnen Sie die Temu-Site in Ihrem Browser, klicken Sie mit der rechten Maustaste auf eine Produktliste und wählen Sie „Überprüfen“, um den HTML-Code anzuzeigen.
Dies sind die wichtigsten Elemente, die Sie benötigen:
- Produktname: Gefunden in einem
h2
tag mit der klasse_2BvQbnbN
. - Preis: Befindet sich in einem
span
tag mit der klasse_2de9ERAH
. - Bild-URL: Liegt in den
src
Attribut von animg
tag mit der klassegoods-img-external
. - Produkt-URL: Gefunden im href-Attribut eines
a
tag mit der klasse_2Tl9qLr1
.
Durch die Identifizierung dieser Selektoren verfügen Sie über die erforderliche Grundstruktur, um die Details jedes Produkts aus den Suchlisten von Temu zu extrahieren.
Schreiben des Suchlisten-Scrapers
Nachdem wir nun die Selektoren kennen, schreiben wir den Scraper. Wir verwenden Python zusammen mit Crawlbase Crawling API um dynamische Inhalte zu verarbeiten. Hier ist eine Funktion zum Scrapen von Produktinformationen:
1 | für Crawlbase importieren CrawlingAPI |
Diese Funktion ruft das HTML ab, verarbeitet es mit BeautifulSoup und extrahiert Produktdetails basierend auf den Selektoren. Sie gibt eine Liste mit Produktinformationen zurück.
Umgang mit der Seitennummerierung in Temu
Temu verwendet eine Schaltfläche „Mehr anzeigen“, um zusätzliche Einträge zu laden. Wir können Klicks auf diese Schaltfläche mit Crawlbases css_click_selector simulieren, um auf weitere Seiten zuzugreifen:
1 | # Funktion zum Scrapen von Einträgen mit Paginierung |
Dieser Code sammelt Einträge von mehreren Seiten, indem bei jedem Laden eines neuen Ergebnissesstapels auf die Schaltfläche „Mehr anzeigen“ geklickt wird.
Speichern von Daten in einer CSV-Datei
Um die extrahierten Daten in einer CSV-Datei zu speichern, schreiben wir die Informationen zu jedem Produkt in Zeilen und erstellen so ein strukturiertes Dateiformat für eine einfache Analyse.
1 | importieren csv |
Dieser Code erstellt eine CSV-Datei mit Spalten für jeden Datenpunkt, wodurch die Offline-Analyse von Temu-Einträgen vereinfacht wird.
Vollständiges Codebeispiel
Hier ist das vollständige Skript zum Scrapen der Temu-Suchlisten, zur Handhabung der Seitennummerierung und zum Speichern der Daten im CSV-Format:
1 | für Crawlbase importieren CrawlingAPI |
temu_products.csv
Schnappschuss:
Scraping von Temu-Produktseiten
Nachdem wir eine Liste mit Produkt-URLs aus Temus Suchlisten gesammelt haben, besteht der nächste Schritt darin, Details von jeder Produktseite abzurufen. Dadurch können wir spezifischere Informationen wie detaillierte Beschreibungen, Spezifikationen und Bewertungen sammeln. So geht's.
Untersuchen des HTML auf CSS-Selektoren
Untersuchen Sie zunächst die HTML-Struktur einer Temu-Produktseite. Öffnen Sie eine Produkt-URL in Ihrem Browser, klicken Sie mit der rechten Maustaste auf die Elemente, die Sie extrahieren möchten, und wählen Sie „Untersuchen“.
Zu den wichtigsten Elementen, auf die Sie achten sollten, gehören:
- Produkttitel: Typischerweise zu finden in einem
div
Tag mit einer Klasse wie_2rn4tqXP
. - Preis: Normalerweise innerhalb eines
div
Tag mit einer Klasse wie_1vkz0rqG
, Auswahl der letztenspan
Kind zum tatsächlichen Preis. - Beschreibung: Wird häufig in einem Div-Tag mit einer Klasse wie B_OB3uj0 verwendet und enthält Einzelheiten zum Produkt.
- Bilder-URL: Typischerweise in der
src
Attribut vonimg
Tags innerhalb eines Div mitrole="button"
und eine Klasse wiewxWpAMbp
.
Durch die Identifizierung dieser Selektoren können wir die für jedes Produkt benötigten Daten leichter extrahieren.
Schreiben des Produktseiten-Scrapers
Mit den notierten CSS-Selektoren können wir den Scraper schreiben, um Details von jeder Produktseite zu sammeln. Wir verwenden Python zusammen mit der Crawlbase Crawling API, um dynamische Inhalte zu verarbeiten.
Hier ist eine Beispielfunktion zum Scrapen von Produktinformationen von einer Temu-Produktseite:
1 | für Crawlbase importieren CrawlingAPI |
In dieser Funktion verwenden wir BeautifulSoup, um das HTML zu analysieren und jedes Element mithilfe der identifizierten Selektoren zu lokalisieren. Dadurch wird ein Wörterbuch mit den Produktdetails zurückgegeben.
Speichern von Daten in einer CSV-Datei
Sobald wir Produktinformationen gesammelt haben, können wir sie in einer CSV-Datei speichern. So bleiben unsere Daten organisiert und können später einfach überprüft oder analysiert werden.
1 | importieren csv |
Diese Funktion schreibt die Informationen zu jedem Produkt in eine CSV-Datei mit Spalten für jedes Detail.
Vollständiges Codebeispiel
Hier ist das vollständige Skript zum Scrapen mehrerer Produktseiten von Temu unter Verwendung der URLs aus den Suchlisten und zum Speichern der Daten in einer CSV-Datei.
1 | für Crawlbase importieren CrawlingAPI |
temu_product_details.csv
Schnappschuss:
Abschließende Überlegungen
Das Scraping von Produktdaten aus Temu hilft bei der Analyse von Markttrends, der Verfolgung von Wettbewerbern und der Untersuchung von Preisänderungen. In diesem Handbuch wurde das Einrichten eines Scrapers für Suchlisten und Produktseiten, die Handhabung der Paginierung und das Speichern von Daten in einer CSV-Datei behandelt.
Verwendung der Crawlbase Crawling API verwaltet JavaScript-lastige Inhalte und vereinfacht so die Datenerfassung. Denken Sie daran, die Servicebedingungen von Temu zu lesen, um Probleme zu vermeiden, da übermäßiges Scraping die Server beeinträchtigen kann.
Testen und aktualisieren Sie Ihren Code regelmäßig, da sich Websitestrukturen ändern können und Anpassungen in CSS-Selektoren oder Logik erforderlich sind. Wenn Sie sich für das Scraping von anderen E-Commerce-Plattformen interessieren, können Sie sich gerne die folgenden umfassenden Anleitungen ansehen.
📜 Wie man Amazon scrapt
📜 Wie man Walmart scrapt
📜 So scrapen Sie AliExpress
📜 Wie man Zalando scrapt
📜 Wie man Costco ausbeutet
Hotline | KolbenKraft Deutschland Support wenn Sie Fragen haben. Viel Spaß beim Scrapen!
Häufig gestellte Fragen
F: Ist das Scraping mit Temu sicher und legal?
Das Scraping von Temu-Daten für persönliche Forschungs-, Analyse- oder Bildungszwecke ist grundsätzlich zulässig, es ist jedoch wichtig, die Nutzungsbedingungen von Temu einzuhalten. Vermeiden Sie umfangreiches Scraping, das die Server beeinträchtigen oder gegen Richtlinien verstoßen könnte. Überprüfen Sie immer die neuesten Bedingungen, um die Einhaltung zu gewährleisten, und berücksichtigen Sie ethische Praktiken beim Daten-Scraping.
F: Wie oft sollte ich meinen Scraping-Code für Temu aktualisieren?
Websites können ihre Struktur ändern, insbesondere die HTML- und CSS-Selektoren, was Ihren Scraper beschädigen kann. Es ist eine gute Idee, Ihren Scraper regelmäßig zu testen – mindestens einmal im Monat oder wenn Sie feststellen, dass Daten nicht richtig erfasst werden. Wenn Ihr Scraper nicht mehr funktioniert, überprüfen Sie die Site auf aktualisierte Selektoren und passen Sie Ihren Code an.
F: Kann ich Temu-Daten in einer Datenbank statt in einer CSV-Datei speichern?
Ja, das Speichern von Scraped-Daten in einer Datenbank (wie MySQL oder MongoDB) ist eine gute Option für größere Projekte. Datenbanken erleichtern das Abfragen und Analysieren von Daten im Laufe der Zeit. Sie können den CSV-Speicherschritt in Ihrem Code durch Datenbankbefehle ersetzen und so ein effizienteres und skalierbareres Setup erhalten.