Sie möchten Zalando scrapen? Dann sind Sie hier richtig. Zalando ist eine der führenden Online-Shopping-Sites für Mode mit einem riesigen Sortiment an Artikeln von Kleidung bis hin zu Accessoires. Vielleicht betreiben Sie Marktforschung oder entwickeln eine Mode-App – in jedem Fall kann es hilfreich sein zu wissen, wie Sie gute Daten direkt von der Site erhalten.
In diesem Blog zeigen wir Ihnen, wie Sie einen zuverlässigen Zalando Scraper erstellen mit Puppenspieler - ein bekanntes Web Scraping Tool. Sie erfahren, wie Sie Produktdetails wie Preise, Größen und Lagerbestände herausziehen. Wir geben Ihnen auch Tipps zum Umgang mit CAPTCHA, IP-Blockierung und zur Skalierung Ihres Scrapers mit Crawlbase Smart Proxy.
Lass uns loslegen!
Inhaltsverzeichnis
- Warum Zalando nach Produktdaten durchsuchen?
- Wichtige Datenpunkte zum Extrahieren von Zalando
- Einrichten Ihrer Node.js-Umgebung
- Node.js installieren
- Erforderliche Bibliotheken installieren
- Auswahl einer IDE
- Überprüfen des HTML auf Selektoren
- Den Zalando Product Listings Scraper schreiben
- Umgang mit Paginierung
- Speichern von Daten in einer JSON-Datei
- Überprüfen des HTML auf Selektoren
- Schreiben des Zalando Product Details Scrapers
- Speichern von Daten in einer JSON-Datei
- Was ist Crawlbase Smart Proxy?
- So verwenden Sie Crawlbase Smart Proxy mit Puppenspieler
- Vorteile der Verwendung von Crawlbase Smart Proxy
Warum Zalando nach Produktdaten durchsuchen?
Das Scraping von Zalando ist eine großartige Möglichkeit, Produktdaten für verschiedene Zwecke zu erhalten. Egal, ob Sie Preise überwachen, die Produktverfügbarkeit verfolgen oder Modetrends analysieren, der Zugriff auf diese Daten verschafft Ihnen einen Vorteil. Zalando ist eine der größten Online-Modeplattformen in Europa mit einer breiten Produktpalette von Schuhen und Kleidung bis hin zu Accessoires.
Durch das Scraping von Zalando können Sie Produktnamen, Preise, Bewertungen und Verfügbarkeit extrahieren. Diese Daten können verwendet werden, um Preise zu vergleichen, datengesteuerte Marketingstrategien zu entwickeln oder sogar einen automatisierten Preistracker zu erstellen. Wenn Sie ein E-Commerce-Geschäft betreiben oder einfach nur die neuesten Modetrends im Auge behalten möchten, hilft Ihnen das Scraping der Produktdaten von Zalando dabei, immer einen Schritt voraus zu sein.
Wenn Sie einen Scraper verwenden, um Daten von Zalando abzurufen, sparen Sie sich die Zeit und Mühe, Produktinformationen manuell zu suchen und zu kopieren. Mit der richtigen Einrichtung können Sie Tausende von Produktdetails in kürzester Zeit und effizient abrufen und so Ihren Datenerfassungsprozess optimieren.
Wichtige Datenpunkte zum Extrahieren von Zalando
Beim Scraping von Zalando können Sie mehrere wichtige Produktinformationen extrahieren. Diese Details sind nützlich, um Trends zu verfolgen, Preise zu verstehen oder Marktverhalten zu analysieren. Im Folgenden finden Sie die wichtigsten Datenpunkte, auf die Sie sich konzentrieren sollten:
- Produktname: Der Produktname hilft Ihnen bei der Identifizierung und Kategorisierung des Verkaufsangebots.
- Produktpreis: Die Kenntnis des Preises einschließlich Rabatte ist für die Beobachtung von Preistrends und den Vergleich mit Wettbewerbern von entscheidender Bedeutung.
- Beschreibung: Hier finden Sie spezifische Informationen zum Produkt, beispielsweise Material, Stil und andere wichtige Merkmale.
- Produktrezensionen: Bewertungen liefern Informationen zur Produktqualität und -popularität und sind nützlich für die Stimmungsanalyse.
- Produktverfügbarkeit: Wenn Sie prüfen, ob ein Produkt auf Lager ist, können Sie die Nachfrage besser einschätzen und sehen, wie schnell sich die Artikel verkaufen.
- Produktbilder: Bilder vermitteln eine klare Vorstellung des Produkts, was für das Verständnis von Modetrends und -stilen wichtig ist.
- Markenname: Die Kenntnis der Marke ermöglicht eine bessere Analyse der Markenleistung und einen Vergleich verschiedener Marken.
Einrichten Ihrer Node.js-Umgebung
Um Zalando effizient zu scrapen, müssen Sie Ihre Node.js-Umgebung konfigurieren. Dieser Prozess umfasst die Installation von Node.js, der erforderlichen Bibliotheken und die Auswahl einer geeigneten integrierten Entwicklungsumgebung (IDE). So gehen Sie Schritt für Schritt vor:
Node.js installieren
- Laden Sie Node.js herunter: Gehen Sie zum Beamten Node.js-Website um die neueste Version für Ihr Betriebssystem zu erhalten. Node.js wird mit npm (Node Package Manager) geliefert, mit dem Sie andere Bibliotheken installieren können.
- Installieren Sie Node.js: Folgen Sie den Installationsanweisungen für Ihr Betriebssystem. Sie können überprüfen, ob es installiert ist, indem Sie Ihr Terminal oder Ihre Eingabeaufforderung öffnen und Folgendes eingeben:
1 | Knoten -v |
Dieser Befehl sollte die installierte Version von Node.js anzeigen.
Erforderliche Bibliotheken installieren
- Einen neuen Projektordner erstellen: Erstellen Sie einen Ordner für Ihr Scraping-Projekt. Öffnen Sie das Terminal in diesem Ordner.
- Npm initialisieren: Führen Sie in Ihrem Projektordner Folgendes aus:
1 | npm init -y |
Dieser Befehl erstellt eine package.json
Datei, die die Abhängigkeiten Ihres Projekts verfolgt.
- Erforderliche Bibliotheken installieren: Sie benötigen einige Bibliotheken, um das Scraping zu vereinfachen. Installieren Sie Puppeteer und alle anderen Bibliotheken, die Sie möglicherweise benötigen:
1 | npm installiert Puppeteer Axios |
- Erstellen der Hauptdatei: Erstellen Sie in Ihrem Projektordner eine Datei mit dem Namen
scraper.js
. Diese Datei enthält Ihren Scraping-Code.
Auswahl einer IDE
Die Auswahl einer IDE kann das Codieren erleichtern. Einige der beliebtesten IDEs sind:
- Visual Studio Code: Beliebter Editor mit vielen Erweiterungen für die Arbeit mit JavaScript.
- Websturm: Eine leistungsstarke IDE, die speziell für JavaScript und Webentwicklung entwickelt wurde, aber nicht kostenlos ist.
- Atom: Ein hackbarer Texteditor, der anpassbar und benutzerfreundlich ist.
Nachdem Sie nun Ihre Umgebung eingerichtet haben und scraper.js
erstellt. Beginnen wir mit dem Scraping der Zalando-Produktlisten.
Scraping von Zalando-Produktlisten
Nachdem wir die Umgebung eingerichtet haben, können wir mit der Erstellung des Scrapers für Zalando-Produktlisten beginnen. Wir werden den Abschnitt Handtaschen von dieser URL scrapen:
https://en.zalando.de/catalogue/?q=handbags
Wir extrahieren die Produktseiten-URL, den Titel, den Shopnamen, den Preis und die Bild-URL aus jedem Eintrag. Wir kümmern uns auch um die Seitennummerierung, um mehrere Seiten abzudecken.
Überprüfen des HTML auf Selektoren
Zuerst müssen wir das HTML der Produktlistenseite überprüfen, um die richtigen Auswahlmöglichkeiten zu finden. Öffnen Sie die Entwicklertools in Ihrem Browser und navigieren Sie zu den Handtaschenlisten.
Normalerweise suchen Sie nach Elementen wie:
- Produktseite URL: Dies ist der Link zur einzelnen Produktseite.
- Produkttitel: Normalerweise in einem
<h3>
Tag innerhalb eines<div>
Element. - Markenname: Dies finden Sie in einem
<h3>
Tag innerhalb eines<div>
Element. - Preis: Gefunden in einem
<span>
Etikett mit einer Preisklasse. - Bild-URL: Enthalten in der
<img>
Tag innerhalb jeder Produktkarte.
Den Zalando Product Listings Scraper schreiben
Jetzt, da Sie die Selektoren haben, können Sie einen Scraper schreiben, um Produktlisten zu sammeln. Hier ist ein Beispiel-Codeausschnitt mit Puppeteer:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Code Erklärung:
scrapeProductListings
Funktion: Diese Funktion navigiert mit unbegrenztem Zeitlimit zur Zalando-Produktseite und extrahiert den Produkttitel, den Preis, die URL und die Bild-URL.- Datensammlung: Die Funktion gibt ein Array von Produktobjekten zurück, die die extrahierten Informationen enthalten.
Beispielausgabe:
1 | Produkt Inserate: [ |
Umgang mit Paginierung
Um mehr Einträge zu sammeln, müssen Sie die Paginierung handhaben. Zalando verwendet die &p=
Parameter in der URL, um zwischen Seiten zu navigieren. So ändern Sie Ihren Scraper, um mehrere Seiten zu verarbeiten:
1 | async Funktion AlleProduktlisten abkratzen(Seite, Gesamtseiten) { |
Code Erklärung:
scrapeAllProductListings
Funktion: Diese Funktion durchläuft die angegebene Anzahl von Seiten, erstellt die URL für jede Seite und ruft diescrapeProductListings
Funktion zum Sammeln von Daten von jeder Seite.- Handhabung der Paginierung: Produkte von allen Seiten werden in einem einzigen Array zusammengefasst.
Speichern von Daten in einer JSON-Datei
Schließlich ist es sinnvoll, die Scraped-Daten zur späteren Analyse in einer JSON-Datei zu speichern. So geht's:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Code Erklärung:
saveDataToJson
Funktion: Diese Funktion speichert die gescrapten Produktlisten in einer JSON-Datei (zalando_product_listings.json
), damit Sie problemlos auf die Daten zugreifen können
Als Nächstes besprechen wir, wie man Produktdaten von einzelnen Produktseiten extrahiert.
Scraping Zalando Produktdetails
Nachdem Sie die Angebote gescrapt haben, besteht der nächste Schritt darin, Daten von einzelnen Produktseiten zu sammeln. Auf diese Weise erhalten Sie spezifischere Daten wie Produktbeschreibungen, Materialdetails und Kundenbewertungen, die auf den Angebotsseiten nicht verfügbar sind.
Um die Produktdetails zu scrapen, untersuchen wir zunächst die Struktur der Produktseite und identifizieren die relevanten HTML-Elemente, die die benötigten Daten enthalten.
Überprüfen des HTML auf Selektoren
Besuchen Sie eine beliebige einzelne Produktseite von Zalando und verwenden Sie die Entwicklertools Ihres Browsers, um die HTML-Struktur zu überprüfen.
Normalerweise müssen Sie Elemente wie die folgenden finden:
- Produkttitel: Normalerweise innerhalb eines
<span>
Tag mit Klassen wieEKabf7 R_QwOV
. - Markenname: Normalerweise innerhalb eines
<span>
Tag mit Klassen wiez2N-Fg yOtBvf
. - Produktdetails: Befindet sich in einem
<div>
.data-testid="pdp-accordion-details"
. - Preis: In einem
<span>
Tag mit Klassen wiedgII7d Km7l2y
. - Verfügbare Größen: Oft aufgeführt in
<div>
.data-testid="pdp-accordion-size_fit"
. - Bild-URLs: Enthalten in der
<img>
Tag innerhalb eines<ul>
mit Klassen wieXLgdq7 _0xLoFW
.
Schreiben des Zalando Product Details Scrapers
Sobald Sie die richtigen Selektoren haben, können Sie einen Scraper schreiben, um Produktdetails wie Titel, Beschreibung, Preis, verfügbare Größen und Bild-URLs zu erfassen.
Hier ist ein Beispielcode zum Scrapen von Zalando-Produktdetails mit Puppeteer:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Code-Erklärung:
scrapeProductDetails
Funktion: Diese Funktion navigiert zur Produkt-URL, wartet, bis der Inhalt geladen ist, und kratzt den Produkttitel, die Beschreibung, den Preis, die verfügbaren Größen und die Bild-URLs. Um auf den relevanten Inhalt zuzugreifen, wartet die Funktion zunächst, bis die Schaltflächen „Details“ und „Größen“ sichtbar werden.await page.waitForSelector()
, und klickt sie dann mitawait page.click()
. Dadurch werden die jeweiligen Abschnitte erweitert, sodass deren Inhalt extrahiert werden kann.- Produkt-URLs-Array: Dieses Array enthält die Produktseiten-URLs, die Sie scrapen möchten.
Beispielausgabe:
1 | Produkt Details abgekratzt erfolgreich: [ |
Speichern von Daten in einer JSON-Datei
Nach dem Scrapen der Produktdetails empfiehlt es sich, die Daten in einer JSON-Datei zu speichern. So können Sie später leichter darauf zugreifen und sie analysieren. So speichern Sie die Scraped-Produktdetails in einer JSON-Datei.
1 | const fs = erfordern('fs'); |
Code Erklärung:
saveDataToJson
Funktion: Diese Funktion schreibt die extrahierten Produktdetails in eine JSON-Datei (zalando_product_details.json
), formatiert für einfaches Lesen.- Datenspeicher: Nach dem Scraping der Details werden die Daten an die Funktion übergeben, um in einem strukturierten Format gespeichert zu werden.
Im nächsten Abschnitt sehen wir uns an, wie Sie Ihren Scraper mit Crawlbase optimieren können. Smart Proxy um ein Blockieren beim Schaben zu vermeiden.
Optimieren mit Crawlbase Smart Proxy
Beim Scraping bei Zalando kann es passieren, dass Sie blockiert oder gedrosselt werden. Um dies zu vermeiden, verwenden Sie einen Proxy-Dienst. Crawlbase Smart Proxy hilft Ihnen, sicher und schnell zu scrapen. So integrieren Sie es in Ihren Zalando-Scraper.
So verwenden Sie Crawlbase Smart Proxy mit Puppenspieler
Integration von Crawlbase Smart Proxy in Ihr Puppeteer-Skript ist unkompliziert. Sie benötigen Ihren Crawlbase-API-Schlüssel, um loszulegen.
So richten Sie es ein:
- Melden Sie sich bei Crawlbase an: Gehen Sie zur Crawlbase-Website und Konto erstellen. Nach der Anmeldung erhalten Sie ein API-Token.
- Aktualisieren Sie Ihr Puppeteer-Skript: Ändern Sie Ihren vorhandenen Scraper, um den Crawlbase-Proxy zu verwenden.
Hier ist eine aktualisierte Version Ihres Zalando-Produkt-Scrapers mit Crawlbase Smart Proxy:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Code Erklärung:
- Proxy-Setup: Ersetzen
_USER_TOKEN_
mit Ihrem tatsächlichen Crawlbase-Token. Dadurch wird Puppeteer angewiesen, den Crawlbase-Proxy für alle Anfragen zu verwenden. - Browser-Startoptionen: Das
args
Parameter in derpuppeteer.launch()
Methode gibt den zu verwendenden Proxyserver an. Auf diese Weise werden alle Ihre Anfragen über den Crawlbase-Proxy geleitet.
Optimieren Sie Ihren Zalando Scraper mit Crawlbase
Das Scraping von Zalando kann nützliche Informationen für Ihre Projekte liefern. In diesem Blog haben wir Ihnen gezeigt, wie Sie Ihre Node.js-Umgebung einrichten und Produktlisten und -details scrapen. Überprüfen Sie immer die Scraping-Regeln von Zalando, um innerhalb ihrer Grenzen zu bleiben.
Puppeteer mit Crawlbase verwenden Smart Proxy macht Ihr Scraping schneller und robuster. Das Speichern Ihrer Daten in JSON erleichtert die Verwaltung und Analyse. Denken Sie daran, dass sich Website-Layouts ändern können. Halten Sie Ihre Scraper daher auf dem neuesten Stand.
Wenn Sie sich für das Scraping von anderen E-Commerce-Plattformen interessieren, können Sie sich die folgenden umfassenden Anleitungen ansehen.
📜 Wie man Amazon scrapt
📜 Wie man Walmart scrapt
📜 So scrapen Sie AliExpress
📜 Wie man Flipkart scrapt
📜 Wie man Etsy scrapt
Bei Fragen oder Anregungen steht Ihnen unser Support-Team steht Ihnen jederzeit zur Verfügung, um Sie bei Ihrem Web Scraping-Vorhaben zu unterstützen. Viel Glück bei Ihrem Scraping-Vorhaben!
Häufig gestellte Fragen
F: Ist das Scraping von Zalando legal?
Das Scraping von Daten von Zalando kann rechtliche Folgen haben. Lesen Sie unbedingt die Nutzungsbedingungen der Website, um zu erfahren, was dort zum Thema Datenscraping steht. Einige Websites erlauben das Scraping ausdrücklich nicht, während andere es unter bestimmten Bedingungen erlauben. Indem Sie die Regeln der Website befolgen, können Sie rechtliche Probleme vermeiden und ethisch handeln.
F: Welche Tools benötige ich zum Scrapen bei Zalando?
Um Zalando zu scrapen, benötigen Sie spezielle Tools, da die Website JavaScript-Rendering verwendet. Installieren Sie zunächst Node.js, mit dem Sie JavaScript-Code außerhalb eines Browsers ausführen können. Verwenden Sie dann Puppeteer, eine leistungsstarke Bibliothek, die einen Headless-Chrome-Browser steuert, sodass Sie mit JavaScript-gerenderten Inhalten interagieren können. Erwägen Sie auch die Verwendung Crawlbase Crawling API, das bei der IP-Rotation und dem Umgehen von Sperren helfen kann. Zusammen helfen Ihnen diese Tools, Daten aus den dynamischen Seiten von Zalando zu extrahieren.
F. Warum Crawlbase verwenden? Smart Proxy beim Scrapen von Zalando?
Crawlbase verwenden Smart Proxy Für Zalando ist Scraping aus mehreren Gründen gut. Es verhindert, dass Sie von der Website blockiert werden, und es rotiert IP-Adressen, um das normale Benutzerverhalten nachzuahmen. So wird Ihr Scraping effektiver und Sie können kontinuierlich und ohne Unterbrechungen Daten sammeln. Crawlbase Smart Proxy wird auch Ihr Scraping beschleunigen, sodass Sie Daten schneller und effizienter erfassen können.