In der schnelllebigen Welt des E-Commerce, in der Daten der Schlüssel zum Erfolg sind, stehen Entwickler im Mittelpunkt der Innovation. Heute beginnen wir unser Abenteuer damit, herauszufinden, wie man wertvolle Informationen von einem der größten Einzelhändler erhält: Walmart.

Mit einem riesigen und vielfältigen Produktangebot und seiner starken Onlinepräsenz ist Walmart zu einer Fundgrube an Informationen für Datenanalysten und Entwickler geworden. Allerdings kann es eine Herausforderung sein, sich in den komplexen Zusammenhängen zwischen Datenerfassung, -analyse und ethischen Überlegungen zurechtzufinden. In diesem Artikel bieten wir Ihnen einen umfassenden Leitfaden, um die Kunst des Web Scraping für die Produktanalyse zu meistern und dabei die Grenzen von Recht und Ethik einzuhalten.

Egal, ob Sie Datenwissenschaftler, Geschäftsinhaber auf der Suche nach umsetzbaren Erkenntnissen oder einfach nur ein neugieriger Entwickler sind, dieser Artikel dient Ihnen als Einstieg zum Verständnis des transformativen Potenzials von Web Scraping. Wir werden uns nicht nur mit den wesentlichen Tools und Techniken befassen, die zum Crawlen der digitalen Regale von Walmart erforderlich sind, sondern Ihnen auch zeigen, wie Sie wertvolle Daten effektiv scrapen können.

Der Kern unseres Projekts ist Crawlbase, ein unschätzbar wertvolles Web Scraping-Tool, das den Prozess rationalisiert und Ihre Fähigkeit verbessert, wichtige Daten aus Walmarts Online-Domain zu extrahieren. Am Ende dieser Reise verfügen Sie nicht nur über das technische Know-how, um Daten effektiv zu scrapen, sondern auch über ein tiefes Verständnis für die Rolle, die Daten bei der Gestaltung der E-Commerce-Landschaft spielen.

Machen Sie sich also bereit, einzutauchen. Wir stehen kurz vor einer transformativen Reise in die Welt des Web Scraping und der Produktanalyse.

Inhaltsverzeichnis

I. Datenanalyse und ihre Rolle im E-Commerce verstehen

II. Projektumfang und -ablauf

III. Einrichten der Umgebung

IV. Einen Endpunkt erstellen

V. Abrufen von HTML mit Crawling API

VI. Einen benutzerdefinierten Scraper mit Cheerio schreiben

VII. Optimieren Sie den Scraping-Prozess

VIII. Testen des Flusses

IX. Abschluss

X. Häufig gestellte Fragen

I. Datenanalyse und ihre Rolle im E-Commerce verstehen

Bei der Datenanalyse handelt es sich um den Prozess der Überprüfung, Bereinigung und Interpretation von Daten mit dem Ziel, wertvolle Erkenntnisse zu gewinnen, Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Im Kontext des E-Commerce dient die Datenanalyse als Kompass, der Unternehmen durch das sich ständig verändernde Terrain des digitalen Marktplatzes führt.

Warum Datenanalyse wichtig ist

Wachstum Diagramm
  1. Kundenverständnis: E-Commerce-Unternehmen haben mit einem vielfältigen Kundenstamm zu tun. Durch Datenanalyse können sie das Verhalten, die Vorlieben und das Kaufverhalten ihrer Kunden besser verstehen. Durch die Analyse historischer Transaktionsdaten können Unternehmen beispielsweise feststellen, welche Produkte am beliebtesten sind, wer ihre wertvollsten Kunden sind und welche Marketingstrategien am besten ankommen.

  2. Personalisierung: Heutzutage erwarten Verbraucher ein personalisiertes Einkaufserlebnis. Mithilfe von Datenanalysen können maßgeschneiderte Produktempfehlungen, personalisierte Marketingkampagnen und maßgeschneiderte Inhalte erstellt werden, um die Kundenbindung und -treue zu erhöhen.

  3. Preisstrategie: Der digitale Marktplatz ist hart umkämpft und die Preise schwanken häufig. Datenanalysen ermöglichen es E-Commerce-Unternehmen, die Preise der Konkurrenz zu überwachen, ihre eigenen Preisstrategien in Echtzeit anzupassen und Möglichkeiten zu erkennen, wettbewerbsfähige Preise anzubieten, ohne die Rentabilität zu beeinträchtigen.

  4. Bestandsverwaltung: Die Aufrechterhaltung optimaler Lagerbestände ist ein entscheidender Aspekt des E-Commerce-Betriebs. Datenanalysen helfen Unternehmen, Nachfragetrends vorherzusagen und das Risiko einer Über- oder Unterbevorratung von Produkten zu verringern. Dies wiederum verbessert den Cashflow und stellt sicher, dass Kunden auf die Produkte zugreifen können, wenn sie sie benötigen.

  5. Verfolgung von Marktkonkurrenten: Unternehmen können sich ein umfassendes Bild von ihren Konkurrenten machen, einschließlich ihrer Produkte, Preisstrategien, Marketingansätze und ihres Kundenverhaltens. Diese datenorientierte Analyse ermöglicht es Unternehmen, fundierte Entscheidungen zu treffen, Preisstrategien in Echtzeit anzupassen, ihr Produktsortiment zu optimieren, Marketingkampagnen zu verfeinern und proaktiv auf neue Markttrends zu reagieren.

  6. Website-Optimierung: Es ist entscheidend, zu verstehen, wie Kunden auf Ihrer E-Commerce-Website navigieren und mit ihr interagieren. Datenanalysetools können das Nutzerverhalten verfolgen und Bereiche aufdecken, in denen eine Website-Optimierung das Benutzererlebnis verbessern, die Konversionsraten erhöhen und die Absprungraten senken kann.

  7. Marketingeffektivität: E-Commerce-Unternehmen investieren massiv in digitale Marketingkampagnen. Datenanalysen liefern Einblicke in die Leistung dieser Kampagnen und helfen Unternehmen, ihre Marketingbudgets effektiver einzusetzen und den Return on Investment (ROI) für jeden Kanal zu messen.

Zusammenfassend lässt sich sagen, dass die Datenanalyse das Rückgrat eines erfolgreichen E-Commerce-Betriebs ist. Sie ermöglicht es Unternehmen, datengesteuerte Entscheidungen zu treffen, sich an veränderte Marktbedingungen anzupassen und ihren Kunden ein nahtloses und personalisiertes Einkaufserlebnis zu bieten.

In den folgenden Abschnitten dieses Blogs zeigen wir Ihnen, wie Sie Ihren eigenen Web Scraper zum Sammeln von Daten von Plattformen wie Walmart erstellen können. Das Scraping-Material kann für eine effektive Datenanalyse verwendet werden, sodass Ihr Unternehmen im digitalen Zeitalter einen Vorteil hat.

II. Projektumfang und -ablauf

Bevor wir mit unserer Web Scraping-Reise fortfahren, ist es wichtig, den Umfang dieses Projekts zu verstehen. In diesem Leitfaden konzentrieren wir uns auf das Crawlen von Produktdaten von Walmarts Suchmaschinen-Ergebnisseite (SERP) und das Erstellen eines benutzerdefinierten Scrapers, der für E-Commerce-Analysen verwendet werden kann.

Bevor Sie sich in die technischen Aspekte vertiefen, stellen Sie sicher, dass die folgenden Voraussetzungen erfüllt sind:

  1. Grundkenntnisse in JavaScript und Node.js: Vertrautheit mit JavaScript und Node.js ist unerlässlich, da wir diese Technologien für Web Scraping und die Datenverarbeitung verwenden werden.

  2. Aktives Crawlbase-API-Konto: Sie benötigen ein aktives Crawlbase-Konto mit gültigen API-Anmeldeinformationen. Diese Anmeldeinformationen sind für die Interaktion mit dem Web Scraping-Dienst von Crawlbase erforderlich. Melden Sie sich zunächst an bei Crawlbase und erhalten Sie Ihre Zugangsdaten von der Kontodokumentation. Bei der Anmeldung erhalten Sie 1,000 kostenlose Anfragen, die Sie für dieses Projekt verwenden können.

  3. Vertrautheit mit Express.js: Obwohl optional, einige Kenntnisse über Express.js kann nützlich sein, wenn Sie einen Endpunkt zum Empfangen von Scraped-Daten erstellen möchten. Express.js hilft Ihnen dabei, Ihren Server effizient einzurichten.

Nachdem diese Voraussetzungen erfüllt sind, besprechen wir kurz den Projektablauf. Er beginnt mit dem Senden einer GET-Anfrage mit einer Walmart SERP-URL an Ihren Express-Server. Der Server leitet diese URL wiederum an den Crawling API, das die Walmart-SERP-Seite crawlt und den entscheidenden HTML-Inhalt abruft.

Sobald diese Informationen vorliegen, extrahiert Cheerio wichtige Produktinformationen. Diese extrahierten Daten werden dann an die Hauptfunktion zurückgegeben und stehen zur weiteren Verarbeitung bereit. Abschließend werden die extrahierten Daten umgehend an den Benutzer zurückgesendet, wodurch der nahtlose Projektablauf von der Benutzereingabe bis zur Datenübermittlung abgeschlossen ist.

Projektablauf

Jetzt sind Sie gut vorbereitet, um die Schritte in diesem Handbuch zu befolgen. Unser Ziel ist es, Ihnen das Wissen und die Tools zu vermitteln, die Sie für nahtloses Web Scraping und E-Commerce-Analysen benötigen. Lassen Sie uns anfangen!

III. Einrichten der Umgebung

Erstellen Sie zunächst eine Node.js Projekt. Dieses Projekt wird die Grundlage für unsere Web Scraping-Umgebung sein. Falls noch nicht geschehen, stellen Sie sicher, dass Node.js auf Ihrem Entwicklungscomputer installiert ist.

Richten wir nun Ihre Web Scraping-Umgebung ein, indem wir einige wichtige Abhängigkeiten installieren. Diese Tools helfen uns beim Parsen von HTML, beim Einrichten eines Servers zum Empfangen von Scraped-Daten (falls erforderlich) und bei der effizienten Interaktion mit Webinhalten. Hier sind die Abhängigkeiten:

  • Cheerio-Bibliothek: Denken Sie an Tschüs als Ihr zuverlässiger Begleiter zum Parsen von HTML. Es ist eine leistungsstarke Bibliothek, mit der wir Daten nahtlos aus Webseiten extrahieren können.

  • Express (Optional): Wenn Ihr Projekt einen Server zum Empfangen und Verarbeiten von Scraped-Daten über einen Endpunkt erfordert, können Sie Express.js verwenden. Es ist ein vielseitiges Framework zum Einrichten von Webservern.

  • Crawlbase-Bibliothek (optional): Um den Prozess des Abrufens von HTML-Inhalten von Websites zu optimieren, können Sie sich für die Crawlbase-Bibliothek entscheiden. Sie ist speziell für die Interaktion mit der Crawlbase konzipiert Crawling API, wodurch der Datenabruf effizienter wird.

Um diese Abhängigkeiten zu installieren, führen Sie einfach den folgenden Befehl in Ihrem Node.js-Projektverzeichnis aus:

1
npm install express cheerio crawlbase

IV. Einen Endpunkt erstellen

In diesem Schritt richten Sie einen Express.js-Server ein und erstellen eine GET-Route für /scrape. Dieser Endpunkt dient als Einstiegspunkt zum Auslösen des Web-Scraping-Prozesses. Wenn ein Client eine GET-Anfrage an diese Route sendet, startet Ihr Server den Scraping-Vorgang, ruft Daten ab und gibt eine Antwort aus.

Das Erstellen dieses Endpunkts erweist sich als besonders wertvoll, wenn Sie eine API für Benutzer oder andere Systeme anbieten möchten, um in Echtzeit Scraping-Daten anzufordern. Sie erhalten Kontrolle über den Zeitpunkt und die Methodik des Datenabrufs und verbessern so die Vielseitigkeit und Zugänglichkeit Ihrer Web-Scraping-Lösung.

Nachfolgend finden Sie ein Beispiel für die Erstellung einer einfachen Express.js GET-Route für /scrape:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
const ausdrücken = erfordern('äußern');
const app = express();
const Port = Prozess.env.PORT || 3000;

// Definieren Sie eine Route zur Verarbeitung eingehender Scraped-Daten
App.bekommen('/kratzen', (erforderlich, res) => {
// Hier die Scraped-Daten verarbeiten und speichern
const scrapedData = erforderlich.Körper;

// Mit einer Erfolgsmeldung oder einer anderen geeigneten Antwort antworten
res.Status(200).JSON({ Nachricht: „Daten erfolgreich empfangen“ });
});

//Starten Sie den Express-Server
App.hören(Hafen, () => {
trösten.Log(`Server läuft auf Port ${port}`);
});

Speichern Sie diesen Code in Ihrem Node.js-Projekt und führen Sie ihn aus node index.js um den Server zu starten.

Terminal Server

V. Abrufen von HTML mit dem Crawling API

Nachdem Sie nun Ihre API-Anmeldeinformationen haben und Ihr Server mit den erforderlichen Abhängigkeiten eingerichtet ist, fahren wir mit dem nächsten Schritt fort: Verwenden der Crawlbase Crawling API um HTML-Inhalte von der SERP-Seite von Walmart zu erfassen.

So ist es: Die Crawling API ist wie ein Tool, mit dem Sie Websites freundlich um ihre Webseiten bitten können, und das Ihnen diese Seiten in einer einfachen Form, dem sogenannten Raw-HTML, liefert.

In diesem Schritt zeigen wir Ihnen, wie Sie die Crawling API. Es ist, als würden Sie der API sagen: „Hey, kannst du mir die Walmart-Webseite besorgen?“ und sie holt sie für Sie. Wir zeigen Ihnen auch, wie Sie Ihre speziellen API-Anmeldeinformationen verwenden, um dies zu erreichen.

Zu Beginn integrieren wir die Crawlbase-Bibliothek um eine GET-Anfrage an eine angegebene URL zu senden (req.query.url), müssen wir folgende Zeilen in unseren Hauptcode einfügen:

1
2
3
4
5
6
7
8
9
10
11
12
13
const { CrawlingAPI } = erfordern("Crawlbase" - Übersetzung);

const API = neu CrawlingAPI({ Zeichen: "IHR_CRAWLBASE_TOKEN" }); // Ersetzen Sie es durch Ihr normales Anforderungstoken

App.bekommen("/kratzen", (erforderlich, res) => {
Bienen
.bekommen(erforderlichquery.URL)
.dann((Antwort) => {
trösten.Log(Antwort.Körper)
})
.Fang((Fehler) => {
trösten.Log(Fehler, "FEHLER");
Rückkehr res.Status(500).senden({ Status: "Fehlgeschlagen", msg: Fehler });

Anstatt Daten im Anforderungstext zu erwarten, verwendet dieser Code den URL-Parameter, um die zu scrapende Walmart SERP-URL anzugeben (was wir später mit Postman zeigen werden). Anschließend protokolliert er die Antwort vom Crawling API zur Konsole und behandelt Fehler. Im Falle eines Problems antwortet es mit einer Fehlermeldung und dem Statuscode 500.

Hier ist der aktualisierte Codeausschnitt:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
const ausdrücken = erfordern('äußern');
const { CrawlingAPI } = erfordern(„Crawlbase“);

const API = neu CrawlingAPI({ Zeichen: 'IHR_CRAWLBASE_TOKEN' }); // Ersetzen Sie es durch Ihr normales Anforderungstoken
const app = express();
const PORT = Prozess.env.PORT || 3000;

App.bekommen('/kratzen', (erforderlich, res) => {
Bienen
.bekommen(erforderlichquery.URL)
.dann((Antwort) => {
trösten.Log(Antwort.Körper);
})
.Fang((Fehler) => {
trösten.Log(Fehler, 'FEHLER');
Rückkehr res.Status(500).senden({ Status: 'Fehlgeschlagen', msg: Fehler });
});
});

App.hören(PORT, () => trösten.Log(`Server läuft auf Port ${PORT}`));

Führen Sie den Server aus, übergeben Sie den URL-Parameter an die Route und Sie sollten in der Lage sein, die HTML-Antwort wie unten dargestellt:

HTML-Antwort des Terminals

Die HTML-Daten, die Sie von Crawlbase erhalten, sind die Bausteine ​​für unsere nächsten Schritte. Wir werden dieses Roh-HTML verwenden, um die benötigten Daten zu finden und zu sammeln, indem wir Tschüs und einige individuelle Tricks, die wir Ihnen beibringen.

Wenn Sie diesen Teil richtig machen, sind Sie bereit, Webdaten wie ein Profi zu erfassen und können sich dann in den spaßigen Teil stürzen – das Extrahieren und Analysieren der gesammelten Daten.

VI. Einen benutzerdefinierten Scraper mit Cheerio schreiben

In diesem Schritt kommen wir zum Kern des Web Scraping. Wir möchten einige wirklich nützliche Informationen aus einer Walmart Search Engine Results Page (SERP)-URL erhalten, und so werden wir das machen: Tschüs.

Stellen Sie sich vor, Sie bauen Ihr eigenes Tool, um genau das von einer Webseite zu erfassen, was Sie möchten – das ist ein benutzerdefinierter Scraper. Unser Ziel ist es, wichtige Details wie Produktnamen, Preise und Bewertungen aus den Walmart-Suchergebnissen herauszufiltern.

Walmart SERP-Seite

Mit diesem benutzerdefinierten Tool bestimmen Sie, wie Sie Daten erfassen. Wir zeigen Ihnen, wie Sie mit Selektoren die benötigten Informationen auswählen. Es ist, als würden Sie sagen: „Bitte besorge mir die Titel, Preise und Bewertungen“, und genau das wird es tun.

Mit diesem praktischen Ansatz können Sie Ihr Scraping so optimieren, dass es perfekt zur Struktur der Walmart-Webseite passt. So erhalten Sie schnell und präzise die gewünschten Daten.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
const $ = Prost.Belastung(html),
Produktdaten = {
Produkte[],
ProdukteAnzahl: 0,
};

$('div[Rolle="Gruppe"] div[Datentestid="Listenansicht"]').jeder((_, Element) => {
const Titel = $(Element).gefunden(„[data-automation-id="Produkttitel"]“).Text()
Bild = $(Element).gefunden('[data-testid="productTileImage"]').attr('Quelle'),
Preis = $(Element).gefunden(„[data-automation-id="Produktpreis"] .lh-copy span.f2“).Text()
Währung = $(Element).gefunden('[data-automation-id="Produktpreis"] .f6.f5-l:first').Text()
Anzahl der Bewertungen = $(Element).gefunden(„[aria-hidden=true].f7“).Text()
Bewertungsstern = $(Element).gefunden('.flex.items-center.mt2 .w_iUH7').Text()
Liefernachricht = $(Element).gefunden(„[data-automation-id="Erfüllungsabzeichen"]“).Text().trimmen()
ProduktBadge = $(Element).gefunden(„.tag-führendes-Abzeichen“).Text()
Bestandsstatus = $(Element).gefunden(„[data-automation-id="Inventarstatus"]“).Text() || 'Auf Lager',
ist gesponsert = $(Element).gefunden('.lh-Titel > .gray.f7').Text() ? was immer dies auch sein sollte. : falsch;

Produktdaten['Produkte'].drücken({
Titel,
Bild,
Preis,
Währung,
BewertungenAnzahl,
Bewertungsstern,
Liefernachricht,
Produktabzeichen,
Bestandsstatus,
istgesponsert,
});
});

Im Wesentlichen durchläuft dieser Code den gesamten HTML-Inhalt, der von der angegebenen Walmart-URL abgerufen wurde. Er navigiert durch die verschiedenen Klassenelemente innerhalb der Seitenstruktur, um die relevanten Daten zu finden, und platziert jede Information in entsprechenden Variablen wie title, images, price, currencyund vieles mehr.

VII. Optimieren Sie den Scraping-Prozess

In dieser entscheidenden Phase bringen wir alle Elemente zusammen, um einen reibungslosen Web-Scraping-Prozess zu schaffen.

Beginnend mit dem /scrape Endpunkt, der Anfragen auf unserem lokalen Host verwaltet.

Führen Sie dann den Codeausschnitt ein, der die Crawlbase-Bibliothek verwendet und sicherstellt, dass wir die URLs der Walmart-Suchmaschinenergebnisseite (SERP) crawlen können, ohne auf Blockierungen zu stoßen.

Zuletzt integrieren wir unseren benutzerdefinierten Scraper unter Verwendung der Cheerio-Bibliothek, um eine übersichtlich organisierte JSON-Antwort für einfache Lesbarkeit zu erhalten.

Hier ist der vollständige Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
const ausdrücken = erfordern('äußern');
const tschüss = erfordern("Tschüs");
const { CrawlingAPI } = erfordern(„Crawlbase“);

const API = neu CrawlingAPI({
Zeichen: 'IHR_CRAWLBASE_TOKEN',
}); // Ersetzen Sie es durch Ihr Crawlbase-Token
const app = express();
const PORT = Prozess.env.PORT || 3000;

Funktion Produkte aus HTML analysieren(html) {
versuchen {
const $ = Prost.Belastung(html),
Produktdaten = {
Produkte[],
ProdukteAnzahl: 0,
};

$('div[Rolle="Gruppe"] div[Datentestid="Listenansicht"]').jeder((_, Element) => {
const Titel = $(Element).gefunden(„[data-automation-id="Produkttitel"]“).Text()
Bild = $(Element).gefunden('[data-testid="productTileImage"]').attr('Quelle'),
Preis = $(Element).gefunden(„[data-automation-id="Produktpreis"] .lh-copy span.f2“).Text()
Währung = $(Element).gefunden('[data-automation-id="Produktpreis"] .f6.f5-l:first').Text()
Anzahl der Bewertungen = $(Element).gefunden(„[aria-hidden=true].f7“).Text()
Bewertungsstern = $(Element).gefunden('.flex.items-center.mt2 .w_iUH7').Text()
Liefernachricht = $(Element).gefunden(„[data-automation-id="Erfüllungsabzeichen"]“).Text().trimmen()
ProduktBadge = $(Element).gefunden(„.tag-führendes-Abzeichen“).Text()
Bestandsstatus = $(Element).gefunden(„[data-automation-id="Inventarstatus"]“).Text() || 'Auf Lager',
ist gesponsert = $(Element).gefunden('.lh-Titel > .gray.f7').Text() ? was immer dies auch sein sollte. : falsch;

Produktdaten['Produkte'].drücken({
Titel,
Bild,
Preis,
Währung,
BewertungenAnzahl,
Bewertungsstern,
Liefernachricht,
Produktabzeichen,
Bestandsstatus,
istgesponsert,
});
});
Produktdaten['Produktanzahl'] = Produktdaten['Produkte'].Länge;

Rückkehr Produktdaten;
} Fang (Fehler) {
Rückkehr Fehler;
}
}

App.bekommen('/kratzen', (erforderlich, res) => {
Bienen
.bekommen(erforderlichquery.URL)
.dann((Antwort) => {
const analysierteDaten = Produkte aus HTML analysieren(Antwort.Körper);
Rückkehr res.Status(200).JSON(analysierte Daten);
})
.Fang((Fehler) => {
trösten.Log(Fehler, 'FEHLER');
Rückkehr res.Status(500).senden({ Status: 'Fehlgeschlagen', msg: Fehler });
});
});

App.hören(PORT, () => trösten.Log(`Server läuft auf Port ${PORT}`));

Sobald eine URL angegeben ist, wird unser Server aktiv. Dieser automatisierte Prozess stellt sicher, dass Sie in kürzester Zeit auf wertvolle Informationen aus den Suchergebnissen von Walmart zugreifen können, was Ihr Erlebnis effizienter und benutzerfreundlicher macht.

VIII. Testen des Flusses

Um unser Projekt zu testen, empfehlen wir die Verwendung von Postman da es eine benutzerfreundliche grafische Oberfläche für HTTP-Anfragen an APIs bietet.

Sie können eine GET-Anfrage an den lokalen Server, der auf Port 3000 konfiguriert ist, über den Endpunkt /scrape. Fügen Sie einfach ein URL Abfrageparameter mit einer vollständig codierten Ziel-URL.

Um eine URL zu kodieren, können Sie die URL-Zeichenfolge in Postman markieren, auf das Meatballs-Menü klicken und URI-Komponente kodieren.

Postman-URL kodieren

Vollständige Postman-Anfrage:

1
http://localhost:3000/scrape?url=https%3A%2F%2Fwww.walmart.com%2Fsearch%3Fq%3Diphone%2B14%2Bpro
Postman JSON-Antwort

Wenn Sie also diese GET-Anfrage in Postman stellen, wird sie an Ihren lokalen Server gesendet und Ihr Server extrahiert mithilfe der Crawlbase-Bibliothek und Cheerio den HTML-Inhalt von der angegebenen Walmart-URL und gibt die relevanten Daten zurück, wie in der folgenden JSON-Antwort gezeigt:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
{
"Produkte": [
{
„Titel“: „Straight Talk Apple iPhone 14 Pro Max, 128 GB, Silber – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/seo/Straight-Talk-Apple-iPhone-14-Pro-Max-128GB-Silver-Prepaid-Smartphone-Locked-to-Straight-Talk_e0069f3e-9a9e-403e-8f37-18925e30d723.ab4506a1181022de52e7d4db5b973924.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "1,099",
"Währung": "$",
"BewertungenAnzahl": "31",
"Bewertungsstern": „4.4 von 5 Sternen. 31 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": „Beliebte Wahl“,
"Inventarstatus": "Auf Lager",
„ist gesponsert“: was immer dies auch sein sollte.
},
{
„Titel“: „Straight Talk Apple iPhone 14 Pro, 128 GB, Gold – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/seo/Straight-Talk-Apple-iPhone-14-Pro-128GB-Gold-Prepaid-Smartphone-Locked-to-Straight-Talk_6950d257-436c-403c-9545-99ce5d98fcc4.303c44244c472235ed13966ecce40aee.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "999",
"Währung": "$",
"BewertungenAnzahl": "21",
"Bewertungsstern": „3.9 von 5 Sternen. 21 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: was immer dies auch sein sollte.
},
{
„Titel“: „Straight Talk Apple iPhone 14 Pro, 128 GB, Silber – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/seo/Straight-Talk-Apple-iPhone-14-Pro-128GB-Silver-Prepaid-Smartphone-Locked-to-Straight-Talk_b474451b-6a86-4dd5-a91b-9a21d903e43f.c3702fb3b49e335d4d3d2b2709933db3.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "999",
"Währung": "$",
"BewertungenAnzahl": "16",
"Bewertungsstern": „4.7 von 5 Sternen. 16 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: was immer dies auch sein sollte.
},
{
„Titel“: „Straight Talk Apple iPhone 13 Pro Max, 128 GB, Graphit – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/seo/Straight-Talk-Apple-iPhone-13-Pro-Max-128GB-Graphite-Prepaid-Smartphone-Locked-to-Straight-Talk_c0d13cbf-3167-451d-a65b-d8dc08b129b0.0e9b4f09991f15e8abb6517b9dfc701d.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "999",
"Währung": "$",
"BewertungenAnzahl": "45",
"Bewertungsstern": „4.6 von 5 Sternen. 45 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: was immer dies auch sein sollte.
},
{
„Titel“: „Straight Talk Apple iPhone 14 Pro Max, 128 GB, Silber – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/asr/e0069f3e-9a9e-403e-8f37-18925e30d723.ab4506a1181022de52e7d4db5b973924.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "1,099",
"Währung": "$",
"BewertungenAnzahl": "31",
"Bewertungsstern": „4.4 von 5 Sternen. 31 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": „Beliebte Wahl“,
"Inventarstatus": "Auf Lager",
„ist gesponsert“: falsch
},
{
„Titel“: "Restauriertes Apple iPhone 14 Pro Max 128GB Space Black (entsperrt) MQ8N3LL/A Gebraucht Ausgezeichneter Zustand",
"Bild": "https://i5.walmartimages.com/asr/5488f0cd-cc5e-4104-928f-fe44c0cf0a19.5a15307b08a7487f8c91d3ba8aea071e.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "918",
"Währung": "$",
"BewertungenAnzahl": "13",
"Bewertungsstern": „4.7 von 5 Sternen. 13 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: falsch
},
{
„Titel“: „Restauriertes Apple iPhone 14 Pro 128GB Deep Purple (entsperrt) MQ0E3LL/A, gebraucht, ausgezeichneter Zustand“,
"Bild": "https://i5.walmartimages.com/asr/1385d15c-17b0-4392-8fc1-414cae1a51ed.75f6972b7faabe8490df9e82084adf01.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "899",
"Währung": "$",
"BewertungenAnzahl": "5",
"Bewertungsstern": „4.2 von 5 Sternen. 5 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: falsch
},
{
„Titel“: „Straight Talk Apple iPhone 14 Pro, 128 GB, Gold – Prepaid-Smartphone [An Straight Talk gebunden]“,
"Bild": "https://i5.walmartimages.com/asr/6950d257-436c-403c-9545-99ce5d98fcc4.303c44244c472235ed13966ecce40aee.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "999",
"Währung": "$",
"BewertungenAnzahl": "21",
"Bewertungsstern": „3.9 von 5 Sternen. 21 Bewertungen“,
"Liefernachricht": "Kostenloser Versand, Lieferung in 3+ Tagen",
"ProduktBadge": "",
"Inventarstatus": "Auf Lager",
„ist gesponsert“: falsch
},
{
„Titel“: „Gebraucht 2022 Apple – iPhone 14 Pro Max 256 GB – Deep Purple (entsperrt, US-Version) (überholt: gut)“,
"Bild": "https://i5.walmartimages.com/seo/Pre-Owned-2022-Apple-iPhone-14-Pro-Max-256GB-Deep-Purple-Unlocked-US-version-Refurbished-Good_cb8f75e5-1b8e-4c06-9776-0d995a314ada.88ab53492f6fe7e653033585616419b1.jpeg?odnHeight=784&odnWidth=580&odnBg=FFFFFF",
"Preis": "1,239",
"Währung": "$",
"BewertungenAnzahl": "6",
"Bewertungsstern": „4.5 von 5 Sternen. 6 Bewertungen“,
"Liefernachricht": "",
"ProduktBadge": "",
"Inventarstatus": "Nicht auf Lager",
„ist gesponsert“: falsch
}
],
"Produktanzahl": 9
}

Nachdem Sie die Daten nun erfolgreich gescrapt haben, sind die Möglichkeiten endlos. Sie haben die Flexibilität, Ihr Projekt zu skalieren und Tausende von Suchmaschinenergebnisseiten (SERPs) pro Stunde zu scrapen, und Sie können diese wertvollen Daten wahlweise in einer Datenbank oder sicher in der Cloud speichern.

Mit den Ihnen zur Verfügung stehenden Daten können Sie gemeinsam mit den Datenwissenschaftlern Ihres Unternehmens Strategien entwickeln, die das Wachstum und den Erfolg Ihres Unternehmens vorantreiben. Die Leistungsfähigkeit von Web Scraping in Kombination mit Datenanalyse liegt nun in Ihren Händen. Sie und Ihr Team können damit wirkungsvolle Entscheidungen treffen, um in der wettbewerbsintensiven Welt des E-Commerce relevant zu bleiben.

IX. Abschluss

Wir haben eine ziemliche Reise durch die Welt des Web Scraping und seines unglaublichen Potenzials für die E-Commerce-Produktanalyse unternommen. Von der Einrichtung der Grundlagen bis zum kopfüber Eintauchen in die Datenextraktion haben Sie gesehen, wie diese Fähigkeit für Entwickler und Unternehmen gleichermaßen bahnbrechend sein kann.

Verantwortungsbewusstes und ethisches Web Scraping ist Ihr Geheimrezept, um im schnelllebigen E-Commerce-Bereich voranzukommen, am Ball zu bleiben und kluge Entscheidungen zu treffen. Mit Tools wie Crawlbase und dem Know-how, um Cheerio wie ein Profi einzusetzen, sind Sie auf dem besten Weg, Ihre E-Commerce-Strategien zu stärken.

Aber ein guter Rat: Mit viel Macht geht auch viel Verantwortung einher. Halten Sie sich immer an die Regeln, respektieren Sie die Website-Bedingungen und gehen Sie mit Ihren Daten mit der gebotenen Sorgfalt um.

Mit den Fähigkeiten und Werkzeugen aus diesem Handbuch sind Sie bestens gerüstet, um sich im wettbewerbsintensiven E-Commerce-Umfeld zurechtzufinden, datenbasierte Entscheidungen zu treffen und auf dem digitalen Markt erfolgreich zu sein.

Vielen Dank, dass Sie uns auf diesem Abenteuer durch die Welt des Web Scraping für E-Commerce begleiten. Auf Ihren Erfolg und die bahnbrechenden Erkenntnisse, die Sie bald entdecken werden. Viel Spaß beim Scraping!

X. Häufig gestellte Fragen

F: Wie können Unternehmen Datenanalysen aus Web Scraping nutzen, um ihre Preisstrategien im E-Commerce zu verbessern?

Unternehmen können Web Scraping und Datenanalyse nutzen, um ihre E-Commerce-Preisstrategien zu verbessern, indem sie die Preise der Konkurrenz überwachen, dynamische Preise implementieren, Preise auf Basis historischer Daten optimieren, Preiselastizität ermitteln, die Effektivität von Werbeaktionen bewerten, Daten zu abgebrochenen Warenkörben analysieren, die Nachfrage prognostizieren, sich strategisch auf dem Markt positionieren, Kunden segmentieren und A/B-Tests durchführen. Diese datengesteuerten Ansätze ermöglichen es Unternehmen, fundierte Preisentscheidungen zu treffen, wettbewerbsfähig zu bleiben und den Umsatz zu maximieren, während sie ihren Kunden gleichzeitig einen Mehrwert bieten.

F: Was sind die Best Practices für die Datenspeicherung und -verwaltung beim Durchführen von Web Scraping zur E-Commerce-Produktanalyse?

Zu den Best Practices für die Datenspeicherung und -verwaltung beim Web Scraping für die E-Commerce-Produktanalyse gehören die Einhaltung gesetzlicher Vorschriften, strukturierte Datenformate, gründliche Datenbereinigung, Cloud-Speicherung für Skalierbarkeit, regelmäßige Datensicherungen, Verschlüsselung für Sicherheit, Zugriffskontrolle, Versionskontrolle, definierte Richtlinien zur Datenaufbewahrung, Überwachung und Warnungen, respektvolles Scraping zur Vermeidung von IP-Blockierungen, Dokumentation von Scraping-Prozessen, Verständnis des Dateneigentums und regelmäßige Audits. Die Einhaltung dieser Praktiken gewährleistet Datenintegrität, Sicherheit und verantwortungsvolles Scraping.

F: Wenn die Suchergebnisse mehrere Seiten umfassen, wie durchsuche ich mit Crawlbase die nächsten Seiten?

Um mehrere Seiten mit Suchergebnissen in Crawlbase abzurufen, müssen Sie die für Walmart spezifische Paginierungsstruktur verwenden. Walmart strukturiert seine URLs normalerweise mit einem „page“-Parameter, um durch die Suchergebnisseiten zu navigieren. Hier ist ein Beispiel:

Durch Ändern des Parameters „Seite“ in der URL können Sie auf nachfolgende Seiten mit Suchergebnissen zugreifen. Geben Sie beim Konfigurieren Ihrer Crawlbase-Scraping-Aufgabe diese Paginierungslogik an und stellen Sie Selektoren oder Regeln bereit, um Daten von jeder Seite zu sammeln.

F: Besteht das Risiko, dass Ihr Web Scraper beim Scrapen von Walmart auf Blockaden stößt?

Ja, es besteht eine erhebliche Wahrscheinlichkeit, dass Ihr Web Scraper blockiert wird, insbesondere wenn Sie keinen großen Pool an Proxys verwenden. Es ist zwar möglich, einen eigenen Proxy-Pool zu erstellen, dies kann jedoch sowohl zeitaufwändig als auch kostspielig sein. Hier kommt Crawlbase ins Spiel, das auf einer Grundlage von Millionen von Proxys arbeitet und mit einer KI-Logik erweitert wird, die menschliches Verhalten nachahmt, um Bot-Erkennung und CAPTCHAs zu vermeiden. Durch die Verwendung von Crawlbase können Sie Webseiten anonym scrapen, wodurch Bedenken hinsichtlich IP-Blockierungen und Proxy-bezogenen Herausforderungen beseitigt werden und gleichzeitig wertvolle Zeit und Ressourcen gespart werden.