Wenn Sie mit der manuellen Preisdatenextraktion überfordert sind und lernen möchten, wie Sie mithilfe von KI Preise von Amazon extrahieren, sind Sie hier richtig. Beim Lesen dieses Blogs konzentrieren wir uns auf automatisierte Scraping-Techniken, insbesondere solche mit automatisiertem XPath-Abruf. Wir führen Sie durch die Einrichtung Ihres Scraping-Setups, die Verwendung von KI, um genau die Daten zu erhalten, die Sie benötigen, und die Beherrschung der Kunst des automatisierten Datenabrufs mit XPath. Egal, ob Sie ein kleiner Online-Shop oder ein großer E-Commerce-Riese sind, diese Techniken werden Ihre Superkräfte in der digitalen Welt sein.

Inhaltsverzeichnis

  1. Bedeutung des automatisierten Scrapings
  • Warum automatisiertes Scraping im E-Commerce wichtig ist
  • Die Vorteile von KI-gestütztem Price Scraping auf Amazon
  1. Erforderliche APIs erkunden
  • Crawlbase Crawling API
  • OpenAI GPT-API
  1. Die Suchseitenstruktur von Amazon verstehen
  • Aufschlüsselung einer Amazon-Suchseite
  • Identifizieren der benötigten Daten
  1. Vorbereitungen
  • Installieren von Python und wichtigen Bibliotheken
  • Erstellen einer virtuellen Umgebung
  • Token für Crawlbase und OpenAI erwerben
  1. Automatisierung des Amazon Price Scraping
  • Abrufen des HTML-Codes der Amazon-Suchseite
  • Verwenden von OpenAI zum Extrahieren von Preis-XPath
  • Scraping der Amazon-Produktpreise
  1. Zusammenfassung
  2. Häufig gestellte Fragen

Bedeutung des automatisierten Scrapings

Um Scraping durchführen zu können, müssen Sie den CSS-Selektor oder den XPath-Selektor für die Elemente. Wenn Sie also Tausende von Websites scrapen, müssen Sie den Selektor für jede einzelne von ihnen manuell herausfinden. Und wenn sich die Seite ändert, müssen Sie das auch ändern. Hier kommt das automatisierte Web Scraping ins Spiel und bietet einen entscheidenden Vorteil für diejenigen, die seine Fähigkeiten effektiv nutzen.

Warum automatisiertes Scraping im E-Commerce wichtig ist

Automatisiertes Scraping ist wie eine Superkraft in der Welt der Online-Unternehmen, insbesondere im E-Commerce. Es hilft Unternehmen, Daten schnell und genau zu erfassen, was für den Erfolg entscheidend ist. Deshalb ist es so wichtig:

Automatisiertes Scraping im E-Commerce
  • Schnelle Datenerfassung: Durch automatisiertes Scraping können Unternehmen wichtige Daten wie Produktpreise, Lagerverfügbarkeit und Aktivitäten der Konkurrenz erfassen. Diese Geschwindigkeit ist wie eine Geheimwaffe, mit der Unternehmen schnelle, intelligente Entscheidungen treffen können, die ihnen einen Vorsprung vor der Konkurrenz verschaffen.
  • Die Konkurrenz immer im Blick: Im E-Commerce ändern sich die Dinge schnell. Es ist wichtig, genau zu beobachten, was Ihre Konkurrenten mit ihren Preisen und Produkten machen. Automatisiertes Scraping ist wie ein Roboterassistent, der Ihre Konkurrenz rund um die Uhr beobachtet, sodass Sie immer über die Situation informiert sind.
  • Datengestützte Produktinformationen: Sie möchten wissen, welche Produkte im Trend liegen, was Kunden mögen und was der Markt verlangt? Automatisiertes Scraping kann Ihnen dabei helfen, tief in diese Informationen einzutauchen und Ihnen Superkräfte für die Produktentwicklung und gezielte Vermarktung zu verleihen.
  • Anpassungsfähigkeit an Layoutänderungen: Websites aktualisieren manchmal ihr Aussehen und ihre Struktur. Automatisiertes Scraping kann diese Änderungen mithilfe von CSS-Selektoren verarbeiten und so sicherstellen, dass Sie weiterhin ohne Unterbrechungen Daten sammeln können.
  • Tolle Einkaufserlebnisse: Käufer schätzen aktuelle und genaue Informationen, wenn sie einen Online-Shop besuchen. Automatisiertes Scraping stellt sicher, dass Ihre Produktdaten immer aktuell und vertrauenswürdig sind, was Ihre Kunden zufriedenstellt.

Die Vorteile von KI-gestütztem Price Scraping auf Amazon

Lassen Sie uns nun über die Verwendung von KI-gesteuertem Scraping bei Amazon sprechen, insbesondere in Kombination mit automatisiertem XPath-Abruf. Es ist, als würden Sie Ihre Superkräfte verbessern:

  • Umgang mit großen Datenmengen: KI-gesteuertes Scraping und automatisierter XPath-Abruf eignen sich hervorragend für den Umgang mit riesigen Datenmengen. Egal, ob Sie viele Produkte zu verfolgen haben, Millionen von Kundenrezensionen oder viele Konkurrenten im Auge behalten müssen, diese Technologie kann die Last bewältigen.
  • Präzision und Vertrauenswürdigkeit: KI-Modelle, wie die von OpenAI GPT, sind wie erfahrene Datendetektive. Sie finden mit unglaublicher Genauigkeit genau das, was Sie brauchen, sodass Sie den Informationen, die Sie erhalten, immer vertrauen können.
  • Zeit und Ressourcen sparen: Automatisiertes Scraping bedeutet, dass Sie nicht alles manuell erledigen müssen. Es ist, als hätten Sie einen Helfer, der rund um die Uhr arbeitet und Ihnen Zeit und Ressourcen spart. Diese zusätzliche Zeit können Sie für wichtige Entscheidungen nutzen.
  • Anpassung an Veränderungen: Websites wie Amazon können ihr Layout oder ihre Struktur ändern. KI-Modelle können sich anpassen, sodass Sie Ihre Superkraft auch bei Website-Updates nicht verlieren.

Lassen Sie uns die praktischen Tools und Methoden erkunden, die Ihrem Unternehmen im Online-Einzelhandel die Oberhand verschaffen.

Erforderliche APIs erkunden

Bevor Sie sich mit den technischen Feinheiten des automatisierten Scrapings befassen, müssen Sie sich mit den grundlegenden APIs vertraut machen, die Ihrem Scraping-Projekt zugrunde liegen. In diesem Abschnitt werden die wesentlichen APIs erläutert, die für das automatisierte Web Scraping von zentraler Bedeutung sind: die Crawlbase Crawling API und der OpenAI GPT-API.

Crawlbase Crawling API

Die Crawlbase Crawling API ist eine wichtige Grundlage für die Extraktion von Webdaten. Es bietet die Möglichkeit, HTML-Inhalte von Webseiten abzurufen, was ein unverzichtbares Werkzeug für automatisiertes Scraping ist. Hier ist ein technischer Überblick über die Crawlbase Crawling API:

  • Webdatenextraktion: Crawlbase wurde entwickelt, um das Extrahieren von HTML-Inhalten aus Webseiten zu erleichtern. Es berücksichtigt die komplexen Strukturen von Webseiten und stellt sicher, dass Sie auf die genauen Daten zugreifen können, die Sie für Ihre Scraping-Aufgaben benötigen, wie z. B. Preisextraktion und Inhaltsanalyse.
  • IP-Rotation: Crawlbase beinhaltet eine wesentliche Funktion von IP-Rotation. Diese Funktion bietet verbesserte Anonymität, Skalierbarkeit und Zuverlässigkeit, indem während Scraping-Vorgängen mehrere IP-Adressen durchlaufen werden. Sie hilft dabei, IP-basierte Beschränkungen zu umgehen und gewährleistet eine unterbrechungsfreie Datenextraktion.
  • Skalierbarkeit: Die Crawlbase Crawling API ist darauf ausgelegt, Scraping-Aufgaben unterschiedlichen Umfangs zu bewältigen. Egal, ob Sie eine einzelne Webseite oder Tausende von Seiten scrapen möchten, Crawlbase kann Anfragen effizient verarbeiten und ist daher ideal für groß angelegte Datenextraktionsprojekte.
  • Einfache Integration: Dank der Python-Bibliothek ist die Nutzung der Funktionen von Crawlbase unkompliziert. Diese Integration ermöglicht die mühelose Ausführung von Anfragen, das Abrufen von Inhalten und die nahtlose Einbindung in Ihre Datenanalyse-Pipelines.

OpenAI GPT-API

Die OpenAI GPT-API stellt einen Eckpfeiler für das Verstehen und Generieren natürlicher Sprache dar. Es eröffnet verschiedene Möglichkeiten für Aufgaben im Zusammenhang mit der Interpretation und Generierung textbasierter Daten. Hier ist eine technische Perspektive auf die OpenAI GPT API:

  • Natürliches Verständnis der Sprache: Die GPT-Modelle von OpenAI werden sorgfältig für ein umfassendes Sprachverständnis trainiert. Sie sind hervorragend darin, Abfragen zu interpretieren, Text zu generieren und bei Aufgaben zu helfen, die sprachliches Verständnis erfordern, was sie zu einem leistungsstarken Werkzeug für die Generierung von XPath-Ausdrücken macht.
  • Sprachgenerierung: Die GPT-API weist außergewöhnliche Fähigkeiten bei der Generierung von menschenähnlichem Text auf. Diese Fähigkeit ist von unschätzbarem Wert für Aufgaben wie Chatbot-Antworten, Inhaltsgenerierung und das Erstellen von Anweisungen zur Datenextraktion und verbessert die Automatisierung und Flexibilität bei Scraping-Projekten.
  • Vielseitigkeit: Die GPT-Modelle von OpenAI sind äußerst vielseitig und an verschiedene textbezogene Aufgaben anpassbar, was sie zu einer unschätzbaren Ergänzung Ihres automatisierten Scraping-Toolkits macht. Ihre Anpassungsfähigkeit ebnet den Weg für eine breite Palette von Anwendungen im Bereich Web Scraping.

In den folgenden Abschnitten werden wir die Leistungsfähigkeit dieser APIs nutzen und sie nahtlos zusammenführen, um einen effizienten und optimierten Prozess für die Extraktion von Produktpreisen aus den Suchseiten von Amazon zu erstellen.

Die Suchseitenstruktur von Amazon verstehen

Um das automatisierte Scraping zu beherrschen, ist es wichtig, die Struktur der Webseiten zu verstehen, die Sie scrapen möchten. In diesem Abschnitt werden wir uns die Struktur der Suchseiten von Amazon genauer ansehen, sie in ihre wesentlichen Komponenten zerlegen und Ihnen dabei helfen, die spezifischen Daten zu identifizieren, die Sie benötigen.

Aufschlüsselung einer Amazon-Suchseite

Die Suchseiten von Amazon sind sorgfältig gestaltet, um den Benutzern ein benutzerfreundliches und effizientes Einkaufserlebnis sowie eine optisch ansprechende Benutzeroberfläche mit individuelle LogosDas Verständnis der Struktur dieser Seiten ist der erste Schritt zum erfolgreichen automatisierten Scraping:

Amazon-Suchseite
  • Suchleiste: Oben auf der Seite finden Sie die Suchleiste, in die Benutzer ihre Suchanfragen eingeben. Hier beginnt die Suche, bei der Benutzer nach bestimmten Produkten oder Kategorien suchen.
  • Filter und Sortieroptionen: Auf der linken Seite sehen Sie verschiedene Filter- und Sortieroptionen. Benutzer können ihre Suchergebnisse verfeinern, indem sie Kategorien, Marken, Preisklassen und mehr auswählen. Das Erkennen dieser Elemente ist wichtig, da sie die Suchergebnisse beeinflussen.
  • Suchergebnisse-Raster: Der zentrale Teil der Seite wird vom Suchergebnisraster eingenommen. Dieses Raster zeigt eine Liste von Produkten an, die der Suchanfrage des Benutzers entsprechen. Jede Produktliste enthält normalerweise ein Bild, einen Titel, einen Preis, Bewertungen und zusätzliche Informationen.
  • Paginierung: Am Ende der Suchergebnisse finden Sie häufig Paginierungssteuerelemente, mit denen Benutzer durch mehrere Seiten mit Ergebnissen navigieren können. Das Verständnis, wie Amazon mit der Paginierung umgeht, ist entscheidend, um Daten von allen Seiten für Scraping-Zwecke zu sammeln.
  • Links zur Produktdetailseite: Jede Produktliste enthält einen Link, der Benutzer zur Detailseite des Produkts führt. Beim Scraping der Suchseiten von Amazon können diese Links hilfreich sein, um ausführlichere Informationen zu bestimmten Produkten zu sammeln.
  • Fußzeile: Die Fußzeile enthält Links zu verschiedenen Amazon-Richtlinien, zum Kundenservice und zu zusätzlichen Ressourcen. Es ist der letzte Abschnitt der Seite.

Identifizieren der benötigten Daten

Die Suchseiten von Amazon sind reich an Daten, aber nicht alle sind für Ihre spezifischen Scraping-Ziele relevant. Für effizientes und zielgerichtetes Scraping ist es wichtig, die genauen Datenelemente zu identifizieren, die Sie benötigen:

  • Produktinformationen: Bestimmen Sie, welche Produktdetails für Ihre Ziele wichtig sind. Dazu können Produkttitel, Preise, Kundenbewertungen und Beschreibungen gehören. Die Identifizierung dieser Elemente hilft Ihnen, die richtigen Informationen zu extrahieren.
  • Produkt-URLs: Wenn Sie sich eingehender mit bestimmten Produkten befassen möchten, ist es wichtig, die URLs zu den einzelnen Produktseiten zu erfassen. So können Sie auf detailliertere Informationen zu jedem Artikel zugreifen.
  • Seitennummerierungssteuerung: Um Daten von mehreren Ergebnisseiten zu sammeln, ist es wichtig zu verstehen, wie die Seitennummerierung auf Amazons Suchseiten strukturiert ist. Sie müssen die entsprechenden Elemente finden und verwenden, um effizient durch die Seiten zu navigieren.

Im weiteren Verlauf dieses Blogs wenden wir dieses Wissen auf unsere automatisierten Scraping-Techniken an. Sie erfahren, wie Sie die benötigten Daten auf den Suchseiten von Amazon finden und extrahieren, sodass Sie wertvolle Erkenntnisse gewinnen und datengesteuerte Entscheidungen in der Welt des E-Commerce treffen können.

So scrapen Sie Preise von Amazon: So bereiten Sie sich vor

Bevor Sie mit dem automatisierten Scraping beginnen, müssen Sie sicherstellen, dass Sie über die richtigen Tools und die richtige Einrichtung verfügen. In diesem Abschnitt werden die ersten Vorbereitungsschritte behandelt, darunter die Installation von Python, die Erstellung einer virtuellen Umgebung und der Erwerb der erforderlichen Token für Crawlbase und OpenAI.

Installieren von Python und wichtigen Bibliotheken

Python ist der Eckpfeiler von Web Scraping-Projekten und mehrere Bibliotheken spielen dabei eine entscheidende Rolle. Stellen Sie zunächst sicher, dass Sie Python und die folgenden Bibliotheken installiert haben:

Python-Installation: Wenn Sie Python nicht installiert haben, laden Sie die neueste Version von der offiziellen Python-Website herunter und folgen Sie den Installationsanweisungen für Ihr Betriebssystem.

Erforderliche Bibliotheken: Um diesem Blog erfolgreich folgen zu können, werden die folgenden Bibliotheken benötigt.

  1. Crawlbase Python-Bibliothek: Zur Interaktion mit der Crawlbase Crawling APIbenötigen Sie die Crawlbase Python-Bibliothek. Diese Bibliothek vereinfacht das Stellen von Anfragen an Crawlbase für Web Scraping. Installieren Sie sie mit:
1
pip installieren crawlbase
  1. OpenAI-Python-Bibliothek: Da Sie OpenAIs GPT verwenden, um XPath zu erhalten, müssen Sie die OpenAI Python-Bibliothek installieren. Diese Bibliothek ermöglicht Ihnen eine effektive Interaktion mit den APIs von OpenAI. Installieren Sie sie mit:
1
pip openai installieren
  1. lxml: Die Python-Bibliothek lxml ist ein robustes und effizientes Tool zum Parsen und Arbeiten mit XML- und HTML-Dokumenten. Sie bietet eine leistungsstarke und benutzerfreundliche Schnittstelle zum Navigieren und Bearbeiten strukturierter Daten.
1
pip lxml installieren

Erstellen einer virtuellen Umgebung

Das Erstellen einer virtuellen Umgebung ist eine bewährte Methode in der Python-Entwicklung. Dadurch wird sichergestellt, dass Ihr Projekt über eine isolierte Umgebung mit den erforderlichen Paketen verfügt. So richten Sie eine virtuelle Umgebung ein:

  1. Installieren Sie Virtualenv: Wenn Sie virtualenv nicht installiert haben, können Sie dies mit pip tun:
1
pip installieren virtualenv
  1. Erstellen Sie eine virtuelle Umgebung: Navigieren Sie zu Ihrem Projektverzeichnis und führen Sie den folgenden Befehl aus, um eine virtuelle Umgebung zu erstellen:
1
virtualenv venv
  1. Aktivieren der virtuellen Umgebung: Abhängig von Ihrem Betriebssystem kann der Aktivierungsbefehl unterschiedlich sein:
  • Unter Windows:
1
venv\Scripts\aktivieren
  • Unter MacOS und Linux:
1
Quelle venv/bin/aktivieren

Ihre virtuelle Umgebung ist nun eingerichtet und aktiviert. Sie können projektspezifische Pakete installieren, ohne Ihre systemweite Python-Installation zu beeinträchtigen.

Token für Crawlbase und OpenAI erwerben

So verwenden Sie die Crawlbase Crawling API und OpenAI GPT API benötigen Sie die erforderlichen Token oder API-Schlüssel. So erhalten Sie sie:

Crawlbase-Token: Besuche den Crawlbase-Website und melde dich für ein Konto an. Sobald du registriert bist, findest du deinen API-Token oder -Schlüssel im Dokumentation. Crawlbase bietet zwei Arten von Token: den Normal Token (TCP) für statische Websites und den JavaScript Token (JS) für dynamische oder JavaScript-gesteuerte Websites. Für Amazon benötigen wir einen JS-Token. Bewahren Sie diesen Token sicher auf, da er für den Zugriff auf die Crawlbase-API unerlässlich ist. Für einen einfachen Start bietet Crawlbase 1000 kostenlose Anfragen für seine Crawling API.

OpenAI GPT-Token: Besuche den OpenAI-Website und erstellen Sie ein Konto, falls Sie dies noch nicht getan haben. Greifen Sie über Ihre OpenAI-Kontoeinstellungen auf Ihr API-Token zu. Dieses Token ist für Anfragen an die OpenAI GPT API erforderlich.

In den folgenden Abschnitten dieses Blogs führen wir Sie durch die praktischen Schritte zum effizienten und effektiven Scrapen von Produktpreisen von den Suchseiten von Amazon. Bleiben Sie dran, während wir die Tools und Techniken erkunden, die Ihnen im E-Commerce einen Wettbewerbsvorteil verschaffen.

Automatisierung des Amazon Price Scraping

Jetzt, da Sie gut vorbereitet und mit den notwendigen Tools und Tokens ausgestattet sind, ist es an der Zeit, in das Herz des automatisierten Scrapings einzutauchen. Dieser Abschnitt führt Sie durch die detaillierten Schritte zum Scraping von Produktpreisen von Amazons Suchseiten mithilfe der Crawlbase Crawling API und OpenAI.

Abrufen des HTML-Codes der Amazon-Suchseite

Der erste Schritt bei der Automatisierung des Preis-Scrapings besteht darin, den HTML-Inhalt der Suchseiten von Amazon abzurufen. In diesen HTML-Inhalt sind die Produktinformationen, einschließlich der Preise, eingebettet. Wie viele moderne Websites verwenden die Suchseiten von Amazon ausgefallene Technologien wie JavaScript und Ajax, um ihren Inhalt zu laden. Dies kann das Scraping von Daten von diesen Seiten erschweren. Aber mit der Crawlbase Crawling API, Sie haben die Werkzeuge, um diese Herausforderungen effektiv zu meistern. Unten finden Sie das Python-Skript zum Abrufen des HTML der Amazon-Suchseite für die Abfrage „Macbook“.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
für Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=macbook“

# Optionen für Crawling API
Optionen = {
'Seite_warten': 2000,
'ajax_wait': "wahr"
}

# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite mit Optionen
Antwort = api.get(amazon_search_url, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
html_content = Antwort['Körper'].dekodieren('lateinisch1')

# Speichern Sie den HTML-Inhalt in einer Datei
mit XNUMXh geöffnet('ausgabe.html', 'w', Kodierung='utf-8') as Datei:
datei.schreiben(html_inhalt)
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

Wenn Sie das JavaScript-Token mit der Crawlbase-API verwenden, können Sie einige spezielle Parameter angeben, um sicherzustellen, dass Sie den dynamisch gerenderten Inhalt genau erfassen. Weitere Informationen hierzu finden Sie hier.

  • Seite_warten: Mit diesem optionalen Parameter können Sie die Anzahl der Millisekunden angeben, die gewartet werden soll, bevor der Browser den resultierenden HTML-Code erfasst. Verwenden Sie diesen Parameter in Situationen, in denen das Rendern einer Seite einige Zeit in Anspruch nimmt oder wenn AJAX-Anfragen geladen werden müssen, bevor das HTML erfasst wird.
  • ajax_wait: Ein weiterer optionaler Parameter für das JavaScript-Token. Damit können Sie angeben, ob auf die Fertigstellung von AJAX-Anfragen gewartet werden soll, bevor die HTML-Antwort empfangen wird. Dies ist wichtig, wenn der Inhalt auf AJAX-Anfragen basiert.

output.html Vorschau:

Gecrawlte HTML-Vorschau

Verwenden von OpenAI zum Extrahieren von Preis-XPath

In unserem Bestreben, die Extraktion von Produktpreisen aus den Suchseiten von Amazon zu automatisieren, greifen wir auf die bemerkenswerten Fähigkeiten von OpenAI zurück, insbesondere auf das GPT-Modell (Generative Pre-trained Transformer). Lassen Sie uns das vorherige Beispiel aktualisieren und den Code hinzufügen, um OpenAI zu nutzen, um präzise XPath-Ausdrücke für die effektive Extraktion von Produktpreisen aus HTML-Inhalten zu generieren. GPT-4-Eingabeaufforderungen für optimale Genauigkeit:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
importieren öffnen
importieren Asyncio
für Crawlbase importieren CrawlingAPI

# Ersetzen Sie „your_openai_api_key“ durch Ihren OpenAI-API-Schlüssel
openai.api_key = „Ihr_OpenAI_API_Schlüssel“

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=macbook“

# Optionen für Crawling API
Optionen = {
'Seite_warten': 2000
}

async def get_xpath(html):
Antwort = – warten auf Sie! openai.Completion.create(
Motor ="gpt-3.5-turbo",
Nachrichten=[
{"Rolle": "System", "Inhalt": „Als unterstützende Instanz besteht Ihre Rolle darin, den umfassenden XPath-Ausdruck, der den Pfad von der HTML-Quelle zum Produktpreiselement innerhalb der Eingabeaufforderung umfasst, gekonnt zu identifizieren. Ihre Antwort sollte ausschließlich aus dem vollständigen XPath bestehen, ohne ergänzende Erklärungen, Hinweise oder zusätzlichen Text. Mehrfache Wiederholungen derselben Antwort sind zulässig.“},
{"Rolle": "Nutzer", "Inhalt": html}
]
)
Rückkehr Antwort.Auswahl[0].Nachricht["Inhalt"]

async def Haupt-
# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite mit Optionen
Antwort = api.get(amazon_search_url, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
html_content = Antwort['Körper'].dekodieren('lateinisch1')
xpath = – warten auf Sie! get_xpath(html_inhalt)
drucken(xpath)
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

if __name__ == "__hauptsächlich__":
asyncio.run(main())

Dieser Code ist die Brücke zwischen Ihrem HTML-Inhalt und den präzisen XPath-Ausdrücken, die zum Suchen und Extrahieren von Produktpreisen erforderlich sind. Er initiiert die Kommunikation mit der GPT-3.5 Turbo-Engine von OpenAI, stellt Anweisungen bereit und empfängt generierte XPath-Ausdrücke, die auf Ihre Scraping-Anforderungen zugeschnitten sind. Der generierte XPath steht dann für Ihre Web-Scraping-Aufgaben sofort zur Verfügung, was den Prozess rationalisiert und die Präzision verbessert.

Scraping der Amazon-Produktpreise

Um Ihr Scraping-Erlebnis auf die nächste Ebene zu bringen, erweitern wir das vorherige Beispielskript um eine Funktion namens find_max_price. Diese Funktion verwendet die Python-Bibliothek lxml, um den HTML-Inhalt zu analysieren und alle Produktpreise basierend auf dem generierten XPath-Ausdruck auszuwählen. Anschließend konvertiert sie die ausgewählten Preiszeichenfolgen in numerische Werte und ermittelt den höchsten Preis mithilfe des max() Funktion. Schließlich druckt das Skript den höchsten Macbook-Preis aus, der auf der Amazon-Suchseite gefunden wurde, und liefert Ihnen so einen wertvollen Datenpunkt.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
importieren öffnen
importieren Asyncio
importieren lxml
für Crawlbase importieren CrawlingAPI

# Ersetzen Sie „your_openai_api_key“ durch Ihren OpenAI-API-Schlüssel
openai.api_key = „Ihr_OpenAI_API_Schlüssel“

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=macbook“

# Optionen für Crawling API
Optionen = {
'Seite_warten': 2000
}

async def get_xpath(html):
Antwort = – warten auf Sie! openai.Completion.create(
Motor ="gpt-3.5-turbo",
Nachrichten=[
{"Rolle": "System", "Inhalt": „Ihre Rolle als unterstützende Instanz besteht darin, den allumfassenden XPath-Ausdruck, der den Pfad von der HTML-Quelle zu den Produkttitel- und Preiselementen innerhalb der Eingabeaufforderung nachverfolgt, fachgerecht zu ermitteln. Ihre Antwort sollte ausschließlich den vollständigen XPath für beide Elemente enthalten, ohne zusätzliche Erklärungen, Anmerkungen oder zusätzlichen Text. Die mehrmalige Wiederholung derselben Antwort ist zulässig.“},
{"Rolle": "Nutzer", "Inhalt": html}
]
)
Rückkehr Antwort.Auswahl[0].Nachricht["Inhalt"]

def Höchstpreis finden(html_content, xpath):
parsed_html = html.fromstring(html_inhalt)
# Verwenden Sie den generierten XPath-Ausdruck, um Produktpreise auszuwählen und zu extrahieren
Preiszeichenfolgen = parsed_html.xpath(xpath)

# Preiszeichenfolgen in Float-Werte umwandeln
Preise = [schweben(Preis) für Preis in Preis_Zeichenfolgen]

# Finden Sie den höchsten Preis
höchster_preis = max(Preise)

# Drucken Sie den höchsten Preis
drucken(„Der höchste MacBook-Preis ist:“, höchster_Preis)

async def Haupt-
# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite mit Optionen
Antwort = api.get(amazon_search_url, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
html_content = Antwort['Körper'].dekodieren('lateinisch1')
xpath = – warten auf Sie! get_xpath(html_inhalt)

find_max_price(html_inhalt, xpath)

sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

if __name__ == "__hauptsächlich__":
asyncio.run(main())

Beispielausgabe:

1
Der höchste MacBook-Preis beträgt: 5,299

Mit dieser Ergänzung ruft Ihr Scraping-Skript jetzt nicht nur Daten ab, sondern verarbeitet sie auch, um Ihnen wertvolle Erkenntnisse zu liefern, wie z. B. den höchsten Macbook-Preis, der auf der Amazon-Suchseite gefunden wurde. Vielleicht möchten Sie auch wissen, wie Sie die Paginierung beim Scraping handhaben und die Ergebnisse in einem geeigneten Format speichern. Hierzu können Sie sich auf Folgendes beziehen Blog. Genießen Sie Ihre erweiterten Scraping-Funktionen!

Zusammenfassung

Ich hoffe, dieser Blog hilft Ihnen dabei, Ihre Scraping-Bemühungen zu automatisieren und Ihnen viel Zeit zu sparen. Wenn Sie daran interessiert sind, Walmart-Produktdaten oder deren Suchseiten zu scrapen, sollten Sie sich die folgenden Anleitungen ansehen:

📜 So scrapen Sie Amazon-Bewertungen
📜 So scrapen Sie Amazon-Suchseiten
📜 So kratzen Sie Amazon-Produktdaten

Weitere Anleitungen finden Sie unter Scraping von Amazon-ASINs, Amazon-Bewertungen in Node, Amazon Bilder und Amazon-Daten in Ruby. Weitere E-Commerce Scraping-Anleitungen, die über Walmart hinausgehen, finden Sie in unseren Tutorials zum Scraping von Produktdaten von Walmart, eBay und AliExpress.

Wenden Sie sich gerne an uns HIER wenn Sie weitere Hilfe benötigen oder zusätzliche Fragen haben.

Häufig gestellte Fragen

F: Was soll ich mit den von Amazon gesammelten Preisdaten machen?

Was Sie mit den von Amazon gesammelten Preisdaten machen, hängt weitgehend von Ihren Absichten und der Einhaltung der einschlägigen gesetzlichen Bestimmungen ab. Wenn Sie die Daten für den persönlichen Gebrauch oder zur Analyse verwenden möchten, können Sie dies normalerweise tun, solange dies den Geschäftsbedingungen von Amazon und den geltenden Web Scraping-Gesetzen in Ihrer Region entspricht. Das Teilen, Verkaufen oder Veröffentlichen von gesammelten Daten, insbesondere für kommerzielle Zwecke, erfordert jedoch häufig die ausdrückliche Genehmigung von Amazon.

F: Welche Vorteile bietet automatisiertes Scraping für mein E-Commerce-Geschäft?

Automatisiertes Scraping bietet E-Commerce-Unternehmen mehrere Vorteile. Sie können damit das Scraping von Preisen und Produktangeboten der Konkurrenz kontinuierlich überwachen. Es bietet detaillierte Einblicke in Produkttrends, Kundenpräferenzen und Marktanforderungen, die für die Produktentwicklung und gezieltes Marketing von unschätzbarem Wert sind. Darüber hinaus sorgen genaue und aktuelle Produktinformationen auf Ihrer E-Commerce-Website für ein nahtloses Einkaufserlebnis für Kunden.

F: Kann ich automatisiertes Scraping anpassen, um Änderungen im Website-Layout zu berücksichtigen?

Ja, automatisiertes Scraping kann sich an Änderungen im Website-Layout anpassen. Wenn Websites ihr Design oder ihre Struktur aktualisieren, kann automatisiertes Scraping Techniken wie CSS-Selektoren und flexible XPath-Ausdrücke verwenden, um sicherzustellen, dass die Datenerfassung unterbrechungsfrei bleibt. Diese Anpassungsfähigkeit ist wertvoll, denn sie ermöglicht es Ihnen, genaue und aktuelle Daten beizubehalten, selbst wenn Websites ihr Erscheinungsbild ändern.

Die rechtlichen und ethischen Aspekte des Web Scraping müssen unbedingt berücksichtigt werden. Die Rechtmäßigkeit von Web Scraping ist je nach Rechtsraum unterschiedlich und es ist wichtig, die Nutzungsbedingungen der Website einzuhalten. Zu den ethischen Scraping-Praktiken gehört es, eine Website nicht mit Anfragen zu überlasten, das Scraping privater oder vertraulicher Informationen zu vermeiden und bei der Verwendung von Scraping-Daten die richtige Zuordnung vorzunehmen. Wenn Sie Rechtsberatung einholen und sich über die Datenschutzbestimmungen in Ihrer Region informieren, können Sie die Einhaltung der relevanten Gesetze sicherstellen.