Dieser Blog ist eine Schritt-für-Schritt-Anleitung zum Scraping von Amazon PPC-Anzeigendaten mit Python. Amazon PPC-Anzeigen oder gesponserte Produkte sind zu einem zentralen Bestandteil des riesigen Werbeökosystems von Amazon geworden. Dies sind die Anzeigen, die Sie sehen, wenn Sie eine Suche auf Amazon durchführen, oft gekennzeichnet als „gesponsert“ oder „Anzeige“. Das Scraping von gesponserten Anzeigendaten der Konkurrenz verschafft Ihnen viel mehr als nur einen Wettbewerbsvorteil. Scrollen Sie nach unten, um mehr darüber zu erfahren, wie Amazon-Anzeigen Ihrem Unternehmen zugute kommen können, oder klicken Sie direkt auf „Scraping von Amazon-Anzeigendaten“. hier.

Unser gebrauchsfertiger Amazon-Scraper ist eine umfassende Lösung zum Scrapen aller Arten von Amazon-Daten. Sie können es jetzt ausprobieren.

Inhaltsverzeichnis

  1. Erste Schritte
  • Warum Amazon-PPC-Anzeigendaten scrapen?
  1. Erste Schritte mit Crawlbase Crawling API
  • Crawlbase Python-Bibliothek
  1. Amazon PPC-Anzeigen verstehen
  • Die Daten, die Sie scrapen möchten
  1. Voraussetzungen:
  • Einrichten Ihrer Entwicklungsumgebung
  • Erforderliche Bibliotheken installieren
  • Erstellen eines Crawlbase-Kontos
  1. Amazon PPC Ad Scraping – Schritt für Schritt
  • Abrufen des richtigen Crawlbase-Tokens
  • Einrichten von Crawlbase Crawling API
  • Umgang mit dynamischen Inhalten
  • Extrahieren von Anzeigendaten und Speichern in einer SQLite-Datenbank
  1. Zusammenfassung
  2. Häufig gestellte Fragen

1. Anfangen

Amazon hat einen großen und wachsenden Marktplatz. Jeden Monat Etwa 200 Millionen Menschen kaufen bei Amazon ein.

Lassen Sie uns genauer untersuchen, warum Sie Amazon-Anzeigen scrapen sollten.

Warum Daten zu gesponserten Anzeigen von Amazon scrapen?

Das Scraping von Amazon PPC-Werbedaten ist vielleicht nicht die erste Idee, die einem in den Sinn kommt, aber es birgt ein enormes Potenzial für E-Commerce-Unternehmen. Aus diesen Gründen sollten Sie in die Welt des Scrapings von Amazon PPC-Werbedaten eintauchen:

Warum Amazon PPC-Anzeigen scrapen?
  1. Competitive Analysis: Durch das Scraping von Daten aus Amazon-PPC-Anzeigen können Sie Einblicke in die Werbestrategien Ihrer Konkurrenten gewinnen. Sie können deren Schlüsselwörter, Anzeigentexte und Gebotsstrategien überwachen, um im Spiel die Nase vorn zu behalten.
  2. Optimieren Sie Ihre Werbekampagnen: Durch den Zugriff auf Daten aus Ihren eigenen Amazon-PPC-Kampagnen können Sie deren Leistung im Detail analysieren. Sie können erkennen, was funktioniert und was nicht, und so datengestützte Entscheidungen zur Optimierung Ihrer Werbeausgaben treffen.
  3. Neue Schlüsselwörter entdecken: Durch das Scraping von Anzeigendaten können Sie wertvolle Schlüsselwörter entdecken, die Sie bei Ihrer ersten Recherche möglicherweise übersehen haben. Diese neuen Schlüsselwörter können auch zur Verbesserung Ihrer organischen Einträge verwendet werden.
  4. Informiert bleiben: Das Anzeigensystem von Amazon ist dynamisch. Neue Produkte, neue Schlüsselwörter und sich ändernde Trends erfordern eine ständige Überwachung. Durch Scraping bleiben Sie über diese Änderungen auf dem Laufenden und stellen sicher, dass Ihre Werbestrategie relevant bleibt.
  5. Forschung und Markteinblicke: Über Ihre eigenen Kampagnen hinaus bietet das Scraping von Amazon PPC-Werbedaten eine breitere Perspektive auf Markttrends und Kundenverhalten. Sie können aufkommende Trends und Kundenpräferenzen erkennen, indem Sie Werbedaten in großem Umfang analysieren.

In den folgenden Abschnitten dieses Handbuchs vertiefen Sie sich in die technischen Aspekte des Scrapings von Amazon-PPC-Anzeigendaten und erschließen sich so das Potenzial für einen Wettbewerbsvorteil in der E-Commerce-Welt.

2. Erste Schritte mit Crawlbase Crawling API

Wenn Sie neu im Web Scraping sind oder bereits Erfahrung auf diesem Gebiet haben, werden Sie feststellen, dass die Crawlbase Crawling API vereinfacht das Extrahieren von Daten von Websites, einschließlich Scraping von Amazon-Suchseiten. Bevor wir auf die Einzelheiten der Verwendung dieser API eingehen, wollen wir uns kurz damit befassen, warum sie wichtig ist und welche Vorteile sie für Sie bietet.

Crawlbase Python-Bibliothek

Um die Leistung von Crawlbase zu nutzen Crawling API, können Sie die Crawlbase Python-Bibliothek. Diese Bibliothek vereinfacht die Integration von Crawlbase in Ihre Python-Projekte und macht es für Python-Entwickler aller Erfahrungsstufen zugänglich.

Initialisieren Sie zunächst den Crawling API Klasse.

1
api = CrawlingAPI({ 'Zeichen': 'IHR_CRAWLBASE_TOKEN' })

Übergeben Sie die URL, die Sie scrapen möchten, mithilfe der folgenden Funktion.

1
api.get(url, Optionen = {})

Ejemplo:

1
2
3
Antwort = api.get(„https://www.facebook.com/britneyspears“)
if Antwort['Statuscode'] == 200:
drucken(Antwort['Körper'])

Sie können alle Optionen aus den verfügbaren Optionen übergeben API-Dokumentation.

Ejemplo:

1
2
3
4
5
6
Antwort = api.get(„https://www.reddit.com/r/pics/comments/5bx4bx/thanks_obama/“, {
'Benutzeragent': „Mozilla/5.0 (Windows NT 6.2; rv:20.0) Gecko/20121202 Firefox/30.0“,
'Format': 'json'
})
if Antwort['Statuscode'] == 200:
drucken(Antwort['Körper'])

Die Crawlbase Python-Bibliothek bietet viele weitere Funktionen. Weitere Informationen finden Sie hier. hier.

In den folgenden Abschnitten führen wir Sie durch die Nutzung der Funktionen der Crawlbase Crawling API um Amazon-Suchseiten effektiv zu durchsuchen. Wir verwenden Python, eine vielseitige Programmiersprache, um den Prozess Schritt für Schritt zu demonstrieren. Lassen Sie uns Amazons Informationsreichtum erkunden und lernen, wie wir sein Potenzial freisetzen können.

3. Amazon PPC-Anzeigen verstehen

Bevor wir uns mit den technischen Aspekten des Scrapings von Amazon-PPC-Anzeigendaten befassen, ist es wichtig, die gesponserten Anzeigen von Amazon, ihre verschiedenen Typen und die spezifischen Daten, die Sie scrapen möchten, zu verstehen. Beginnen wir mit der Entschlüsselung des Werbesystems von Amazon.

Die Daten, die Sie scrapen möchten

Nachdem Sie nun ein Verständnis für die Werbung von Amazon haben, konzentrieren wir uns auf die spezifischen Daten, die Sie aus Amazon-PPC-Anzeigen extrahieren möchten. Beim Scraping von Amazon-PPC-Anzeigendaten möchten Sie in der Regel folgende Schlüsselinformationen extrahieren:

  1. Informationen zur Werbekampagne: Diese Daten bieten Einblicke in die Gesamtleistung Ihrer Werbekampagnen. Sie umfassen Kampagnennamen, IDs, Start- und Enddaten sowie Budgetdetails.
  2. Keyword-Daten: Schlüsselwörter sind die Grundlage der PPC-Werbung. Sie sollten Schlüsselwortinformationen abrufen, einschließlich der in Ihren Kampagnen verwendeten Schlüsselwörter, ihrer Übereinstimmungstypen (breit, Phrase, exakt) und Gebotsbeträge.
  3. Anzeigengruppendetails: Anzeigengruppen helfen Ihnen, Ihre Anzeigen anhand gemeinsamer Themen zu organisieren. Durch das Scraping von Anzeigengruppendaten können Sie die Struktur Ihrer Kampagnen verstehen.
  4. Kennzahlen zur Anzeigenleistung: Zu den wichtigsten Kennzahlen zählen die Anzahl der Klicks, Impressionen, CTR, Conversion-Rate, Gesamtausgaben und mehr. Diese Kennzahlen helfen Ihnen bei der Bewertung der Effektivität Ihrer Anzeigen.
  5. Produktinformationen: Das Extrahieren von Daten zu den beworbenen Produkten, wie ASIN, Produkttitel, Preise und Bild-URLs, ist für die Optimierung des Anzeigeninhalts von entscheidender Bedeutung.
  6. Wettbewerbsanalyse: Zusätzlich zu Ihren eigenen Anzeigendaten möchten Sie möglicherweise auch die Anzeigeninformationen der Konkurrenz scrapen, um Einblicke in deren Strategien und Keyword-Targeting zu gewinnen.

Das Verständnis dieser Kernelemente und der spezifischen Daten, die Sie scrapen möchten, wird entscheidend sein, wenn Sie mit Python und der Crawlbase beim Scrapen von Amazon PPC-Anzeigendaten fortfahren. Crawling API. In den folgenden Abschnitten erfahren Sie, wie Sie dieses Verständnis in umsetzbare technische Prozesse umsetzen.

4. Voraussetzungen

Bevor wir uns auf unsere Web Scraping-Reise begeben, stellen wir sicher, dass Sie alle erforderlichen Tools und Ressourcen bereit haben. In diesem Kapitel behandeln wir die Voraussetzungen für ein erfolgreiches Web Scraping von Amazon-Suchseiten mit der Crawlbase Crawling API.

Einrichten Ihrer Entwicklungsumgebung

Um mit dem Web Scraping beginnen zu können, benötigen Sie eine geeignete Entwicklungsumgebung. Folgendes benötigen Sie:

Python:
Python ist eine vielseitige Programmiersprache, die häufig beim Web Scraping verwendet wird. Stellen Sie sicher, dass Python auf Ihrem System installiert ist. Sie können die neueste Version von Python hier von der offiziellen Website herunterladen.

Code-Editor oder IDE:
Wählen Sie einen Code-Editor oder eine integrierte Entwicklungsumgebung (IDE) zum Schreiben und Ausführen Ihres Python-Codes. Beliebte Optionen sind PyCharm und Jupyter Notizbuch. Sie können auch verwenden Google ColabWählen Sie diejenige aus, die Ihren Vorlieben und Ihrem Arbeitsablauf am besten entspricht.

Erforderliche Bibliotheken installieren

Web Scraping in Python wird durch Bibliotheken zugänglicher, die Aufgaben wie das Erstellen von HTTP, das Parsen von HTML und die Verarbeitung von Daten vereinfachen. Installieren Sie die folgenden Bibliotheken mit pip, dem Paketmanager von Python:

1
2
3
Pandas installieren
pip installieren crawlbase
pip install beautifulsoup4
  • Pandas: Pandas ist eine leistungsstarke Bibliothek zur Datenbearbeitung, die Ihnen hilft, die Scraped-Daten effizient zu organisieren und zu analysieren.
  • Crawlbase: Eine leichte, abhängigkeitsfreie Python-Klasse, die als Wrapper für die Crawlbase-API fungiert.
  • Schöne Suppe: Beautiful Soup ist eine Python-Bibliothek, die das Parsen von HTML und das Extrahieren von Daten aus Webseiten erleichtert.

Erstellen eines Crawlbase-Kontos

So greifen Sie auf die Crawlbase zu Crawling API, du brauchst ein Crawlbase Konto. Wenn Sie noch kein Konto haben, folgen Sie diesen Schritten, um ein Konto zu erstellen:

  1. Klicken Sie hier um ein neues Crawlbase-Konto zu erstellen.
  2. Geben Sie die erforderlichen Informationen ein, einschließlich Ihres Namens, Ihrer E-Mail-Adresse und Ihres Passworts.
  3. Bestätigen Sie Ihre E-Mail-Adresse, indem Sie auf den an Ihren Posteingang gesendeten Bestätigungslink klicken.
  4. Sobald Ihre E-Mail bestätigt ist, können Sie auf Ihr Crawlbase-Dashboard zugreifen.

Nachdem Ihre Entwicklungsumgebung nun eingerichtet ist und Sie ein Crawlbase-Konto haben, können wir mit den nächsten Schritten fortfahren. Wir erhalten Ihr Crawlbase-Token und beginnen, Anfragen an die Crawlbase zu stellen. Crawling API.

5. Amazon PPC Ad Scraping – Schritt für Schritt

Nachdem wir nun die Grundlagen geschaffen haben, ist es an der Zeit, Schritt für Schritt in den technischen Prozess des Scrapings von Amazon PPC-Anzeigendaten einzutauchen. Dieser Abschnitt führt Sie durch den gesamten Prozess, von der Übermittlung von HTTP-Anfragen an Amazon und der Navigation durch Suchergebnisseiten bis hin zur Strukturierung Ihres Scrapers zum Extrahieren von Anzeigendaten. Wir werden uns auch mit der Handhabung der Paginierung befassen, um mehr Anzeigen zu finden.

Abrufen des richtigen Crawlbase-Tokens

Wir müssen ein API-Token erhalten, bevor wir die Leistung der Crawlbase entfesseln können Crawling API. Crawlbase bietet zwei Arten von Token: den Normal Token (TCP) für statische Websites und den JavaScript Token (JS) für dynamische oder JavaScript-gesteuerte Websites. Da Amazon beim dynamischen Laden von Inhalten stark auf JavaScript angewiesen ist, entscheiden wir uns für den JavaScript Token.

1
2
3
4
von Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase JavaScript-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

Sie können Ihr Crawlbase-Token erhalten hier nachdem Sie ein Konto darauf erstellt haben.

Einrichten von Crawlbase Crawling API

Mit unserem JavaScript-Token sind wir nun bereit, die Crawlbase einzurichten. Crawling API. Aber bevor wir fortfahren, schauen wir uns die Struktur der Ausgabeantwort an. Die Antwort, die Sie erhalten, kann in zwei Formaten vorliegen: HTML oder JSON. Die Standardauswahl für die Crawling API ist HTML-Format.

HTML-Antwort:

1
2
3
4
5
6
7
Headers:
URL: „Die URL, die gecrawlt wurde“
ursprünglicher_status: 200
pc_status: 200

Korpus:
Das HTML der Seite

Um die Antwort im JSON-Format zu erhalten, müssen Sie einen Parameter „format“ mit dem Wert „json“ übergeben.

JSON-Antwort:

1
2
3
4
5
6
{
"ursprünglicher_Status": "200",
"pc_status": 200,
"URL": „Die URL, die gecrawlt wurde“,
"Karosserie": „Das HTML der Seite“
}

Wir können mehr darüber lesen Crawling API Antwort hier. Für das Beispiel verwenden wir die Standardoption. Wir verwenden das initialisierte API-Objekt, um Anfragen zu stellen. Geben Sie die URL an, die Sie scrapen möchten, indem Sie api.get(url, options={}) Funktion.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
von Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=headphones“

# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite
Antwort = api.get(amazon_search_url)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
#latin1 verarbeitet auch chinesische Schriftzeichen)
html_content = Antwort['Körper'].dekodieren('lateinisch1')

# Speichern Sie den HTML-Inhalt in einer Datei
mit XNUMXh geöffnet('ausgabe.html', 'w', Kodierung='utf-8') as Datei:
datei.schreiben(html_inhalt)
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

Im bereitgestellten Codeausschnitt schützen wir den erfassten HTML-Inhalt, indem wir ihn in einer HTML-Datei speichern. Diese Aktion ist entscheidend, um den erfolgreichen Erwerb der Ziel-HTML-Daten zu bestätigen. Anschließend können wir die Datei überprüfen, um den spezifischen Inhalt des gecrawlten HTML zu untersuchen.

output.html Vorschau:

Amazon-Ausgabe leer

Wie Sie oben sehen können, sind im gecrawlten HTML keine nützlichen Informationen vorhanden. Dies liegt daran, dass Amazon seine wichtigen Inhalte dynamisch mit JavaScript und Ajax lädt.

Umgang mit dynamischen Inhalten

Ähnlich wie viele moderne Websites verwenden Amazons Suchseiten dynamisches Laden von Inhalten durch JavaScript-Rendering und Ajax-Aufrufe. Dieses dynamische Verhalten kann beim Versuch, Daten von diesen Seiten zu extrahieren, zu Problemen führen. Dank der Crawlbase Crawling APIkönnen diese Herausforderungen effektiv angegangen werden. Wir können die folgenden Abfrageparameter nutzen, die von der Crawling API um dieses Problem anzugehen.

Parameter einbeziehen

Wenn Sie das JavaScript-Token in Verbindung mit der Crawlbase-API verwenden, können Sie bestimmte Parameter definieren, die die genaue Erfassung dynamisch gerenderter Inhalte gewährleisten. Einige wichtige Parameter sind:

  • Seite_warten: Dieser Parameter ist zwar optional, ermöglicht Ihnen jedoch, die Wartezeit in Millisekunden anzugeben, bevor der Browser den resultierenden HTML-Code erfasst. Setzen Sie diesen Parameter in Szenarien ein, in denen eine Seite zusätzliche Zeit zum Rendern benötigt oder wenn AJAX-Anfragen vor der HTML-Erfassung vollständig geladen werden müssen.
  • ajax_wait: Ein weiterer optionaler Parameter, der auf das JavaScript-Token zugeschnitten ist. Damit können Sie angeben, ob das Skript auf die Fertigstellung von AJAX-Anfragen warten soll, bevor es die HTML-Antwort empfängt. Dies erweist sich als von unschätzbarem Wert, wenn Inhalte auf die Ausführung von AJAX-Anfragen angewiesen sind.

Um diese Parameter in unserem Beispiel zu verwenden, können wir unseren Code wie folgt aktualisieren:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
von Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=headphones“

# Optionen für Crawling API
Optionen = {
'Seite_warten': 2000,
'ajax_wait': "wahr"
}

# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite mit Optionen
Antwort = api.get(amazon_search_url, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
html_content = Antwort['Körper'].dekodieren('lateinisch1')

# Speichern Sie den HTML-Inhalt in einer Datei
mit XNUMXh geöffnet('ausgabe.html', 'w', Kodierung='utf-8') as Datei:
datei.schreiben(html_inhalt)
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])
Amazon-Ausgabe

Crawling API liefert viele weitere wichtige Parameter. Sie können mehr darüber lesen hier.

Extrahieren von Anzeigendaten und Speichern in einer SQLite-Datenbank

Nachdem wir nun erfolgreich den HTML-Inhalt der dynamischen Suchseiten von Amazon abgerufen haben, ist es an der Zeit, die wertvollen Daten für Amazon PPC-Anzeigen aus dem abgerufenen Inhalt zu extrahieren. Für das Beispiel extrahieren wir Titel und Preis der Anzeigen.

Nach dem Extrahieren dieser Daten ist es ratsam, sie systematisch zu speichern. Zu diesem Zweck verwenden wir SQLite, ein leichtes und effizientes relationales Datenbanksystem, das sich nahtlos in Python integrieren lässt. SQLite ist eine ausgezeichnete Wahl für die lokale Speicherung strukturierter Daten und in diesem Zusammenhang perfekt geeignet, um die ausgelesenen Amazon-PPC-Anzeigendaten aufzubewahren.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
importieren sqlite3
von bs4 importieren BeautifulSuppe
von Crawlbase importieren CrawlingAPI

# Funktion zum Initialisieren der SQLite-Datenbank
def initialize_db(Datenbankname):
conn = sqlite3.connect(Datenbankname)
Cursor = conn.cursor()

# Erstellen Sie eine Tabelle, wenn sie nicht existiert
Cursor.ausführen('' '
Tabelle erstellen, wenn nicht vorhanden ppc_ads (
ID INTEGER PRIMARY KEY AUTOINCREMENT,
Preis TEXT,
Titel TEXT
)
'' ')

# Die Tabellenerstellung bestätigen
conn.commit()

Rückkehr Verbindung, Cursor

# Funktion zum Einfügen von Daten in die Datenbank
def Daten einfügen(conn, Cursor, Preistext, Titeltext):
# Einfügen der Daten in die Datenbank
Cursor.ausführen(„INSERT INTO ppc_ads (Preis, Titel) WERTE (?, ?)“, (Preistext, Titeltext))
conn.commit()

# Initialisieren Sie die Datenbank
Datenbankname = „ppc_ads.db“
conn, Cursor = initialize_db(Datenbankname)

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase-Token
api = CrawlingAPI({ 'Zeichen': „SIE_CRAWLBASE_JS_TOKEN“ })

# URL der Amazon-Suchseite, die Sie scrapen möchten
amazon_search_url = „https://www.amazon.com/s?k=headphones“

# Optionen für Crawling API
Optionen = {
'Seite_warten': 2000,
'ajax_wait': "wahr"
}

# Stellen Sie eine Anfrage zum Scrapen der Amazon-Suchseite mit Optionen
Antwort = api.get(amazon_search_url, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Extrahierter HTML-Inhalt nach dem Dekodieren von Byte-Daten
html_content = Antwort['Körper'].dekodieren('lateinisch1')
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe (HTML-Inhalt, 'html.parser')

# Wählen Sie PPC-Anzeigen-Div-Elemente
Anzeigen = Suppe.Auswahl('.AdHolder div[data-asin], div[data-asin][data-component-type="s-search-result"].AdHolder')
# Extrahieren Sie Informationen aus jeder Anzeige und fügen Sie sie in die Datenbank ein
für ad in Anzeigen:
# Extrahieren Sie den Preis innerhalb des Ad-Div
Preis = Anzeige.Eine_Auswahl(„span.a-Preis span.a-Offscreen“)
if Preis:
Preistext = Preis.Text.Streifen()
sonst:
Preistext = "Preis nicht gefunden"

# Extrahieren Sie den Titel innerhalb des Ad-Div
Titel = Anzeige.Eine_Auswahl(„div.a-Abschnitt h2 aa-Link-normale Spanne, div.a-Abschnitt aa-Link-normale Spanne.a-Offscreen“)
if Titel:
Titeltext = Titel.Text.Streifen()
sonst:
Titeltext = "Titel nicht gefunden"

# Einfügen der Daten in die Datenbank
insert_data(conn, cursor, price_text, title_text)
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

# Schließen Sie die Datenbankverbindung
conn.close()

Beispielausgabe:

SQLite-Ausgabeergebnisse

Dieses Python-Skript demonstriert den Vorgang des Scrapings der Amazon-Suchseite nach PPC-Anzeigen. Es beginnt mit der Initialisierung einer SQLite-Datenbank und erstellt eine Tabelle zum Speichern der Scraping-Daten, einschließlich der Anzeigen-ID, des Preises und des Titels. Die insert_data Die Funktion wird definiert, um die extrahierten Daten in diese Datenbank einzufügen. Das Skript richtet dann die Crawlbase-API für das Web-Crawling ein und gibt Optionen für Seiten- und AJAX-Wartezeiten an, um dynamisch geladene Inhalte effektiv zu verarbeiten.

Nach dem erfolgreichen Abrufen der Amazon-Suchseite mithilfe der Crawlbase-API verwendet das Skript BeautifulSoup zum Parsen des HTML-Inhalts. Es zielt speziell auf PPC-Anzeigenelemente auf der Seite ab. Für jedes Anzeigenelement extrahiert das Skript die Preis- und Titelinformationen. Es überprüft die Existenz dieser Details und bereinigt sie, bevor sie mithilfe des insert_data Funktion. Das Skript schließt die Datenbankverbindung ordnungsgemäß. Im Wesentlichen zeigt dieses Skript den gesamten Prozess von Bahnkratzen, Datenextraktion und Cloud-Speicher, unverzichtbar für verschiedene Datenanalyse- und Nutzungsszenarien.

6. Schlussworte

Dies war also das Scraping von gesponserten Anzeigen von Amazon. Wenn Sie an weiteren Anleitungen wie diesen interessiert sind, sehen Sie sich die folgenden Links an:

📜 So scrapen Sie Amazon-Bewertungen
📜 So scrapen Sie Amazon-Suchseiten
📜 So kratzen Sie Amazon-Produktdaten

Weitere Hilfe und Unterstützung finden Sie in den Anleitungen auf Scraping von Amazon-ASINs, Amazon-Bewertungen in Node, Amazon Bilder und Amazon-Daten in Ruby.

Wir haben einige Anleitungen zu anderen E-Commerce-Websites geschrieben, wie zum Beispiel das Scraping von Produktdaten von Walmart, eBay und AliExpress. nur für den Fall, dass Sie sie abkratzen ;).

Wenden Sie sich gerne an uns hier für Fragen und Anfragen.

7. Häufig gestellte Fragen

F. Was ist Amazon PPC-Werbung?

Mit Amazon PPC-Werbung können Verkäufer und Werbetreibende ihre Produkte auf der Amazon-Plattform bewerben. Diese Anzeigen werden in den Suchergebnissen und Produktdetailseiten von Amazon angezeigt und sorgen so für eine bessere Sichtbarkeit der Produkte. Werbetreibende zahlen nur dann eine Gebühr, wenn ein Benutzer auf ihre Anzeige klickt. Dies ist eine kostengünstige Möglichkeit, potenzielle Kunden zu erreichen, die aktiv nach Produkten suchen.

F: Warum ist das Scraping von Amazon-PPC-Anzeigendaten wichtig?

Durch das Scraping von Amazon-Daten können datengesteuerte Erkenntnisse genutzt werden, um die Leistung von PPC-Kampagnen zu verbessern, die Sichtbarkeit zu erhöhen und den ROI zu maximieren. Erstens erhalten Unternehmen dadurch Einblicke in die Werbestrategien ihrer Konkurrenten, beispielsweise in Bezug auf Schlüsselwörter, Anzeigentexte und Gebotstechniken. Zweitens können Werbetreibende ihre eigenen Werbekampagnen durch die Analyse von Leistungsmetriken optimieren. Darüber hinaus können durch Scraping wertvolle Schlüsselwörter zur Verbesserung organischer Einträge aufgedeckt werden. Darüber hinaus werden Unternehmen über Änderungen im Anzeigensystem von Amazon informiert und erhalten umfassendere Markteinblicke, die ihnen helfen, in der dynamischen E-Commerce-Landschaft die Nase vorn zu behalten.

F. Was ist die Crawlbase? Crawling API?

Das Crawlbase Crawling API ist ein ausgeklügeltes Web Scraping-Tool, das den Prozess der Datenextraktion von Websites in großem Umfang vereinfacht. Es bietet Entwicklern und Unternehmen eine automatisierte und benutzerfreundliche Möglichkeit, Informationen von Webseiten zu sammeln. Eine seiner bemerkenswerten Funktionen ist die automatische IP-Rotation, das die Datenextraktion verbessert, indem es die IP-Adresse für jede Anfrage dynamisch ändert und so das Risiko einer IP-Blockierung oder -Einschränkung verringert. Benutzer können Anfragen an die API senden, die zu scrapenden URLs sowie Abfrageparameter angeben und erhalten im Gegenzug die Scraped-Daten in strukturierten Formaten wie HTML oder JSON. Dieses vielseitige Tool ist von unschätzbarem Wert für alle, die Daten von Websites effizient und ohne Unterbrechungen sammeln möchten.

F: Wie kann ich mit dem Web Scraping unter Verwendung von Crawlbase und Python beginnen?

Um mit dem Web Scraping mithilfe von Crawlbase und Python zu beginnen, folgen Sie diesen Schritten:

  • Stellen Sie sicher, dass Python auf Ihrem System installiert ist.
  • Wählen Sie einen Code-Editor oder eine integrierte Entwicklungsumgebung (IDE) zum Schreiben Ihres Python-Codes.
  • Installieren Sie die erforderlichen Bibliotheken, wie etwa BeautifulSoup4 und die Crawlbase-Bibliothek, mit pip.
  • Erstellen Sie ein Crawlbase-Konto, um ein API-Token zu erhalten.
  • Richten Sie die Crawlbase Python-Bibliothek ein und initialisieren Sie die Crawling API mit Ihrem Token.
  • Anfragen an die Crawlbase stellen Crawling API um Daten von Websites zu scrapen, unter Angabe der URLs und aller Abfrageparameter.
  • Speichern Sie die Scraped-Daten und analysieren Sie diese nach Bedarf für Ihren spezifischen Anwendungsfall.