In diesem Blog zeigen wir, wie man die Crawlbase benutzt Smart Proxy Um ASIN für ein ausgewähltes Amazon-Produkt zu extrahieren, zeigen wir auch, wie man Crawlbase passiert Crawling APIs Parameter an die Smart Proxy für verbessertes Scraping mit mehr Kontrolle beim Crawlen der Daten. Am Ende haben wir ein strukturiertes JSON der Amazon-Produktseite zur einfachen Nutzung. Wir werden auch einige häufige Fragen zum Web Scraping von Amazon und den Amazon-Produktseiten, auch bekannt als ASIN-Seiten, beantworten.
Schritt für Schritt: Amazon ASIN mit Crawlbase extrahieren Smart Proxy
Schritt 1: Erstellen Sie zunächst eine kostenlose Crawlbase Konto, um auf Ihr Konto zuzugreifen Smart Proxy Token
Schritt 2: Navigieren Sie zu der Crawlbase Smart Proxy Dashboard um Ihr kostenloses Zugriffstoken abzurufen, das Sie im Abschnitt „Verbindungsdetails“ finden.
Schritt 3: Wählen Sie das Amazon-Produkt aus, das Sie crawlen möchten. Lassen Sie uns für dieses Beispiel Folgendes crawlen: OtterBox iPhone 14 Pro Max (NUR) Commuter Series Hülle Amazon-Produkt. Die URL lautet:
https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Schritt 4: Senden Sie eine Anfrage an die Smart Proxy, kopieren Sie die folgende Zeile und fügen Sie sie in Ihr Terminal ein:
1 | curl -x "http://[E-Mail geschützt] :8012" -k "https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/" |
Dieser curl-Befehl ist auch zu finden im Crawlbase Smart Proxy DokumentationDenken Sie daran, „USER_TOKEN“ durch Ihren Zugriffstoken zu ersetzen und die URL des Produkts einzufügen, das Sie crawlen möchten.
Wie Sie sehen, hat der Curl-Befehl zwei Optionen. Mit -x, das äquivalent zu —proxy ist, kann der Benutzer einen Proxy-Host:Port und auch eine Proxy-Authentifizierung senden. Die Crawlbase Smart Proxy erfordert kein Passwort zur Authentifizierung, da die Proxy-Benutzernamen eindeutig und sicher sind. Es reicht aus, den Benutzernamen oder USER_TOKEN für die Proxy-Authentifizierung zu verwenden. Wenn Sie jedoch ein Passwort in Ihrer Web Scraping-Anwendung hinzufügen müssen, fügen Sie eine beliebige Zeichenfolge hinzu, z. B. Ihren Firmennamen, oder fügen Sie einfach hinzu „Crawlbase“ – Die Basis fürs Kriechen.
Im curl
Befehl haben wir auch den -k
Flagge (oder --insecure
) steht für „unsicher“. Wenn Sie die -k
Flagge mit curl
, weist es den Befehl an, Verbindungen zu SSL/TLS-geschützten (HTTPS) Sites zuzulassen, ohne die Authentizität des vom Server vorgelegten Zertifikats zu überprüfen. Diese Option ist erforderlich bei Smart Proxyermöglicht es uns, die Weiterleitung an die Crawling API und Captchas und Blockaden umgehen, bevor die Anfrage an die ursprünglich angefragte Website gesendet wird. Es ist zwingend erforderlich, das Flag -k oder —insecure zu verwenden, wenn Anfragen an die Smart Proxy.
Schritt 5: Bei korrekter Ausführung sollten Sie eine HTML-Antwort erhalten, die der in diesem Screenshot gezeigten ähnelt.
Im obigen Beispiel haben wir die Amazon-Zielseite gecrawlt und können sehen, dass die gesuchte ASIN vorhanden ist als currentAsin
:
Extrahieren der Amazon ASIN mit Python und Smart Proxy
Im letzten Abschnitt haben wir curl verwendet, um eine einfache Anfrage zu stellen, die Scraped-Daten für eine Produktseite zurückgibt, von der wir die ASIN extrahiert haben. Für eine fortgeschrittenere Verwendung werden wir uns nun mit der Verwendung von Python
um diese Anfragen zu automatisieren und die Antwort zu analysieren.
Für den Python-Code verwenden wir die requests
Bibliothek und erstellen Sie eine Datei mit dem Namen smartproxy_amazon_scraper.py
.
1 | importieren Zugriffe |
Dann können Sie einfach das obige Skript in Ihrem terminal
mit python smartproxy_amazon_scraper.py
.
Dies ist die erfolgreiche Antwort, die Sie in Form von HTML in Ihrem Terminal erhalten. Sie können diese Antwort analysieren und die Daten strukturieren, die dann zum einfachen Abrufen und Analysieren in einer Datenbank gespeichert werden können.
Anpassen von Anfragen mit Crawling API Parameter
Lassen Sie uns tiefer eintauchen und untersuchen, wie Sie anpassen können Smart Proxy Anfragen mit Crawlbases Crawling API Parameter. Sie können diese Parameter einfach an den Smart Proxy als Überschriften mit dem Präfix CrawlbaseAPI-Parameters: ...
Beispielsweise:
Beispiel Nr. 1:
In diesem Python-Skript setzen wir die CrawlbaseAPI-Parameters
zu autoparse=true
Dieser API-Aufruf weist den Smart Proxy um die Seite automatisch zu analysieren und eine JSON-Antwort zurückzugeben. Sie können diese strukturierten Daten dann je nach Bedarf verwenden.
1 | # Pip-Installationsanforderungen |
Nachdem Sie den obigen Aufruf im Terminal ausgeführt haben, erhalten Sie die Antwort im JSON-Format und können sehen, dass die Daten jetzt viel strukturierter aussehen.
Beispiel # 2:
Um eine Geolokalisierung für Ihre Anfragen aus einem bestimmten Land zu erreichen, fügen Sie einfach die Parameter „country=“, mit dem zweistelligen Ländercode, zum Beispiel „Land=USA“. Siehe unten:
1 | # Pip-Installationsanforderungen |
Nachdem Sie den obigen Aufruf im Terminal ausgeführt haben, erhalten Sie die Antwort im HTML-Format wie unten gezeigt:
Sie können die HTML-Ausgabe speichern als smartproxy_amazon_scraper.html
auf Ihrem lokalen Rechner. Wenn Sie die HTML-Datei im Browser öffnen, werden Sie feststellen, dass auf der Seite Vereinigtes Königreich steht. „Liefern an“ Das bedeutet, dass Ihre Anfrage an Amazon von GB aus weitergeleitet wurde, wie wir es der API im obigen Code angewiesen haben.
In den beiden obigen Beispielen haben wir Ihnen gezeigt, wie Sie mit Crawlbase eine Webseite erfolgreich crawlen können. Smart Proxy und wie Sie die Potenziale unserer Crawlbase ganz einfach nutzen können Crawling API über das CrawlbaseAPI-ParameterKonkret haben wir die autoparse=true
Parameter, der eine strukturierte Ausgabe für eine einfachere Datenverarbeitung bereitstellt, und der country=GB
Parameter (oder ein beliebiger gültiger zweistelliger Ländercode), der eine gezielte Geolokalisierung ermöglicht.
Crawlbase Smart Proxy Weiterleitungen vereinfacht!
Normalerweise führen Proxys keine URL-Weiterleitungen durch, aber Crawlbase Smart Proxy tut. Deshalb nennen wir es Smart Proxy. Smart Proxy verwendet Crawling API Funktionen zum Umgang mit URL-Weiterleitungen durch Abfangen eingehender Anfragen, Auswerten der von Benutzern festgelegten Weiterleitungsregeln und Senden geeigneter HTTP-Statuscodes an Clients. Es leitet Benutzer basierend auf dem angegebenen Weiterleitungstyp (z. B. 301 oder 302) effizient von der Quell-URL zur Ziel-URL weiter.
Lassen Sie uns ein Umleitungsszenario demonstrieren, indem wir dieselbe URL wie zuvor als Ziel verwenden, dieses Mal entfernen wir jedoch die "Www" Präfix aus der URL. Die geänderte URL löst eine Umleitung aus, was zeigt, wie Crawlbase Smart Proxy behandelt diese Art der Umleitung. Die resultierende URL ohne das Präfix „www“ sieht folgendermaßen aus:
https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Wir werden weiterhin den zuvor bereitgestellten Python-Code verwenden und der API-Aufruf zum Einrichten von URL-Weiterleitungen folgt derselben Struktur wie zuvor. Der Codeausschnitt sieht folgendermaßen aus:
1 | # Pip-Installationsanforderungen |
Nachdem Sie den obigen API-Aufruf im Terminal ausgeführt haben, erhalten Sie die Antwort im JSON-Format. In der Antwort können Sie beobachten, dass die „ursprünglicher_Status“ Feld hat den Wert "301."
Zusammenfassung
Durch die Extraktion von Amazon-ASINs im großen Maßstab können Entwickler schnell wichtige Produktinformationen abrufen. Diese Schlüsseldaten sind entscheidend für die Untersuchung des Marktes, die Festlegung von Preisen und den Vergleich der Konkurrenz. Durch die Verwendung Web-Scraping-Toolskönnen Benutzer die Erfassung von ASINs aus großen Produktlisten automatisieren und so viel Zeit und Energie sparen.
Zusammenfassen, Crawlbase Smart Proxy steht für eine revolutionäre Lösung mit benutzerdefinierter Geolokalisierung, unbegrenzter Bandbreite, KI-gesteuertem Crawling, rotierende IP-Adressenund eine hohe Erfolgsquote. Seine vielfältigen Funktionen, darunter ein riesiger Proxy-Pool, anonymes Crawling und Echtzeitüberwachung, machen es zu einem unverzichtbaren Tool für Entwickler, das es ihnen ermöglicht, im dynamischen Bereich der Webdatenerfassung erfolgreich zu sein. Jetzt anmelden und profitieren Sie von 5000 kostenlose Anfragen mit Crawlbase Smart Proxy!
Häufig gestellte Fragen
F: Was ist eine Amazon-ASIN?
A: Eine Amazon ASIN (Amazon Standard Identification Number) ist ein einzigartiger 10-stelliger alphanumerischer Code, der Produkten zugewiesen wird, die auf dem Amazon-Marktplatz verkauft werden. Er dient als Produktkennung und wird verwendet, um Artikel im umfangreichen Katalog von Amazon zu unterscheiden. Er beginnt immer mit „B0.“
F: Ist es legal, Amazon zu scrapen?
A: Das Scraping von Amazon-Daten ist völlig legal, wenn die Daten öffentlich zugänglich sind. Es ist jedoch wichtig, das Scraping von Daten zu vermeiden, für die Anmeldeinformationen erforderlich sind, und sicherzustellen, dass die gesammelten Datensätze keine vertraulichen oder urheberrechtlich geschützten Inhalte enthalten.
F: Was ist SKU?
A: SKU (Stock Keeping Unit) ist ein eindeutiger Code, der von Verkäufern oder Einzelhändlern vergeben wird, um ihren Lagerbestand zu verfolgen und zu verwalten. Im Gegensatz zu ASIN ist SKU nicht spezifisch für die Amazon-Plattform und kann über mehrere Vertriebskanäle hinweg verwendet werden.
F: Warum ist es wichtig, die ASIN für bei Amazon gelistete Produkte zu scrapen?
- Das Scraping von ASINs für bei Amazon gelistete Produkte ist wichtig, da ASINs als eindeutige Kennungen für jeden Artikel auf dem riesigen Marktplatz von Amazon dienen.
- Durch das Abrufen von ASINs mittels Web Scraping können Entwickler wichtige Produktdetails, Preise, Verfügbarkeit und Kundenrezensionen erfassen und so benutzerdefinierte Anwendungen erstellen, Trends analysieren und Produkte kategorienübergreifend vergleichen.
- Durch das Scraping von ASINs können Entwickler die Produktdaten von Amazon nahtlos in ihre eigenen Anwendungen und Websites integrieren.
- Durch die Verfolgung von ASINs und die Überwachung ihrer Leistung im Laufe der Zeit können Unternehmen und Entwickler Marketingstrategien optimieren, Lagerbestände verwalten und in der E-Commerce-Landschaft wettbewerbsfähig bleiben.
F: Was sind die Hauptfunktionen von Crawlbase? Smart Proxy?
A: Die Hauptmerkmale der Smart Proxy sind rotierende IP-Adressen zur Wahrung der Anonymität während des Crawling-Prozesses. Der Pool der rotierenden IP-Adressen umfasst 140 Millionen Wohngebäude und Rechenzentrums-Proxys.Das Smart Proxy ist auch sehr hilfreich, um CAPTCHA-Herausforderungen zu umgehen und eine Erfolgsquote von 99 % für Ihr Crawling und Scraping sicherzustellen. Die Smart Proxy bietet auch benutzerdefinierte Geolokalisierung für regionsspezifischen Datenzugriff.