Web Scraping ist eine Strategie, die verwendet wird, um große Mengen an Inhalt von Online-Seiten zu extrahieren, wobei die Informationen im lokalen Speicher oder als Datensatz in einer tabellarischen Kalkulationstabelle gespeichert werden können. Andere Wörter, die als Alternative zu Web Scraping verwendet werden, sind die Begriffe Screen Scraping, Web Data Extraction, Web Harvesting usw. Es handelt sich um die Strategie, diesen Vorgang zu automatisieren, anstatt die Informationen manuell von Websites zu kopieren.

Web Scraping

Web Scraping wird hauptsächlich verwendet, um große Datenmengen von Websites zu sammeln. Aber warum muss jemand so große Datenmengen von Websites extrahieren? Um diese Prämisse zu verdeutlichen, wollen wir einige der Verwendungsmöglichkeiten aufzählen:

  • Mithilfe von Web Scraping werden Informationen von Internet-Shopping-Sites gesammelt und zur Analyse der Artikelkosten verwendet.
  • Viele Organisationen nutzen E-Mails, um für ihre Produkte zu werben. Web Scraping wird häufig verwendet, um E-Mail-IDs zu sammeln und anschließend Massennachrichten zu versenden.
  • Wird verwendet, um Informationen von Social-Media-Sites wie Twitter zu sammeln und herauszufinden, was los ist.
  • Web Scraping ist auch eine effiziente Methode, um enorme Datenmengen (Statistiken, allgemeine Informationen, Temperaturen usw.) von Websites zu sammeln, die untersucht und verwendet werden, um Umfrage für Website-Feedback oder F&E.

Ansätze für das Data Scraping

Das Internet ist ein riesiger Speicher für die Daten der Welt, egal ob es sich um Text, Medien oder Informationen in einem anderen Format handelt. Jede Seite zeigt Informationen in der einen oder anderen Form an. Der Zugriff auf diese Informationen ist für den Erfolg der meisten Unternehmen in der modernen Welt von entscheidender Bedeutung. Leider sind die meisten dieser Informationen nicht öffentlich zugänglich. Die meisten Websites bieten nicht die Möglichkeit, die angezeigten Informationen in Ihrem lokalen Speicher oder auf Ihrer eigenen Website zu speichern. Web Scraping kann mit einer der beiden folgenden Methoden durchgeführt werden:

  1. Scraping von Webdaten mit vorgefertigten Web-Scraping-Tools
  2. Web Scraping über Programmiersprachen

Beide Methoden sind je nach Situation, in der sie zum Einsatz kommen, recht praktisch. Wir werden in diesem Blog beide nacheinander durchgehen, um ein klares Verständnis dafür zu erhalten, welcher Ansatz in den jeweiligen Szenarien gewählt werden sollte.

Scraping von Daten über Web Scraping Tools

Web Scraping-Tools sind speziell für das Extrahieren von Daten aus Websites entwickelt. Sie werden auch als Web Scraping-Tools oder Web Data Extraction-Tools bezeichnet. Diese Tools sind für jeden nützlich, der versucht, Daten aus dem Internet zu sammeln. Web Scraping ist die neue Methode zur Datenübertragung, die kein mühsames Schreiben oder Kopieren und Einfügen erfordert.

Web-Scraping-Tools

1. Oktoparse
Octoparse ist ein Tool zum Scraping von Webdaten, das sowohl für Programmierer als auch für Nicht-Programmierer einfach zu verwenden ist und für das Scraping von E-Commerce-Daten bekannt ist. Es kann Webdaten in einem enormen Umfang (bis zu Millionen) scrapen und sie in strukturierten Dateien wie Excel, CSV, JSON zum Download speichern. Es bietet eine kostenlose Lösung für Benutzer und eine Testversion für kostenpflichtige Abonnements.
2. Scraping-Bot
Scraping-Bot.io ist ein leistungsfähiges Tool zum Scrapen von Informationen aus einer URL. Es bietet APIs, die auf Ihre Scraping-Anforderungen zugeschnitten sind: eine herkömmliche API zum Wiederherstellen des Raw-HTML einer Seite, eine API, die sich auf das Scrapen von Einzelhandels-Websites spezialisiert hat, und eine API zum Scrapen von Immobilienanzeigen von Immobilien-Websites.
3. xtract.io
xtract.io ist eine anpassbare Software zur Datenextraktion, die so angepasst werden kann, dass sie Webdaten, Social-Media-Beiträge, PDFs, Textarchive, Originaldaten und sogar E-Mails extrahiert und in ein konsumierbares, geschäftsorientiertes Format umwandelt.
4. Agentur
Agenty ist eine Robotic Process Automation-Software für Datenscraping, Textextraktion und OCR. Sie können damit mit nur wenigen Mausklicks einen Agenten erstellen. Diese Anwendung hilft Ihnen dabei, alle Ihre aufbereiteten Daten für Ihre Analyse wiederzuverwenden.
5. Import.io
Dieses Web Scraping Tool hilft Ihnen beim Aufbau Ihrer Datensätze, indem es die Daten von einer bestimmten Seite importiert und die Daten in CSV sendet. Es ist eines der besten Daten Scraping Tools, mit dem Sie Daten mithilfe von APIs und Webhooks in Anwendungen integrieren können.
6. Webhose.io
Webhose.io bietet direkten Zugriff auf strukturierte und aktuelle Daten zum Crawlen einer großen Anzahl von Websites. Sie können damit auf aufgezeichnete Feeds zugreifen, die Daten von über zehn Jahren abdecken.
7. Dexi Intelligent
Dexi clever ist ein Tool für Web Scraping, mit dem Sie unbegrenzte Webinformationen sofort in Geschäftswert umwandeln können. Es ermöglicht Ihnen, Kosten zu senken und spart Ihrem Unternehmen wertvolle Zeit.
8. ParseHub
ParseHub ist ein kostenloses Web Scraping-Tool. Mit diesem hochentwickelten Web Scrubber können Sie Daten ganz einfach extrahieren, indem Sie einfach auf die gewünschten Daten tippen. Es ist eines der besten Daten Scraping-Tools, mit denen Sie Ihre extrahierten Daten in jedem Format zur Analyse herunterladen können.
9. Datenstermer
Mit diesem Tool können Sie Social-Media-Inhalte aus dem gesamten Web abrufen. Es ist einer der besten Web-Scrubber, mit dem Sie mithilfe der Verarbeitung natürlicher Sprache wichtige Metadaten extrahieren können.
10. FMiner
FMiner ist ein weiteres bekanntes Tool für Web Scraping, Informationsextraktion, Slithering-Screen Scraping, großen Maßstab und Web-Support für Windows und Mac OS.
11. Content Grabber
Dies ist eine großartige Big-Data-Lösung für die zuverlässige Extraktion von Webdaten. Es ist eines der besten Web-Scraping-Tools, mit dem Sie Ihre Organisation skalieren können. Es bietet benutzerfreundliche Funktionen wie einen visuellen Point- und Snap-Manager.
12. Mozenda
Mit Mozenda können Sie Text, Bilder und PDF-Inhalte aus Webseiten extrahieren. Es ist einer der besten Web Scrapper, die Ihnen dabei helfen, Datendateien zu organisieren und für die Veröffentlichung vorzubereiten.

Scraping von Webdaten mithilfe von Programmiersprachen

Das Sammeln von Daten von Websites mithilfe einer automatisierten Interaktion wird als Web Scraping bezeichnet. Einige Websites verbieten es den Kunden ausdrücklich, ihre Daten mit automatisierten Instrumenten zu scrapen. Es gibt jedoch mehrere Möglichkeiten, solche Hindernisse zu überwinden und Ihren eigenen Web Scraper von Grund auf zu entwickeln. Hier ist eine Übersicht über die Techniken:

1. Crawlbase

Web-Scraping-Techniken

Die Crawlbase API ist eine der bekanntesten Web-Scraping-APIs, die Entwicklern und Organisationen dabei hilft, Websites sicher zu scrapen. Es bietet das HTML, das zum Scrapen von JavaScript-basierten Webseiten erforderlich ist, verwaltet automatisierte Browser, vermeidet manuelle menschliche Tests, z. B. CAPTCHAs, und übernimmt auch die Proxy-Verwaltung.

2 Handbuch

Manuelles Daten-Scraping

So beziehen die meisten normalen Benutzer Informationen aus dem Internet. Ihnen hat ein Artikel gefallen, also ordnen Sie ihn in einem Word-Dokument auf Ihrem Desktop neu an. Dies ist manuell und daher langsam und weniger effektiv. Außerdem funktioniert es für kleine Datenblöcke, die nur grundlegenden Inhalt enthalten. Wenn Sie Bilder und andere Arten von Informationen speichern möchten, funktioniert es möglicherweise nicht effektiv.

3. Reguläre Ausdrücke
In diesem Fall definieren Sie ein Muster oder einen Standardausdruck, den Sie in eine Textzeichenfolge integrieren möchten, und suchen dann in der Textzeichenfolge nach Übereinstimmungen. Dies wird häufig in Suchmaschinen verwendet. Wenn man Zeichenfolgeninformationen untersucht, werden Standardausdrücke zu einem wichtigen Faktor. Standardausdrücke sind ein grundlegendes Instrument und können Ihre grundlegenden Anforderungen erfüllen.

4. DOM-Analyse
Mithilfe von Webbrowsern können Programme auf die leistungsstarken Skripte zugreifen, die die clientseitigen Inhalte erstellt haben. Eine Baumstrukturdarstellung der analysierten Seiten kann ein Document Object Model (auch als DOM bekannt) sein, das beim Scraping von Daten dabei hilft, auf einen Teil der Seiten zuzugreifen. Um Ihnen ein Modell bereitzustellen, wird eine HTML- oder XML-Datei in DOM umgewandelt. DOM verbalisiert die Struktur der Datei und wie auf eine Datei zugegriffen werden kann. PHP bietet DOM-Erweiterung.

Nützliche Programmiersprachen zum Scrapen von Websitedaten

Programmiersprachen zum Scrapen von Daten

1. Web Scraping mit Python
Stellen Sie sich vor, Sie müssen eine Menge Informationen von Websites abrufen und das so schnell wie möglich. In diesem Szenario ist Web Scraping die geeignete Antwort. Web Scraping macht diese Arbeit einfach und schnell. In Python stehen Ihnen Beautiful Soup und andere Bibliotheken sowie Frameworks wie Scrapy zur Verfügung, die Ihnen beim Erreichen Ihrer Ziele helfen.

2. Web Scraping mit JavaScript/NodeJS:
JavaScript ist aufgrund der enormen Verbesserungen, die es erfahren hat, und der Einführung einer als NodeJS bekannten Laufzeitumgebung zu einer der beliebtesten und am häufigsten verwendeten Sprachen geworden. Unabhängig davon, ob es sich um eine Web- oder Mobilanwendung handelt, verfügt JavaScript jetzt über die richtigen Tools. Es bietet Unterstützung für mehrere APIs und Scraping-Bibliotheken, die beim Scraping von Webdaten helfen.

Dies sind nur zwei Beispiele für Programmiersprachen, die häufig für Web Scraping verwendet werden. Damit Sie besser verstehen, wie Sie einen Scraper von Grund auf erstellen können, haben wir unten eine kurze Anleitung vorbereitet.

Voraussetzungen für Web Scraping mit der Scrapy Crawlbase Middleware

  • URL der eBay-Produktseite
  • Erforderliche Bibliotheken und API-Integrationen in Python
  • Crawlbase API-Token

Verwenden Sie Scrapy und Crawlbase, um Daten von der Ebay-Produktseite zu scrapen

Wir erhalten den Code für unseren Haupt-Spider, indem wir die relevanten Module importieren, indem wir eine Datei „main.py“ im Ordner „/root/spiders“ erstellen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
für Scrapy_Crawlbase - Das ist eine Sammlung von Scrapy-Crawlbase-Dateien. importieren CrawlbaseAnfrage
importieren Schrott

Klasse EbayScraper(scrapy.Spider):
Name = 'ebay'
start_urls = ['https://www.ebay.com/itm/Lenovo-Legion-5-15-6-Gaming-120Hz-Ryzen-5-4600H-8GB-RAM-512GB-SSD-GTX-1660-Ti/303784270245']

def start_requests(selbst):
für URL in selbst.start_urls:
Ausbeute CrawlbaseRequest(
url,
Rückruf=selbst.parsen,
Gerät='Schreibtisch',
Land='UNS',
Seite_warten=1000,
ajax_wait=Wahre,
nicht_filtern=Wahre
)
# Ergebnis scrapy.Request(u, callback=self.parse)

def parsen(selbst, Antwort):
versuchen:
Name = Antwort.css(„h1.Produkttitel::Text“).get().strip()
Preis = Antwort.css(„div.Anzeige-Preis::Text“).get().ersetzen('$', '')
ausgeschlossen:
Name = Antwort.css('h1[id="Artikeltitel"]::Text').get().strip()
Preis = Antwort.css('span[itemprop="Preis"]::Text').erhalten()

# drucken('-' * 50, '\n')
# drucken('Produktname: ', Name)
# drucken('Produktpreis: ', Preis)
# drucken('\n ', '-' * 50)

Ausbeute {Name: Preis}

Dann haben wir ein optionales Skript in der Datei „items.py“ des Ordners „/root/items.py“, das hier die Modelle für Ihre Scraped Items definiert.

1
2
3
4
5
6
7
8
9
# Siehe Dokumentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

importieren Schrott

Klasse EbayscraperArtikel(scrapy.Artikel):
# Definieren Sie hier die Felder für Ihren Artikel wie:
# Name = scrapy.Feld()
passieren

Anschließend möchten wir die Scrapy-Middleware in der Datei „middlewares.py“ des Stammordners konfigurieren.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
# Siehe Dokumentation in:
# https://docs.scrapy.org/en/latest/topics/spider-middleware.html

für Schrott importieren Signale

# nützlich für die Handhabung verschiedener Artikeltypen mit einer einzigen Schnittstelle
für Artikeladapter importieren ist_Artikel, ArtikelAdapter

Klasse EbayscraperSpiderMiddleware:
# Nicht alle Methoden müssen definiert werden. Wenn eine Methode nicht definiert ist,
# Scrapy verhält sich so, als ob die Spider-Middleware die
# übergebene Objekte.

@klassenmethode
def von_crawler(cls, Raupen):
# Diese Methode wird von Scrapy zum Erstellen Ihrer Spider verwendet.
s = cls()
crawler.signals.connect(s.spider_opened, Signal=Signals.spider_opened)
Rückkehr s

def process_spider_input(selbst, Antwort, Spinne):
# Wird für jede Antwort aufgerufen, die durch den Spider geht
# Middleware und in die Spider.

# Sollte „None“ zurückgeben oder eine Ausnahme auslösen.
Rückkehr Keine

def Prozessspiderausgabe(selbst, Antwort, Ergebnis, Spinne):
# Wird mit den vom Spider zurückgegebenen Ergebnissen aufgerufen, nachdem
# es hat die Antwort verarbeitet.

# Muss ein iterierbares Objekt der Anforderung oder von Elementen zurückgeben.
für i in Ergebnis:
Ausbeute i

def process_spider_exception(selbst, Antwort, Ausnahme, Spinne):
# Wird aufgerufen, wenn eine Spider- oder process_spider_input()-Methode
# (von anderer Spider-Middleware) löst eine Ausnahme aus.

# Sollte entweder None oder ein Iterable von Request- oder Item-Objekten zurückgeben.
passieren

def Prozessstartanfragen(selbst, start_requests, Spider):
# Wird mit den Startanforderungen des Spiders aufgerufen und funktioniert
# ähnlich der Methode process_spider_output(), außer
# dass keine Antwort zugeordnet ist.

# Es dürfen nur Anfragen (keine Artikel) zurückgegeben werden.
für r in Startanfragen:
Ausbeute r

def Spinne_geöffnet(selbst, Spinne):
spider.logger.info(„Spinne geöffnet: %s“ % Spinnenname)

Klasse EbayscraperDownloaderMiddleware:
# Nicht alle Methoden müssen definiert werden. Wenn eine Methode nicht definiert ist,
# Scrapy verhält sich so, als ob die Downloader-Middleware die
# übergebene Objekte.

@klassenmethode
def von_crawler(cls, Raupen):
# Diese Methode wird von Scrapy zum Erstellen Ihrer Spider verwendet.
s = cls()
crawler.signals.connect(s.spider_opened, Signal=Signals.spider_opened)
Rückkehr s

def Anfrage verarbeiten(selbst, Anfrage, Spinne):
# Wird für jede Anfrage aufgerufen, die durch den Downloader geht
# Middleware.

# Muss entweder:
# - return None: Mit der Verarbeitung dieser Anfrage fortfahren
# - oder ein Response-Objekt zurückgeben
# - oder ein Request-Objekt zurückgeben
# - oder erhöhen Sie IgnoreRequest: process_exception() Methoden von
# installierte Downloader-Middleware wird aufgerufen
Rückkehr Keine

def Prozessantwort(selbst, Anfrage, Antwort, Spinne):
# Wird mit der vom Downloader zurückgegebenen Antwort aufgerufen.

# Muss entweder;
# - gibt ein Response-Objekt zurück
# - gibt ein Request-Objekt zurück
# - oder IgnoreRequest auslösen
Rückkehr Antwort

def Prozessausnahme(selbst, Anfrage, Ausnahme, Spinne):
# Wird aufgerufen, wenn ein Download-Handler oder ein process_request()
# (von anderer Downloader-Middleware) löst eine Ausnahme aus.

# Muss entweder:
# - return None: Mit der Verarbeitung dieser Ausnahme fortfahren
# - gibt ein Antwortobjekt zurück: stoppt die process_exception()-Kette
# - gibt ein Request-Objekt zurück: stoppt die process_exception()-Kette
passieren

def Spinne_geöffnet(selbst, Spinne):
spider.logger.info(„Spinne geöffnet: %s“ % Spinnenname)

Anschließend möchten wir die Element-Pipeline in der Datei „pipelines.py“ des Stammordners konfigurieren.

1
2
3
4
5
6
7
8
9
10
11
# Definieren Sie hier Ihre Artikel-Pipelines
#
# Vergessen Sie nicht, Ihre Pipeline zur ITEM_PIPELINES-Einstellung hinzuzufügen
# Siehe: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# nützlich für die Handhabung verschiedener Artikeltypen mit einer einzigen Schnittstelle
für Artikeladapter importieren Artikeladapter

Klasse EbayscraperPipeline:
def Prozesselement(selbst, Gegenstand, Spinne):
Rückkehr Artikel

Wir möchten dann Einstellungen für den Scraper in der Datei „settings.py“ des Stammordners haben, indem wir das Crawlbase-Token übergeben und den Scrapy-Spider konfigurieren.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
# Scrapy-Einstellungen für das EbayScraper-Projekt
#
# Der Einfachheit halber enthält diese Datei nur die Einstellungen, die als wichtig erachtet werden oder
# häufig verwendet. Weitere Einstellungen finden Sie in der Dokumentation:
#
# https://docs.scrapy.org/en/latest/topics/settings.html
# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
# https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'EbayScraper'

SPIDER_MODULES = [„EbayScraper.spiders“]
NEWSPIDER_MODULE = „EbayScraper.spiders“

# Crawlen Sie verantwortungsbewusst, indem Sie sich (und Ihre Website) im User-Agent identifizieren
#USER_AGENT = 'EbayScraper (+http://www.ihredomain.com)'

# Befolgen Sie die Robots.txt-Regeln
ROBOTSTXT_OBEY = Wahre

# Konfigurieren Sie die maximale Anzahl gleichzeitiger Anfragen, die von Scrapy ausgeführt werden (Standard: 16).
#AKTUELLE_ANFRAGEN = 32

# Konfigurieren Sie eine Verzögerung für Anfragen an die gleiche Website (Standard: 0)
# Siehe https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# Siehe auch Autothrottle-Einstellungen und -Dokumente
#DOWNLOAD_DELAY = 3
# Die Einstellung für die Download-Verzögerung berücksichtigt nur eines der folgenden Elemente:
#AKTUELLE_ANFRAGEN_PRO_DOMAIN = 16
#AKTUELLE_ANFRAGEN_PRO_IP = 16

# Cookies deaktivieren (standardmäßig aktiviert)
#COOKIES_ENABLED = Falsch

# Telnet-Konsole deaktivieren (standardmäßig aktiviert)
#TELNETCONSOLE_ENABLED = Falsch

# Die Standardanforderungsheader überschreiben:
#DEFAULT_REQUEST_HEADERS = {
# 'Akzeptieren': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
# 'Accept-Language': 'en',
#}

# Spider-Middlewares aktivieren oder deaktivieren
# Siehe https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
# 'EbayScraper.middlewares.EbayscraperSpiderMiddleware': 543,
#}

# Downloader-Middlewares aktivieren oder deaktivieren
# Siehe https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
# 'EbayScraper.middlewares.EbayscraperDownloaderMiddleware': 543,
#}

# Erweiterungen aktivieren oder deaktivieren
# Siehe https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
# 'scrapy.extensions.telnet.TelnetConsole': Keine,
#}

# Artikel-Pipelines konfigurieren
# Siehe https://docs.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
# 'EbayScraper.pipelines.EbayscraperPipeline': 300,
#}

# Aktivieren und konfigurieren Sie die AutoThrottle-Erweiterung (standardmäßig deaktiviert)
# Siehe https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = Wahr
# Die anfängliche Downloadverzögerung
#AUTOTHROTTLE_START_DELAY = 5
# Die maximale Downloadverzögerung, die bei hohen Latenzen eingestellt werden soll
#AUTOTHROTTLE_MAX_DELAY = 60
# Die durchschnittliche Anzahl der Anfragen, die Scrapy parallel senden soll an
# jeder Remote-Server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Aktivieren Sie die Anzeige von Drosselungsstatistiken für jede empfangene Antwort:
#AUTOTHROTTLE_DEBUG = Falsch

# HTTP-Caching aktivieren und konfigurieren (standardmäßig deaktiviert)
# Siehe https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = Wahr
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = "httpcache"
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"

# Scrapy-Crawlbase-Middleware

# Aktivieren Sie die Middleware
CRAWLBASE_ENABLED = Wahre

# Das Crawlbase API-Token, das Sie verwenden möchten, entweder ein normales oder ein Javascript-Token
# CRAWLBASE_TOKEN = "Ihr Token"
CRAWLBASE_TOKEN = 'IHR_TOKEN'

# Aktivieren Sie die Middleware
DOWNLOADER_MIDDLEWARES = {
„scrapy_crawlbase.CrawlbaseMiddleware“: 610
}

Ausgang

Wir führen jetzt den Befehl „scrapy crawl ebay“ im Terminal aus, um eine Ausgabe ähnlich der Abbildung unten zu erhalten.

Ausgang Ausgang

Dies war nur eine grundlegende Veranschaulichung der Macht von Scrapy Middleware von Crawlbase API-Aufrufe. Sie können Dinge aus verschiedenen Perspektiven ausprobieren und sehen, was in Ihrem Fall funktioniert.

Schlussfolgerung

Web Scraping bietet in verschiedenen Lebensbereichen zahlreiche Vorteile. Es kann Daten für Marketingzwecke, Kontaktinformationen, die Suche nach verschiedenen Produkten usw. extrahieren. Die Implementierung kann entweder eine codebasierte Lösung sein, die manuell von einer Person oder Organisation entwickelt wurde, oder die Nutzung verfügbarer Tools zum Scraping von Webdaten. Die wichtigsten Auswirkungen von Web Scraping sind mit neuen technologischen Entdeckungen unvergänglich.

Mit Crawlbasekönnen Sie das Internet crawlen und scrapen, um zahlreiche Arten von Daten zu erhalten, von Bildern, Testberichten, detaillierten Informationen zu Produkten und Dienstleistungen bis hin zu E-Mails, Telefonnummern und Adressen potenzieller Entwickler.