Unternehmen, die die Nase vorn behalten und intelligentere Entscheidungen treffen möchten, sind mehr denn je auf Webdaten angewiesen. Crawlbase macht dies einfach mit leistungsstarken Tools für Web Scraping. Eines seiner besten Produkte, die Crawlbase Crawlerhilft Ihnen, Daten asynchron zu erfassen, ohne auf die Antwort warten zu müssen. Sie können URLs an das Gerät senden, indem Sie Crawlbase Crawling API, und anstatt zu warten oder ständig auf Ergebnisse zu prüfen, Crawler sendet die Scraped-Daten automatisch per Webhook an Ihren Server – alles in Echtzeit. Das bedeutet schnellere Datenerfassung mit weniger Aufwand.
In diesem Blog werfen wir einen genaueren Blick auf die Crawlbase Crawler und wie die asynchrone Verarbeitung und die Webhook-Integration groß angelegtes Web Scraping reibungslos und problemlos machen. Am Ende dieses Blogs werden Sie verstehen, wie Sie Crawlbase Crawler effektiv.
Hier ist ein ausführliches Video zur Verwendung Crawlbase Crawler:
Erstellen der Crawlbase Crawler
So verwenden Sie die Crawler, müssen Sie es zuerst aus Ihrem Crawlbase Konto-Dashboard. Je nach Bedarf können Sie zwei Arten von Crawler, TCP oder JavaScript. Verwenden Sie TCP Crawler um statische Seiten zu crawlen. Verwenden Sie das JS Crawler wenn der Inhalt, den Sie crawlen müssen, über JavaScript generiert wird, entweder weil es sich um eine mit JavaScript erstellte Seite handelt (React, Angular usw.) oder weil der Inhalt dynamisch im Browser generiert wird.
Für das Beispiel erstellen wir einen TCP-Crawler aus dem Dashboard.

So erstellen Sie ein Crawler, entweder müssen wir einen Webhook erstellen oder wir können verwenden Crawlbase Cloud StorageWenn Sie keinen eigenen Webhook erstellen und Daten speichern möchten, Crawler erzeugt sicher, Crawlbase bietet eine nahtlose Lösung durch seine Crawlbase Cloud Storage.

Durch die Einrichtung Ihres Crawler Mit dem Storage-Webhook-Endpunkt können Sie Ihre gecrawlten Daten sicher und mit mehr Privatsphäre und Kontrolle speichern – ohne sich um Speicherlimits sorgen zu müssen. Wählen Sie dazu einfach den Crawlbase Storage Option beim Erstellen Ihrer Crawler.
Wenn Sie es vorziehen, nicht zu verwenden Crawlbase Storagekönnen Sie Ihren eigenen Webhook-Endpunkt angeben, um die Daten direkt zu empfangen. Die folgenden Schritte erklären, wie Sie einen Webhook erstellen, der Crawlbase CrawlerAnforderungen mit Hilfe der Python Django-Framework.
1. Erstellen eines Webhooks
A Webhook ist ein HTTP-basierter Rückrufmechanismus, der es einem System ermöglicht, Echtzeitdaten an ein anderes zu senden, wenn ein bestimmtes Ereignis eintritt. Im Fall von Crawlbase Crawler Webhook sollte …
- Öffentlich erreichbar sein von Crawlbase Server
- Seien Sie bereit, POST-Anrufe zu empfangen und innerhalb von 200 ms zu antworten
- Antworten Sie innerhalb von 200 ms mit einem Statuscode 200, 201 oder 204 ohne Inhalt
Lassen Sie uns einen einfachen Webhook zum Empfangen von Antworten im Python Django-Framework erstellen. Stellen Sie sicher, dass Sie Python und Django installiert. Um einen einfachen Webhook-Empfänger mit Django in Python zu erstellen, folgen Sie diesen Schritten:
STEP 1
Erstellen Sie mit den folgenden Befehlen ein neues Django-Projekt und eine neue App:
1 | # Befehl zum Erstellen des Projekts: |
STEP 2
Erstellen Sie im Verzeichnis webhook_app eine Datei views.py und definieren Sie eine Ansicht zum Empfangen der Webhook-Daten:
1 | # webhook_app/views.py |
Die webhook_receiver Funktion ist dekoriert mit @csrf_exempt um externen Diensten das Senden von Daten ohne CSRF-Schutz zu ermöglichen. Es versucht, Gzip-kodierte Daten aus dem Anfragetext zu dekomprimieren und dekodiert sie, wenn erfolgreich, (vermutlich HTML) in eine Zeichenfolge. Die Daten werden dann an eine Datei namens webhook_data.txt.
Während dieses Beispiel die Dinge vereinfacht, indem das extrahierte HTML in einer einzelnen Datei gespeichert wird, können Sie in der Praxis bei Bedarf alle Arten von Daten aus dem über den Webhook empfangenen HTML extrahieren und verarbeiten.
STEP 3
Konfigurieren Sie das URL-Routing. Bearbeiten Sie im Verzeichnis „webhook_project“ die Datei „urls.py“, um ein URL-Muster für den Webhook-Empfänger hinzuzufügen:
1 | # webhook_project/urls.py |
STEP 4
Starten Sie den Django-Entwicklungsserver, um den Webhook-Empfänger zu testen:
1 | # Befehl zum Starten des Servers |
Die App wird auf dem Localhost-Port 8000 ausgeführt.

Nachdem wir einen Webhook erstellt haben, müssen wir ihn als Nächstes im Internet öffentlich verfügbar machen.
Um dies für dieses Beispiel zu tun, verwenden wir Ngrok. Da unser Webhook auf dem lokalen Host mit Port 8000 läuft, müssen wir ngrok auf Port 8000 ausführen.

Nachdem wir ngrok auf Port 8000 ausgeführt haben, können wir sehen, dass ngrok eine öffentliche Weiterleitungs-URL bereitstellt, die wir zum Erstellen des Crawlers verwenden können. Mit der kostenlosen Version von ngrok läuft dieser Link nach 2 Stunden automatisch ab.
Erstellen Crawlbase Crawler mit Webhook
Erstellen wir nun einen Crawler aus Dashboard.

Beginnen Sie damit, dass Sie Crawler einen eindeutigen Namen, wie in unserem Fall „Test-Crawler“, und geben Sie Ihre Webhook-URL in der Rückrufoption an. In diesem Beispiel ist die Webhook-URL eine öffentliche Ngrok-Weiterleitungs-URL, gefolgt von der Webhook-Routenadresse.
Übertragen von URLs auf die Crawler
Nachdem Sie den Test-Crawler erstellt haben, besteht der nächste Schritt darin, die URLs zu pushen, die gecrawlt werden sollen. Dazu benötigen Sie die Crawlbase Crawling API, zusammen mit zwei zusätzlichen Parametern: crawler=YourCrawlerName mit einem callback=true. Standardmäßig können Sie bis zu 30 URLs pro Sekunde an die CrawlerWenn Sie dieses Limit erhöhen müssen, können Sie eine Änderung beantragen, indem Sie Kontakt aufnehmen mit Crawlbase Kunden-Support.
Hier ist ein Beispiel in Python, das die Crawlbase Python-Bibliothek zum Weiterleiten von URLs an die Crawler.
1 | # So installieren Sie die Crawlbase-Bibliothek |
Nach dem Ausführen des Codes wird die Crawling API sendet alle URLs an die Crawler Warteschlange.
Beispielausgabe:
1 | b'{"rid":"d756c32b0999b1c0507e364f"}' |
Für jede URL, die Sie an die Crawler Verwendung der Crawling APIerhalten Sie eine RID (Request ID). Mit dieser RID können Sie Ihre Anfrage verfolgen. Sobald die Crawler verarbeitet die HTML-Daten, werden diese automatisch an den Webhook gesendet, den Sie beim Erstellen des Crawler, wodurch der Prozess asynchron bleibt.
Die Crawler bietet APIs, mit denen Sie verschiedene Aktionen ausführen können, z. B. Suchen, Löschen, Anhalten, Fortsetzen usw. Weitere Informationen finden Sie unter werden auf dieser Seite erläutert.
Hinweis: Die Gesamtseitenzahl aller Crawler Warteschlangen sind auf 1 Million begrenzt. Wenn die Warteschlangen insgesamt diese Grenze überschreiten, Crawler Push wird vorübergehend angehalten und Sie werden per E-Mail benachrichtigt. Der Push wird automatisch fortgesetzt, sobald die Anzahl der Seiten in der Warteschlange unter 1 Million fällt.
Empfangen von Daten vom Crawler
Nach dem Senden der URLs an die Crawler, Crawler crawlen die mit jeder URL verknüpfte Seite und pushen die Antwort mit gecrawltem HTML als Body zum Webhook.
1 | Headers: |
Das Standardformat der Antwort ist HTML. Wenn Sie eine Antwort im JSON-Format erhalten möchten, können Sie einen Abfrageparameter „format=json“ übergeben mit Crawling API beim Übertragen von Daten an die CrawlerDie JSON-Antwort sieht folgendermaßen aus
1 | Headers: |
Da wir nur 3 URLs an die Crawler im vorherigen Beispiel erhielten wir 3 Anfragen von Crawler auf unserem Webhook.

Wie in der webhook_receiver Funktion haben wir codiert, um den Anforderungstext in einem .txt Datei. Wir können den gesamten HTML-Inhalt in dieser Datei wie folgt sehen.

Sobald Sie das HTML an Ihrem Webhook haben, können Sie je nach Bedarf alles daraus extrahieren.
Wichtiger Hinweis: Sie können die Webhook-URL für Ihre Crawler jederzeit über Ihre Crawlbase Dashboard. Wenn die Crawler sendet eine Antwort an Ihren Webhook, aber Ihr Server gibt keine erfolgreiche Antwort zurück, Crawler versucht automatisch erneut, die Seite zu crawlen und die Zustellung erneut zu versuchen. Diese Wiederholungsversuche werden als erfolgreiche Anfragen gezählt und in Rechnung gestellt. Wenn Ihr Webhook ausfällt, wird außerdem der Crawlbase Überwachungsbot erkennt es und pausiert die Crawlerdem „Vermischten Geschmack“. Seine Crawler wird fortgesetzt, sobald der Webhook wieder online ist. Für Änderungen an diesen Einstellungen können Sie sich an Crawlbase technischer Support.
Für ein umfassenderes Verständnis siehe Crawlbase Crawler Dokumentation.
Erweiterte Callback-Funktionalität mit benutzerdefinierten Headern
Zusätzlich zum Standard-Rückrufmechanismus Crawlbase bietet eine optionale Funktion, mit der Sie benutzerdefinierte Header über den Parameter „callback_headers“ erhalten. Diese Erweiterung ermöglicht Ihnen die Weitergabe zusätzlicher Daten zu Identifikationszwecken und ermöglicht so eine personalisiertere und effizientere Integration in Ihre Systeme.
Benutzerdefiniertes Header-Format:
Das Format für benutzerdefinierte Header ist wie folgt:
HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|and-so-on
Für eine reibungslose Datenübertragung und -interpretation ist die Gewährleistung einer korrekten Kodierung von entscheidender Bedeutung.
Anwendungsbeispiel
Für diese Header- und Wertepaare { „id“: 123, Typ: „etc“ }
&callback_headers=id%3A123%7Ctype%3Aetc
Empfangen von Kundenkopfzeilen
Crawler sendet alle benutzerdefinierten Header im Header-Abschnitt der Antwort. Sie können zusammen mit Ihren gecrawlten Daten problemlos darauf zugreifen.
1 | Headers: |
Mit diesem Upgrade haben Sie jetzt mehr Flexibilität und Kontrolle über die Informationen, die Sie durch Rückrufe erhalten. Durch die Nutzung benutzerdefinierter Header können Sie die Rückrufdaten an Ihre spezifischen Anforderungen anpassen, sodass die Anpassung unserer Dienste an Ihre individuellen Bedürfnisse einfacher denn je ist.
Fazit
Crawlbase Crawler bietet eine robuste und effiziente Lösung für Web-Crawling und Data Scraping. Mit seinen leistungsstarken asynchronen Funktionen Crawlbase hilft Unternehmen, schnell große Datenmengen zu erfassen, Echtzeit-Updates zu erhalten und den Datenextraktionsprozess reibungslos zu verwalten. Crawlbase Crawler ist ein beliebtes Tool für Unternehmen, die große Datenmengen extrahieren müssen und das ihnen hilft, in der schnelllebigen digitalen Welt von heute die Nase vorn zu behalten.
Das heißt, während Crawlbase Crawler ist ein leistungsstarkes Tool, dessen verantwortungsvoller Einsatz unerlässlich ist. Stellen Sie immer sicher, dass Sie die Nutzungsbedingungen der Website einhalten, ethische Scraping-Praktiken befolgen und die Richtlinien für eine verantwortungsvolle Datenextraktion respektieren. Auf diese Weise können wir alle zu einem gesunden und nachhaltigen Web-Ökosystem beitragen. Lassen Sie uns das Beste aus dem Web machen – verantwortungsvoll und effektiv.
Häufig gestellte Fragen (FAQ)
F: Was sind die Vorteile der Verwendung von Crawlbase Crawler?
- Wirkungsgrad: Der CrawlerDie asynchronen Funktionen von ermöglichen eine schnellere Datenextraktion von Websites und sparen so wertvolle Zeit und Ressourcen.
- Benutzerfreundlich: Mit seinem benutzerfreundlichen Design ist das Crawler vereinfacht das Pushen von URLs und den Empfang gecrawlter Daten über Webhooks.
- Skalierbarkeit: Der Crawler kann große Datenmengen effizient verarbeiten und ist daher ideal für das Scraping umfangreicher Websites und die Verarbeitung umfangreicher Datensätze.
- Echtzeit-Updates: Durch die Einstellung der Scrollzeit-Variable können Sie steuern, wann die Crawler sendet die gescrapte Website zurück und ermöglicht Echtzeitzugriff auf die aktuellsten Daten.
- Datengesteuerte Entscheidungsfindung: Der Crawler gibt Benutzern wertvolle Einblicke in Webdaten und unterstützt sie so bei der datengesteuerten Entscheidungsfindung und der Erzielung von Wettbewerbsvorteilen.
F: Wie geht das? Crawlbase Crawler Web Scraping asynchron machen?
Crawlbase Crawler macht Web Scraping asynchron, indem es Benutzern ermöglicht, URLs an die Crawler und weiterarbeiten, ohne auf den Abschluss des Scraping-Prozesses warten zu müssen. Wenn Sie URLs übermitteln, Crawler fügt sie einer Warteschlange hinzu und verarbeitet sie im Hintergrund. Es gibt eine Request-ID (rid) anstelle der Scraped-Daten zurück, sodass Sie den Fortschritt verfolgen können, während die Crawler funktioniert. Sobald die Daten bereit sind, werden sie automatisch an Ihren angegebenen Webhook gesendet, sodass Sie die Ergebnisse erhalten, ohne auf den Abschluss des Scrapings warten zu müssen. Dieser asynchrone Ansatz beschleunigt den Prozess und verbessert die Effizienz.
F: Muss ich Python verwenden, um die Crawlbase Crawler?
Nein, Sie müssen nicht ausschließlich Python verwenden, um die Crawlbase Crawlerdem „Vermischten Geschmack“. Seine Crawler bietet mehrere Bibliotheken für verschiedene Programmiersprachen, sodass Benutzer in ihrer bevorzugten Sprache damit interagieren können. Egal, ob Sie mit Python, JavaScript, Java, Ruby oder anderen Programmiersprachen vertraut sind, Crawlbase hat Sie abgedeckt. Zusätzlich, Crawlbase bietet APIs, die Benutzern den Zugriff auf die Crawlers-Funktionen, ohne auf bestimmte Bibliotheken angewiesen zu sein, und ist damit für eine breite Palette von Entwicklern mit unterschiedlichen Sprachpräferenzen und technischen Hintergründen zugänglich. Diese Flexibilität stellt sicher, dass Sie die Crawler in Ihre Projekte und Arbeitsabläufe integrieren und dabei die Sprache verwenden, die Ihren Anforderungen am besten entspricht.












