# Übertragen von Daten an die Crawler
Bevor Sie mit dem Pushen von URLs an die Crawlermüssen Sie zuerst erstelle eine neue Crawler Einer hier (öffnet neues Fenster).
Um URLs zu pushen, die von den Crawler, müssen Sie die verwenden Crawling API mit zwei zusätzlichen Parametern:
- Sie müssen anhängen
&callback=true
- Sie müssen anhängen
&crawler=YourCrawlerName
Verwenden Sie den Namen des Crawlers, den Sie erstellt haben HIER (öffnet neues Fenster).
In Antwort auf Ihren Crawler-Pushsendet die API eine JSON-Darstellung mit einer eindeutigen Anforderungskennung (RID) zurück. Diese RID ist eindeutig und hilft Ihnen, die Anforderung in Zukunft jederzeit zu identifizieren.
Beispiel einer Push-Antwort:
{ "rid": "1e92e8bff32c31c2728714d4" }
Standardmäßig können Sie bis zu 30 URLs pro Sekunde an die Crawler.
# Crawler Warteschlangenlimit
Die Gesamtsumme aller Crawler Warteschlangen sind auf 1 Million Seiten begrenzt. Wenn eine oder alle Warteschlangen zusammen mehr als 1 Million Seiten umfassen, Crawler Push wird vorübergehend pausiert und wir benachrichtigen Sie per E-Mail. Crawler Der Push-Vorgang wird automatisch fortgesetzt, sobald die Anzahl der Seiten in der Warteschlange (den Warteschlangen) unter 1 Million liegt.
# Übermittlung zusätzlicher Daten
Optional können Sie benutzerdefinierte Header für Ihren Rückruf erhalten, wenn Sie den callback_headers
Parameter. Das ist ideal, um zusätzliche Daten zu Identifikationszwecken an Ihre Seite weiterzugeben.
Das Format ist das folgende: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
Und es muss richtig codiert sein.
Beispiel für Header und Werte MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Diese Header werden in der Webhook-Post-Anfrage zurückgegeben.