# Parameter
Die API enthält folgende Parameter, Das Token und die URL sind obligatorisch, der Rest ist fakultativ.
# Zeichen
- erforderlich
- Typ
string
Dieser Parameter ist für alle Äpfel obligatorisch
Sie müssen Ihr Konto authentifizieren. Sie verfügen über zwei Jetons: eine für normale Anforderungen und eine weitere für JavaScript-Anforderungen.
Verwenden Sie JavaScript, damit der Inhalt, den Sie im Explorer benötigen, über JavaScript generiert wird, da eine Seite mit JavaScript erstellt wurde (React, Angular usw.), sodass der Inhalt teilweise dynamisch generiert wird Navigator.
Jeton normal
_USER_TOKEN_
Jeton JavaScript
_JS_TOKEN_
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- erforderlich
- Typ
string
Dieser Parameter ist für alle Äpfel obligatorisch
Sie benötigen eine Explorer-URL. Stellen Sie sicher, dass Sie mit http oder https beginnen und so weiter est complet code.
Zum Beispiel in der folgenden URL: https://github.com/crawlbase?tab=repositories Die URL lautet wie folgt: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Format
- fakultativ
- Typ
string
Geben Sie das Format der Antwort an json or html. Der Standardwert ist html.
Si-Format html wird eingesetzt, Crawlbase Sie erhalten die Parameter für die Reaktion am Kopf (siehe HTML-Antwort unten).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# ziemlich
- fakultativ
- Typ
boolean
Wenn Sie an einem teilnehmen json Antwort: Sie können die Zuverlässigkeit und den Nutzen optimieren &pretty=true.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- fakultativ
- Typ
string
Wenn Sie die Anfrage mit einem von Ihnen beauftragten Mitarbeiter erfüllen möchten, können Sie den Sender hierher bringen und uns den Sender an die angeforderte URL senden.
Wir empfehlen nicht Nutzen Sie diese Parameter und nutzen Sie unsere künstliche Intelligenz.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Seite_warten
- fakultativ
- Typ
number
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen page_wait Parameter, um eine Menge zu erhalten Millisekunden Bevor der Navigator den resultierenden HTML-Code erfassen muss.
Dies ist nützlich, wenn Sie die Seite nur wenige Sekunden lang öffnen oder ein Ajax-Dokument erstellen, bevor Sie das HTML erfassen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- fakultativ
- Typ
boolean
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen ajax_wait Parameter für die Teilnahme an der Ajax-Anforderung, bevor Sie die HTML-Antwort erhalten.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# CSS-Klickselektor
- fakultativ
- Typ
string
# Einzelner CSS-Selektor
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen css_click_selector Parameter, die es ermöglichen, auf ein Element der Seite zu klicken, bevor der Navigator den resultierenden HTML-Code erfassen muss.
Dieser Parameter akzeptiert einen ausgewählten und gültigen CSS-Inhalt. Beispielsweise können Sie einen ID-Wähler verwenden #some-button, ein Klassenwähler wie ich .some-other-button, oder ein Attributwähler, den Sie benötigen [data-tab-item="tab1"]Es ist wichtig, sicherzustellen, dass die CSS-Auswahl ein Korrekturcode ist, um Fehler zu vermeiden.
Bitte beachten Sie, dass der Auswähler nicht auf der Seite gefunden werden kann, da die Anforderung mitgeteilt wird pc_status 595. Um eine Antwort von mir zu erhalten, wenn ein Auswähler nicht gefunden wurde, können Sie einen universellen Auswähler hinzufügen body, als Sicherheitslösung. Zum Beispiel: #some-button,body.
# Mehrere CSS-Selektoren
Um die Szenarien in den Lesquels aufzuladen, müssen Sie möglicherweise auf zusätzliche Elemente klicken, die nacheinander ausgeführt werden müssen, bevor Sie den Inhalt der Seite erfassen css_click_selector Der Parameter kann möglicherweise zusätzlich zur CSS-Auswahl akzeptiert werden. Trennen Sie die Auswahl jedes einzelnen Geräts (|) Charakter. Stellen Sie sicher, dass der gesamte Wert, einschließlich der Separatoren, auf einer URL codiert ist, um alle Analyseprobleme zu vermeiden.
Angenommen, Sie müssen auf eine Taste mit der ID klicken start-button Und Sie können ein Pfandrecht an der Klasse haben next-page-link. Sie bauen Ihre css_click_selector Parameter wie folgt:
- Ursprüngliche Auswahl:
#start-button|.next-page-link - URL-Code:
%23start-button%7C.next-page-link
Fügen Sie diesen Parameter zu Ihrer API-Anfrage hinzu, um zu gewährleisten, dass sich die beiden Elemente in der angegebenen Bestellung zusammenschließen.
Stellen Sie sicher, dass alle vier ausgewählten Personen auf der Seite gültig und angezeigt werden, um Fehler zu vermeiden. Wenn Sie die Auswahl nicht gefunden haben, müssen Sie die von Ihnen angegebene Fehlermeldung erhalten, die angezeigt wird pc_status 595 Meiner Meinung nach ist ein Sicherheitswähler nicht inklusive.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Gerät
- fakultativ
- Typ
string
Wenn Sie den user_agent nicht spezifizieren möchten, aber die Anforderungen für ein bestimmtes Gerät erhalten möchten, können Sie diesen Parameter verwenden.
Es stehen Ihnen zwei Optionen zur Verfügung: desktop et mobile.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- fakultativ
- Typ
boolean
Wenn Sie optional die Cookies erhalten möchten, die die Website ursprünglich für die Antwort bestimmt hat, können Sie sie nutzen. &get_cookies=true Rahmen.
Die Cookies werden vor Ort angezeigt (oder in der JSON-Antwort, wenn Sie sie verwenden). &format=json) wie original_set_cookie.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_headers
- fakultativ
- Typ
boolean
Wenn Sie optional die Website nutzen möchten, auf der die ursprüngliche Website bestimmt ist, können Sie sie nutzen. &get_headers=true Rahmen.
Les en-têtes reviendront dans la réponse sous la forme original_header_name per défaut. &format=json Es ist passé, l'en-tête reviendra comme original_headers.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Anforderungsheader
- fakultativ
- Typ
string
Optional können Sie diese nutzen, wenn Sie Anfragen an die ursprüngliche Website senden &request_headers=EncodedRequestHeaders Rahmen.
Beispiele für Anfragen: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung: gzip
Beispielcode: &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip
Bitte beachten Sie, dass die API keine Genehmigung für alle Anfragen erteilt hat. Wir empfehlen Ihnen, den Tester über diese Test-URL zu testen: https://postman-echo.com/headers
Wenn Sie zusätzliche Mitarbeiter beauftragen, die nicht von der API autorisiert wurden, bitten wir Sie, die Namen der Mitarbeiter und unsere Bevollmächtigten für Ihr Anliegen zu prüfen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Cookies setzen
- fakultativ
- Typ
string
Wenn Sie die Cookies auf der Original-Webseite gesendet haben, können Sie sie optional nutzen &cookies=EncodedCookies Rahmen.
Beispiele für Cookies: key1=value1; key2=value2; key3=value3
Beispielcode: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Wir empfehlen Ihnen, die gesendeten Cookies unter Verwendung dieser Test-URL zu testen: https://postman-echo.com/cookies
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_sitzung
- fakultativ
- Typ
string
Wenn Sie die Kekse absenden müssen, die Sie bei Bedarf für alle anderen Äpfel benötigen, können Sie sie nutzen &cookies_session= Rahmen.
Raum &cookies_session= Der Parameter kann keinen Wert haben. Senden Sie einfach einen neuen Wert, um eine neue Cookie-Sitzung zu erstellen (es ist Ihnen nicht gestattet, Cookies von den nachfolgenden API-Appeln mit diesem Cookie-Sitzungswert zu senden). Der Wert kann maximal 32 Zeichen enthalten und die Sitzungen dauern 300 Sekunden nach dem letzten Aufruf der API.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Screenshot
- fakultativ
- Typ
boolean
Wenn Sie die verwenden Jeton JavaScript, Sie könnten eventuell vorbeikommen &screenshot=true Parameter, um eine Aufnahme des Bildschirms zu erhalten JPEG Format der gesamten untersuchten Seite.
Crawlbase je vous renverrai le screenshot_url In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json). Die screenshot_url läuft innerhalb einer Stunde ab.
Hinweis: Wenn Sie die verwenden screenshot=true Parameter, Sie können die Art der Erfassung des Bildschirms mit diesen zusätzlichen Parametern personalisieren:
mode: MehrviewportFür die Erfassung ist das Fenster anstelle der gesamten Seite einzigartig. Der Standardwert istfullpage.width: Geben Sie die maximale Pixelgröße an (einzigartige Funktion mitmode=viewport). Der Standardwert ist größer als der Bildschirm.height: Geben Sie die maximale Auflösung in Pixeln an (einzigartige Funktion mitmode=viewport). Der Standardwert ist die höchste Qualität des Geräts.
Beispiel: &screenshot=true&mode=viewport&width=1200&height=800
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Shop an
- fakultativ
- Typ
boolean
Auf Option setzen &store=true Parameter zum Speichern einer Kopie der API-Antwort in der Datei Crawlbase Cloud Storage (öffnet ein neues Fenster) (öffnet neues Fenster).
Crawlbase je vous renverrai le storage_url In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Schaber
- fakultativ
- Typ
string
Senden Sie die analysierten Informationen nur dann, wenn der Schaber spezifiziert ist. Überprüfen Sie den Inhalt Liste aller verfügbaren Schaber (ein neues Fenster) (öffnet neues Fenster) Liste aller verfügbaren Schaber, die Sie auswählen können.
Die Antwort wird im JSON-Format zurückgegeben.
Achtung: Scraper ist ein optionaler Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um die Scraper-Library aufzurufen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# async
- fakultativ
- Typ
boolean - Derzeit ist LinkedIn.com mit diesem Parameter kostenpflichtig. Kontaktieren Sie uns, wenn Sie andere Domains im asynchronen Modus benötigen.
Auf Option setzen &async=true Parameter, mit denen Sie die URL nach asynchroner Funktion durchsuchen können. Crawlbase Speichern Sie die angezeigte Seite dort Crawlbase Cloud Storage (öffnet ein neues Fenster) (öffnet neues Fenster).
Nach einem Anruf mit async=true, Crawlbase Sie erhalten die Identität der Nachfrage rid in der json-Antwort. Sie müssen das RID aufbewahren, um das Dokument aus der Lagerhaltung abzurufen. Mit dem RID können Sie Ihr eigenes Bad nutzen Cloud Storage (öffnet ein neues Fenster) (öffnet neues Fenster) um das Seitenergebnis wiederherzustellen.
Sie können das verwenden async=true Parameter und Kombination mit anderen API-Parametern wie zum Beispiel &async=true&autoparse=true.
Beispiel einer Anfrage mit async=true Forderung:
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Beispiel einer Antwort mit async=true Forderung:
{ "rid": "1e92e8bff32c31c2728714d4" }
# automatische Analyse
- fakultativ
- Typ
boolean
Optional können Sie, wenn Sie die von Ihnen angeforderten zusätzlichen Daten von der Seite erhalten möchten, diese weitergeben &autoparse=true Rahmen.
Die Antwort wurde auf das JSON-Format übertragen. Die Struktur der Antwort hängt von der URL ab, die Sie erhalten haben.
Achtung: &autoparse=true Es handelt sich um einen optionalen Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um ihn wieder freizugeben.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# Land
- fakultativ
- Typ
string
Wenn Sie möchten, dass Sie nach einer bestimmten geografischen Lage suchen, können Sie diese nutzen &country= Parameter, wie &country=US (Code zahlt à deux caractères).
Sie müssen sich mit der Spezifizierung eines Zahlungsmittels begnügen, um die Anzahl der von Ihnen erhaltenen Russen zu reduzieren, und nutzen Sie dabei die Urteilskraft und Einzigartigkeit, da Geolokalisierungserkundungen nicht erforderlich sind.
Beachten Sie auch, dass bestimmte Websites wie Amazon über verschiedene spezielle Proxys erreichbar sind und dass alle Pays nicht autorisiert sind, wenn sie dort sind oder nicht auf der Liste stehen.
Sie haben Zugang zu weiteren Zahlungsmitteln
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_netzwerk
- fakultativ
- Typ
boolean
Wenn Sie Web Onion auf der Website erkunden möchten, können Sie diese durchsuchen &tor_network=true Rahmen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# blättern
- fakultativ
- Kategorie:
boolean
Die automatische Bereinigung kann dazu führen, dass der Inhalt einer Seite während einer Navigationssitzung dynamisch geladen wird. Wird mit JavaScript verwendet.
Parameter
scroll=true:Erlaube die Verunreinigung.scroll_interval:Entier (Sekunden). Definit la durée defilement. Nach dem Aufladen der Seite. Standard:10Maximal:60.
Beispiel: &scroll=true&scroll_interval=20
Verhalten
Wenn
scroll=trueEs ist definitiv so, dass die API die URL in einem Navigator speichert und die Seite durch die Programmierung einfach defiliertscroll_intervalSekunden, um die Ladung dynamischer Inhalte zu entleeren (z. B. unendliche Verunreinigung).Nach der Verunreinigung wird der Inhalt erfasst und weitergeleitet.
If
scroll_intervalEs ist definitiv nicht der Fall, der Standardwert beträgt 10 Sekunden.
Billing
Die aufgrund von Beeinträchtigungen aktivierten Anforderungen werden im Rahmen der Zeitarbeit für die Gesamtkosten des Servers gestellt:
Ursprüngliche Unité de facturation:
Jedes Projekt wird von uns vergütet
scroll=trueDie API-App ist eine Fabrik 1 Anfrage, bedecke den Ersten 8 Sekunden Die gesamte Dauer des Verstoßes besteht aus der Belastung und der Beeinträchtigung der Seite.Zusätzliche Produktionseinheiten:
Für jedes 5 Sekunden zusätzliche du temps de traitement au delà de 8 premières seconds, 1 Demande facturée supplémentaire hinzugefügt.
- Rechenbeispiel:
- Laufzeit: 20 Sekunden
- 1 Anforderung für 8 Premierensekunden
- +1 erforderlich für die Sekunden 9 bis 13
- +1 erforderlich für die Sekunden 14 bis 18
- +1 Demande Facturée (19–20 s, dieser Bruchteil ist Fakturée wie ein vollständiger Block)
- Insgesamt gefertigt: 4 Anfragen
- 1 Anforderung für 8 Premierensekunden
- Wenn der Prozess vor dem Verunreinigungsintervall abgeschlossen ist, müssen nur die Zeiträume der Verunreinigung in Kraft treten.
Bemerkungen
Maximal autorisiertes Verschmutzungsintervall Es dauert 60 Sekunden. Nach 60 Sekunden wird die Verunreinigung abgerissen und die Données werden zurückgewiesen.
Verbindungszeiten: Wenn Sie
scroll_interval=60, Warten Sie etwa 90 Sekunden, bis die Client-Verbindung hergestellt ist.Spezifische Ablauffrist auf der Website: Bestimmte Domänen erfordern möglicherweise eine Wartezeit für den Server und werden automatisch aktiviert.
scrollmitpage_waitMöglicherweise erhöhen sich die Zeitspannen des gesamten Merkmals und die Herstellung wird beeinträchtigt.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# benutzerdefinierte Erfolgscodes
- fakultativ
- Typ
string
Sie können HTTP-Personalisierte Staatscodes spezifizieren, die Eigenschaften wie die russischen Antworten haben, und die neuen vorläufigen Informationen vollständig entfernen und den Ursprungscode des Staates in der Antwort beibehalten.
Verwendung: custom_success_codes=403,429,503
Dieser Parameter ist nützlich, wenn Sie Domains auswählen, die nicht dem Standard entsprechende Codes (z. B. 403 oder 500) erteilen und dabei über die Verwendung für Ihre spezifischen Verwendungszwecke nachdenken.
Hinweis: Durch die Verwendung dieses Parameters übernehmen Sie die Verantwortung für die Definition, die eine zuverlässige Antwort auf Ihre Anforderungen darstellt.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"