# Parameter
Die API enthält folgende Parameter, Das Token und die URL sind obligatorisch, der Rest ist fakultativ.
# Zeichen
- erforderlich
- Typ
string
Dieser Parameter ist für alle Äpfel obligatorisch
Sie müssen Ihr Konto authentifizieren. Sie verfügen über zwei Jetons: eine für normale Anforderungen und eine weitere für JavaScript-Anforderungen.
Verwenden Sie JavaScript, damit der Inhalt, den Sie im Explorer benötigen, über JavaScript generiert wird, da eine Seite mit JavaScript erstellt wurde (React, Angular usw.), sodass der Inhalt teilweise dynamisch generiert wird Navigator.
Jeton normal
_USER_TOKEN_
Jeton JavaScript
_JS_TOKEN_
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- erforderlich
- Typ
string
Dieser Parameter ist für alle Äpfel obligatorisch
Sie benötigen eine Explorer-URL. Stellen Sie sicher, dass Sie mit http oder https beginnen und so weiter est complet code.
Zum Beispiel in der folgenden URL: https://github.com/crawlbase?tab=repositories
Die URL lautet wie folgt: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# das Format
- fakultativ
- Typ
string
Geben Sie das Format der Antwort an json
or html
. Der Standardwert ist html
.
Si-Format html
Wird verwendet, Crawlbase liefert Ihnen die Parameter für die Antwort in den ersten Schritten (siehe [Réponse HTML]/fr/crawling-api/response/#html-response) hier).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# assez
- fakultativ
- Typ
boolean
Wenn Sie an einem teilnehmen json
Antwort: Sie können die Zuverlässigkeit und den Nutzen optimieren &pretty=true
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- fakultativ
- Typ
string
Wenn Sie die Nachfrage mit einem von Ihnen eingesetzten Personalagenten erfüllen möchten, können Sie den Sender hierher bringen und uns den Sender über die angeforderte URL bereitstellen.
Wir empfehlen nicht Nutzen Sie diese Parameter und nutzen Sie unsere künstliche Intelligenz.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Seite_warten
- fakultativ
- Typ
number
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen page_wait
Parameter, um eine Menge zu erhalten Millisekunden Bevor der Navigator den resultierenden HTML-Code erfassen muss.
Dies ist nützlich, wenn Sie die Seite nur wenige Sekunden lang öffnen oder ein Ajax-Dokument erstellen, bevor Sie das HTML erfassen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- fakultativ
- Typ
boolean
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen ajax_wait
Parameter für die Teilnahme an der Ajax-Anforderung, bevor Sie die HTML-Antwort erhalten.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# CSS-Klickselektor
- fakultativ
- Typ
string
# Einzigartiger CSS-Selektor
Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen css_click_selector
Parameter, die es ermöglichen, auf ein Element der Seite zu klicken, bevor der Navigator den resultierenden HTML-Code erfassen muss.
Dieser Parameter akzeptiert einen ausgewählten und gültigen CSS-Inhalt. Beispielsweise können Sie einen ID-Wähler verwenden #some-button
, ein Klassenwähler wie ich .some-other-button
, oder ein Attributwähler, den Sie benötigen [data-tab-item="tab1"]
Es ist wichtig, sicherzustellen, dass die CSS-Auswahl ein Korrekturcode ist, um Fehler zu vermeiden.
Bitte beachten Sie, dass der Auswähler nicht auf der Seite gefunden werden kann, da die Anforderung mitgeteilt wird pc_status
595
. Um eine Antwort von mir zu erhalten, wenn ein Auswähler nicht gefunden wurde, können Sie einen universellen Auswähler hinzufügen body
, als Sicherheitslösung. Zum Beispiel: #some-button,body
.
# Weitere CSS-Auswahlmöglichkeiten
Um die Szenarien in den Lesquels aufzuladen, müssen Sie möglicherweise auf zusätzliche Elemente klicken, die nacheinander ausgeführt werden müssen, bevor Sie den Inhalt der Seite erfassen css_click_selector
Der Parameter kann möglicherweise zusätzlich zur CSS-Auswahl akzeptiert werden. Trennen Sie die Auswahl jedes einzelnen Geräts (|
) Charakter. Stellen Sie sicher, dass der gesamte Wert, einschließlich der Separatoren, auf einer URL codiert ist, um alle Analyseprobleme zu vermeiden.
Angenommen, Sie müssen auf eine Taste mit der ID klicken start-button
Und Sie können ein Pfandrecht an der Klasse haben next-page-link
. Sie bauen Ihre css_click_selector
Parameter wie folgt:
- Ursprüngliche Auswahl:
#start-button|.next-page-link
- URL-Code:
%23start-button%7C.next-page-link
Fügen Sie diesen Parameter zu Ihrer API-Anfrage hinzu, um zu gewährleisten, dass sich die beiden Elemente in der angegebenen Bestellung zusammenschließen.
Stellen Sie sicher, dass alle vier ausgewählten Personen auf der Seite gültig und angezeigt werden, um Fehler zu vermeiden. Wenn Sie die Auswahl nicht gefunden haben, müssen Sie die von Ihnen angegebene Fehlermeldung erhalten, die angezeigt wird pc_status
595
Meiner Meinung nach ist ein Sicherheitswähler nicht inklusive.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Dispositiv
- fakultativ
- Typ
string
Wenn Sie den user_agent nicht spezifizieren möchten, aber die Anforderungen für ein bestimmtes Gerät erhalten möchten, können Sie diesen Parameter verwenden.
Es stehen Ihnen zwei Optionen zur Verfügung: desktop
et mobile
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- fakultativ
- Typ
boolean
Wenn Sie optional die Cookies erhalten möchten, die die Website ursprünglich für die Antwort bestimmt hat, können Sie sie nutzen. &get_cookies=true
Rahmen.
Die Cookies werden vor Ort angezeigt (oder in der JSON-Antwort, wenn Sie sie verwenden). &format=json
) wie original_set_cookie
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_headers
- fakultativ
- Typ
boolean
Wenn Sie optional die Website nutzen möchten, auf der die ursprüngliche Website bestimmt ist, können Sie sie nutzen. &get_headers=true
Rahmen.
Les en-têtes reviendront dans la réponse sous la forme original_header_name
per défaut. &format=json
Es ist passé, l'en-tête reviendra comme original_headers
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Anfrageköpfe
- fakultativ
- Typ
string
Optional können Sie diese nutzen, wenn Sie Anfragen an die ursprüngliche Website senden &request_headers=EncodedRequestHeaders
Rahmen.
Beispiele für Anfragen: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung: gzip
Beispielcode: &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip
Bitte beachten Sie, dass alle Anfragen nicht von der API autorisiert wurden. Wir empfehlen Ihnen, den Testern diese Test-URL zu senden: https://postman-echo.com/headers
Wenn Sie zusätzliche Mitarbeiter beauftragen, die nicht von der API autorisiert wurden, bitten wir Sie, die Namen der Mitarbeiter und unsere Bevollmächtigten für Ihr Anliegen zu prüfen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Cookies deaktivieren
- fakultativ
- Typ
string
Wenn Sie die Cookies auf der Original-Webseite gesendet haben, können Sie sie optional nutzen &cookies=EncodedCookies
Rahmen.
Beispiele für Cookies: key1=value1; key2=value2; key3=value3
Beispielcode: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Wir empfehlen Ihnen, die gesendeten Cookies unter Verwendung dieser Test-URL zu testen: https://postman-echo.com/cookies
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_sitzung
- fakultativ
- Typ
string
Wenn Sie die Kekse absenden müssen, die Sie bei Bedarf für alle anderen Äpfel benötigen, können Sie sie nutzen &cookies_session=
Rahmen.
IHRE &cookies_session=
Der Parameter kann keinen Wert haben. Senden Sie einfach einen neuen Wert, um eine neue Cookie-Sitzung zu erstellen (es ist Ihnen nicht gestattet, Cookies von den nachfolgenden API-Appeln mit diesem Cookie-Sitzungswert zu senden). Der Wert kann maximal 32 Zeichen enthalten und die Sitzungen dauern 300 Sekunden nach dem letzten Aufruf der API.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Bildschirmfoto
- fakultativ
- Typ
boolean
Wenn Sie die verwenden Jeton JavaScript, Sie könnten eventuell vorbeikommen &screenshot=true
Parameter, um eine Aufnahme des Bildschirms zu erhalten JPEG
Format der gesamten untersuchten Seite.
Crawlbase wird Sie wiedersehen screenshot_url
In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json
). Die screenshot_url
läuft innerhalb einer Stunde ab.
Hinweis: Wenn Sie die verwenden screenshot=true
Parameter, Sie können die Art der Erfassung des Bildschirms mit diesen zusätzlichen Parametern personalisieren:
mode
: Mehrviewport
Für die Erfassung ist das Fenster anstelle der gesamten Seite einzigartig. Der Standardwert istfullpage
.width
: Geben Sie die maximale Pixelgröße an (einzigartige Funktion mitmode=viewport
). Der Standardwert ist größer als der Bildschirm.height
: Geben Sie die maximale Auflösung in Pixeln an (einzigartige Funktion mitmode=viewport
). Der Standardwert ist die höchste Qualität des Geräts.
Mise en Situation: &screenshot=true&mode=viewport&width=1200&height=800
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Shop
- fakultativ
- Typ
boolean
Auf Option setzen &store=true
Parameter zum Speichern einer Kopie der API-Antwort in der Datei Stockage in der Cloud von Crawlbase (ein neues Fenster veröffentlicht) (öffnet neues Fenster).
Crawlbase wird Sie wiedersehen storage_url
In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json
).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Schaber
- fakultativ
- Typ
string
Senden Sie die analysierten Informationen nur dann, wenn der Schaber spezifiziert ist. Überprüfen Sie den Inhalt Liste aller verfügbaren Schaber (ein neues Fenster) (öffnet neues Fenster) Liste aller verfügbaren Schaber, die Sie auswählen können.
Die Antwort wird im JSON-Format zurückgegeben.
Bitte beachten Sie : Scraper ist ein optionaler Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um die Scraper-Library aufzurufen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# async
- fakultativ
- Typ
boolean
- Derzeit ist LinkedIn.com mit diesem Parameter kostenpflichtig. Kontaktieren Sie uns, wenn Sie andere Domains im asynchronen Modus benötigen.
Auf Option setzen &async=true
Parameter für den URL-Explorer zur asynchronen Bedienung. Crawlbase hat die resultierende Seite dort gespeichert Stockage in der Cloud von Crawlbase (ein neues Fenster veröffentlicht) (öffnet neues Fenster).
Nach einem Anruf mit async=true
Crawlbase liefert Ihnen die Identität der Nachfrage rid
in der json-Antwort. Sie müssen das RID aufbewahren, um das Dokument aus der Lagerhaltung abzurufen. Mit dem RID können Sie Ihr eigenes Bad nutzen Neue Lager-API (neues Fenster) (öffnet neues Fenster) um das Seitenergebnis wiederherzustellen.
Sie können das verwenden async=true
Parameter und Kombination mit anderen API-Parametern wie zum Beispiel &async=true&autoparse=true
.
Beispiel einer Anfrage mit async=true
Forderung:
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Beispiel einer Antwort mit async=true
Forderung:
{ "rid": "1e92e8bff32c31c2728714d4" }
# automatische Analyse
- fakultativ
- Typ
boolean
Optional können Sie, wenn Sie die von Ihnen angeforderten zusätzlichen Daten von der Seite erhalten möchten, diese weitergeben &autoparse=true
Rahmen.
Die Antwort wurde auf das JSON-Format übertragen. Die Struktur der Antwort hängt von der URL ab, die Sie erhalten haben.
Bitte beachten Sie : &autoparse=true
Es handelt sich um einen optionalen Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um ihn wieder freizugeben.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# Land
- fakultativ
- Typ
string
Wenn Sie möchten, dass Sie nach einer bestimmten geografischen Lage suchen, können Sie diese nutzen &country=
Parameter, wie &country=US
(Code zahlt à deux caractères).
Sie müssen sich mit der Spezifizierung eines Zahlungsmittels begnügen, um die Anzahl der von Ihnen erhaltenen Russen zu reduzieren, und nutzen Sie dabei die Urteilskraft und Einzigartigkeit, da Geolokalisierungserkundungen nicht erforderlich sind.
Beachten Sie auch, dass bestimmte Websites wie Amazon über verschiedene spezielle Proxys erreichbar sind und dass alle Pays nicht autorisiert sind, wenn sie dort sind oder nicht auf der Liste stehen.
Sie haben Zugang zu weiteren Zahlungsmitteln
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# Tor-Netzwerk
- fakultativ
- Typ
boolean
Wenn Sie Web Onion auf der Website erkunden möchten, können Sie diese durchsuchen &tor_network=true
Rahmen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# Schnecke
- fakultativ
- Typ
boolean
Wenn Sie die verwenden Jeton JavaScript, Sie könnten eventuell vorbeikommen &scroll=true
Für die API wird die Reinigung standardmäßig nach einem Reinigungsintervall von 10 Sekunden durchgeführt.
Wenn Sie länger als 10 Sekunden warten, senden Sie es bitte ab &scroll=true&scroll_interval=20
. Diese Parameter werden beim Navigieren angezeigt, nachdem die Seite nach dem Aufladen 20 Sekunden lang geöffnet wurde. Das maximale Reinigungsintervall beträgt 60 Sekunden. Nach 60 Sekunden der Verschmutzung erfasst das System die Données und Sie kehren zurück.
Das Reinigungsintervall beträgt standardmäßig 10 Sekunden. Es dauert nur 5 Sekunden, bis eine JS-Erweiterung für API Crawling erforderlich ist. Nehmen Sie jedoch an, Sie senden ein scroll_interval 20, unser System muss jedoch die Seite auf maximal 20 Sekunden beschränken, damit es nicht funktioniert Es ist nicht leicht, einen Anhänger zu haben 10 Sekunden, es werden 2 zusätzliche Anfragen anstelle von 4 benötigt.
Hinweis: Stellen Sie sicher, dass Ihre Verbindung etwa 90 Sekunden lang unterbrochen ist, wenn Sie die Absicht haben, die Verbindung nach 60 Sekunden zu trennen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"