# Parameter

Die API enthält folgende Parameter, Das Token und die URL sind obligatorisch, der Rest ist fakultativ.

# Zeichen

  • erforderlich
  • Typ string

Dieser Parameter ist für alle Äpfel obligatorisch

Sie müssen Ihr Konto authentifizieren. Sie verfügen über zwei Jetons: eine für normale Anforderungen und eine weitere für JavaScript-Anforderungen.

Verwenden Sie JavaScript, damit der Inhalt, den Sie im Explorer benötigen, über JavaScript generiert wird, da eine Seite mit JavaScript erstellt wurde (React, Angular usw.), sodass der Inhalt teilweise dynamisch generiert wird Navigator.

Jeton normal

_USER_TOKEN_

Jeton JavaScript

_JS_TOKEN_

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • erforderlich
  • Typ string

Dieser Parameter ist für alle Äpfel obligatorisch

Sie benötigen eine Explorer-URL. Stellen Sie sicher, dass Sie mit http oder https beginnen und so weiter est complet code.

Zum Beispiel in der folgenden URL: https://github.com/crawlbase?tab=repositories Die URL lautet wie folgt: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# das Format

  • fakultativ
  • Typ string

Geben Sie das Format der Antwort an json or html. Der Standardwert ist html.

Si-Format html Wird verwendet, Crawlbase liefert Ihnen die Parameter für die Antwort in den ersten Schritten (siehe [Réponse HTML]/fr/crawling-api/response/#html-response) hier).

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# assez

  • fakultativ
  • Typ boolean

Wenn Sie an einem teilnehmen json Antwort: Sie können die Zuverlässigkeit und den Nutzen optimieren &pretty=true.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • fakultativ
  • Typ string

Wenn Sie die Nachfrage mit einem von Ihnen eingesetzten Personalagenten erfüllen möchten, können Sie den Sender hierher bringen und uns den Sender über die angeforderte URL bereitstellen.

Wir empfehlen nicht Nutzen Sie diese Parameter und nutzen Sie unsere künstliche Intelligenz.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Seite_warten

  • fakultativ
  • Typ number

Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen page_wait Parameter, um eine Menge zu erhalten Millisekunden Bevor der Navigator den resultierenden HTML-Code erfassen muss.

Dies ist nützlich, wenn Sie die Seite nur wenige Sekunden lang öffnen oder ein Ajax-Dokument erstellen, bevor Sie das HTML erfassen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • fakultativ
  • Typ boolean

Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen ajax_wait Parameter für die Teilnahme an der Ajax-Anforderung, bevor Sie die HTML-Antwort erhalten.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# CSS-Klickselektor

  • fakultativ
  • Typ string

# Einzigartiger CSS-Selektor

Wenn Sie JavaScript verwenden, können Sie es möglicherweise übertragen css_click_selector Parameter, die es ermöglichen, auf ein Element der Seite zu klicken, bevor der Navigator den resultierenden HTML-Code erfassen muss.

Dieser Parameter akzeptiert einen ausgewählten und gültigen CSS-Inhalt. Beispielsweise können Sie einen ID-Wähler verwenden #some-button, ein Klassenwähler wie ich .some-other-button, oder ein Attributwähler, den Sie benötigen [data-tab-item="tab1"]Es ist wichtig, sicherzustellen, dass die CSS-Auswahl ein Korrekturcode ist, um Fehler zu vermeiden.

Bitte beachten Sie, dass der Auswähler nicht auf der Seite gefunden werden kann, da die Anforderung mitgeteilt wird pc_status 595. Um eine Antwort von mir zu erhalten, wenn ein Auswähler nicht gefunden wurde, können Sie einen universellen Auswähler hinzufügen body, als Sicherheitslösung. Zum Beispiel: #some-button,body.

# Weitere CSS-Auswahlmöglichkeiten

Um die Szenarien in den Lesquels aufzuladen, müssen Sie möglicherweise auf zusätzliche Elemente klicken, die nacheinander ausgeführt werden müssen, bevor Sie den Inhalt der Seite erfassen css_click_selector Der Parameter kann möglicherweise zusätzlich zur CSS-Auswahl akzeptiert werden. Trennen Sie die Auswahl jedes einzelnen Geräts (|) Charakter. Stellen Sie sicher, dass der gesamte Wert, einschließlich der Separatoren, auf einer URL codiert ist, um alle Analyseprobleme zu vermeiden.

Angenommen, Sie müssen auf eine Taste mit der ID klicken start-button Und Sie können ein Pfandrecht an der Klasse haben next-page-link. Sie bauen Ihre css_click_selector Parameter wie folgt:

  • Ursprüngliche Auswahl: #start-button|.next-page-link
  • URL-Code: %23start-button%7C.next-page-link

Fügen Sie diesen Parameter zu Ihrer API-Anfrage hinzu, um zu gewährleisten, dass sich die beiden Elemente in der angegebenen Bestellung zusammenschließen.

Stellen Sie sicher, dass alle vier ausgewählten Personen auf der Seite gültig und angezeigt werden, um Fehler zu vermeiden. Wenn Sie die Auswahl nicht gefunden haben, müssen Sie die von Ihnen angegebene Fehlermeldung erhalten, die angezeigt wird pc_status 595 Meiner Meinung nach ist ein Sicherheitswähler nicht inklusive.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Dispositiv

  • fakultativ
  • Typ string

Wenn Sie den user_agent nicht spezifizieren möchten, aber die Anforderungen für ein bestimmtes Gerät erhalten möchten, können Sie diesen Parameter verwenden.

Es stehen Ihnen zwei Optionen zur Verfügung: desktop et mobile.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • fakultativ
  • Typ boolean

Wenn Sie optional die Cookies erhalten möchten, die die Website ursprünglich für die Antwort bestimmt hat, können Sie sie nutzen. &get_cookies=true Rahmen.

Die Cookies werden vor Ort angezeigt (oder in der JSON-Antwort, wenn Sie sie verwenden). &format=json) wie original_set_cookie.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_headers

  • fakultativ
  • Typ boolean

Wenn Sie optional die Website nutzen möchten, auf der die ursprüngliche Website bestimmt ist, können Sie sie nutzen. &get_headers=true Rahmen.

Les en-têtes reviendront dans la réponse sous la forme original_header_name per défaut. &format=json Es ist passé, l'en-tête reviendra comme original_headers.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Anfrageköpfe

  • fakultativ
  • Typ string

Optional können Sie diese nutzen, wenn Sie Anfragen an die ursprüngliche Website senden &request_headers=EncodedRequestHeaders Rahmen.

Beispiele für Anfragen: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung: gzip

Beispielcode: &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip

Bitte beachten Sie, dass alle Anfragen nicht von der API autorisiert wurden. Wir empfehlen Ihnen, den Testern diese Test-URL zu senden: https://postman-echo.com/headers

Wenn Sie zusätzliche Mitarbeiter beauftragen, die nicht von der API autorisiert wurden, bitten wir Sie, die Namen der Mitarbeiter und unsere Bevollmächtigten für Ihr Anliegen zu prüfen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Cookies deaktivieren

  • fakultativ
  • Typ string

Wenn Sie die Cookies auf der Original-Webseite gesendet haben, können Sie sie optional nutzen &cookies=EncodedCookies Rahmen.

Beispiele für Cookies: key1=value1; key2=value2; key3=value3

Beispielcode: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Wir empfehlen Ihnen, die gesendeten Cookies unter Verwendung dieser Test-URL zu testen: https://postman-echo.com/cookies

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_sitzung

  • fakultativ
  • Typ string

Wenn Sie die Kekse absenden müssen, die Sie bei Bedarf für alle anderen Äpfel benötigen, können Sie sie nutzen &cookies_session= Rahmen.

IHRE &cookies_session= Der Parameter kann keinen Wert haben. Senden Sie einfach einen neuen Wert, um eine neue Cookie-Sitzung zu erstellen (es ist Ihnen nicht gestattet, Cookies von den nachfolgenden API-Appeln mit diesem Cookie-Sitzungswert zu senden). Der Wert kann maximal 32 Zeichen enthalten und die Sitzungen dauern 300 Sekunden nach dem letzten Aufruf der API.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Bildschirmfoto

  • fakultativ
  • Typ boolean

Wenn Sie die verwenden Jeton JavaScript, Sie könnten eventuell vorbeikommen &screenshot=true Parameter, um eine Aufnahme des Bildschirms zu erhalten JPEG Format der gesamten untersuchten Seite.

Crawlbase wird Sie wiedersehen screenshot_url In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json). Die screenshot_url läuft innerhalb einer Stunde ab.

Hinweis: Wenn Sie die verwenden screenshot=true Parameter, Sie können die Art der Erfassung des Bildschirms mit diesen zusätzlichen Parametern personalisieren:

  • mode: Mehr viewport Für die Erfassung ist das Fenster anstelle der gesamten Seite einzigartig. Der Standardwert ist fullpage.
  • width: Geben Sie die maximale Pixelgröße an (einzigartige Funktion mit mode=viewport). Der Standardwert ist größer als der Bildschirm.
  • height: Geben Sie die maximale Auflösung in Pixeln an (einzigartige Funktion mit mode=viewport). Der Standardwert ist die höchste Qualität des Geräts.

Mise en Situation: &screenshot=true&mode=viewport&width=1200&height=800

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Shop

  • fakultativ
  • Typ boolean

Auf Option setzen &store=true Parameter zum Speichern einer Kopie der API-Antwort in der Datei Stockage in der Cloud von Crawlbase (ein neues Fenster veröffentlicht) (öffnet neues Fenster).

Crawlbase wird Sie wiedersehen storage_url In den Antwortversuchen (oder in der Antwort json, wenn Sie sie verwenden &format=json).

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Schaber

  • fakultativ
  • Typ string

Senden Sie die analysierten Informationen nur dann, wenn der Schaber spezifiziert ist. Überprüfen Sie den Inhalt Liste aller verfügbaren Schaber (ein neues Fenster) (öffnet neues Fenster) Liste aller verfügbaren Schaber, die Sie auswählen können.

Die Antwort wird im JSON-Format zurückgegeben.

Bitte beachten Sie : Scraper ist ein optionaler Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um die Scraper-Library aufzurufen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# async

  • fakultativ
  • Typ boolean
  • Derzeit ist LinkedIn.com mit diesem Parameter kostenpflichtig. Kontaktieren Sie uns, wenn Sie andere Domains im asynchronen Modus benötigen.

Auf Option setzen &async=true Parameter für den URL-Explorer zur asynchronen Bedienung. Crawlbase hat die resultierende Seite dort gespeichert Stockage in der Cloud von Crawlbase (ein neues Fenster veröffentlicht) (öffnet neues Fenster).

Nach einem Anruf mit async=trueCrawlbase liefert Ihnen die Identität der Nachfrage rid in der json-Antwort. Sie müssen das RID aufbewahren, um das Dokument aus der Lagerhaltung abzurufen. Mit dem RID können Sie Ihr eigenes Bad nutzen Neue Lager-API (neues Fenster) (öffnet neues Fenster) um das Seitenergebnis wiederherzustellen.

Sie können das verwenden async=true Parameter und Kombination mit anderen API-Parametern wie zum Beispiel &async=true&autoparse=true.

Beispiel einer Anfrage mit async=true Forderung:

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Beispiel einer Antwort mit async=true Forderung:

{ "rid": "1e92e8bff32c31c2728714d4" }

# automatische Analyse

  • fakultativ
  • Typ boolean

Optional können Sie, wenn Sie die von Ihnen angeforderten zusätzlichen Daten von der Seite erhalten möchten, diese weitergeben &autoparse=true Rahmen.

Die Antwort wurde auf das JSON-Format übertragen. Die Struktur der Antwort hängt von der URL ab, die Sie erhalten haben.

Bitte beachten Sie : &autoparse=true Es handelt sich um einen optionalen Parameter. Wenn Sie dies nicht tun, müssen Sie den vollständigen HTML-Code von der Seite erneut abrufen, um ihn wieder freizugeben.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Land

  • fakultativ
  • Typ string

Wenn Sie möchten, dass Sie nach einer bestimmten geografischen Lage suchen, können Sie diese nutzen &country= Parameter, wie &country=US (Code zahlt à deux caractères).

Sie müssen sich mit der Spezifizierung eines Zahlungsmittels begnügen, um die Anzahl der von Ihnen erhaltenen Russen zu reduzieren, und nutzen Sie dabei die Urteilskraft und Einzigartigkeit, da Geolokalisierungserkundungen nicht erforderlich sind.

Beachten Sie auch, dass bestimmte Websites wie Amazon über verschiedene spezielle Proxys erreichbar sind und dass alle Pays nicht autorisiert sind, wenn sie dort sind oder nicht auf der Liste stehen.

Sie haben Zugang zu weiteren Zahlungsmitteln

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# Tor-Netzwerk

  • fakultativ
  • Typ boolean

Wenn Sie Web Onion auf der Website erkunden möchten, können Sie diese durchsuchen &tor_network=true Rahmen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# Schnecke

  • fakultativ
  • Typ boolean

Wenn Sie die verwenden Jeton JavaScript, Sie könnten eventuell vorbeikommen &scroll=true Für die API wird die Reinigung standardmäßig nach einem Reinigungsintervall von 10 Sekunden durchgeführt.

Wenn Sie länger als 10 Sekunden warten, senden Sie es bitte ab &scroll=true&scroll_interval=20. Diese Parameter werden beim Navigieren angezeigt, nachdem die Seite nach dem Aufladen 20 Sekunden lang geöffnet wurde. Das maximale Reinigungsintervall beträgt 60 Sekunden. Nach 60 Sekunden der Verschmutzung erfasst das System die Données und Sie kehren zurück.

Das Reinigungsintervall beträgt standardmäßig 10 Sekunden. Es dauert nur 5 Sekunden, bis eine JS-Erweiterung für API Crawling erforderlich ist. Nehmen Sie jedoch an, Sie senden ein scroll_interval 20, unser System muss jedoch die Seite auf maximal 20 Sekunden beschränken, damit es nicht funktioniert Es ist nicht leicht, einen Anhänger zu haben 10 Sekunden, es werden 2 zusätzliche Anfragen anstelle von 4 benötigt.

Hinweis: Stellen Sie sicher, dass Ihre Verbindung etwa 90 Sekunden lang unterbrochen ist, wenn Sie die Absicht haben, die Verbindung nach 60 Sekunden zu trennen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"