# Parameter

Die API verfügt über folgende Parameter: Es werden nur ein Token und eine URL benötigt, остальные необязательны.

# unterzeichnen

  • notwendig
  • Typ string

Dieser Parameter wird für alle Benutzer angezeigt.

Es handelt sich um eine Authentifizierung. Es handelt sich um zwei Token: Ein Link für zusätzliche JavaScript-Anforderungen und eine zusätzliche JavaScript-Anforderung.

Verwenden Sie JavaScript, um Inhalte zu erhalten, die Sie nicht scannen können. Es wird mit JavaScript generiert und kann auf dieser Seite mit JavaScript erstellt werden (React, Angular и т. д.), Es kann sein, dass der Inhalt im Browser generiert wird.

Beliebiger Token

_USER_TOKEN_

JavaScript-Code

_JS_TOKEN_

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • notwendig
  • Typ string

Dieser Parameter wird für alle Benutzer angezeigt.

Ich brauche eine URL zum Scannen. Bitte beachten Sie, dass dies auf http oder https erfolgt ist полностью закодирован.

Zum Beispiel folgende URL-Adresse: https://github.com/crawlbase?tab=repositories Die URL-Adresse muss über die API-Suche nach dem folgenden Ziel eingegeben werden: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# формат

  • Auf Wunsch
  • Typ string

Das angegebene Format wird angezeigt json or html. Standardmäßig html.

Es gibt Format html ergreift, Crawlbase Finden Sie die angezeigten Parameter heraus (sm. HTML-Antwort unten).

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# eher

  • Auf Wunsch
  • Typ boolean

Wenn Sie dies bestätigen json Bitte beachten Sie, dass Sie Ihr Unternehmen optimieren und verwenden möchten &pretty=true.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • Auf Wunsch
  • Typ string

Wenn Sie Ihre Anfrage an einen anderen Agenten senden möchten, können Sie diese Nachricht weitergeben, und unsere Server übertragen sie auf die angegebene URL.

Мы рекомендуем NICHT Verwenden Sie diese Parameter und stellen Sie sicher, dass Ihr Intellekt diesen Parameter verwendet.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# страница_ожидание

  • Auf Wunsch
  • Typ number

Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben page_wait Parameter zur Überwachung der Gesamtzahl Millisekunden Darüber hinaus benötigt der Brauzer einen mehrteiligen HTML-Code.

Nach einigen Monaten dauert die Bewertung der Seite nur eine Sekunde oder Sie müssen erst nach dem Laden des HTML-Codes einen Ajax-Code herunterladen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • Auf Wunsch
  • Typ boolean

Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben ajax_wait Parameter zur Überwachung der Ajax-Anforderungen vor der Veröffentlichung der HTML-Anfrage.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# CSS-Klickselektor

  • Auf Wunsch
  • Typ string

# Eigener CSS-Selektor

Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben css_click_selector Parameter für die Auswahl eines Elements auf der Seite, bevor der Browser einen zusätzlichen HTML-Code benötigt.

Bei diesem Parameter handelt es sich um einen ausgewählten und deinstallierten CSS-Selektor. Sie können beispielsweise auch die Auswahl-ID verwenden #some-button, Auswahlklasse, Beispiel .some-other-buttonOder wählen Sie Attribute aus [data-tab-item="tab1"]. Es ist wichtig, dass der CSS-Wähler normalerweise verwendet wird, damit er nicht angezeigt wird.

Hinweis: Wenn der Anbieter nicht auf der Seite ist, wird er angezeigt pc_status 595. Sie möchten dies tun, denn wenn der Auswahlschalter nicht vorhanden ist, können Sie beispielsweise einen universellen Auswahlschalter verwenden body, как запасной variante. Beispiel: #some-button,body.

# Kleine CSS-Auswahl

Nach einigen Ereignissen kann es vorkommen, dass einige Elemente nachträglich auf andere Websites übertragen werden, css_click_selector Der Parameter „Temper“ kann nur wenige CSS-Selektoren verwenden. Wählen Sie den vertikalen Schwarz-Wähler aus (|) simvol. Stellen Sie sicher, dass nach jeder Abfrage die in der URL gespeicherten Einträge angezeigt werden, damit das Problem bei der Analyse ermittelt werden kann.

Zunächst müssen Sie den Knopf mit der Identifikationsnummer drücken start-button Nach Abschluss der Unterrichtsstunde next-page-link. Sie haben uns gepostet css_click_selector dieser Parameter:

  • Originalauswahl: #start-button|.next-page-link
  • URL-kodiert: %23start-button%7C.next-page-link

Wenn Sie diesen Parameter für Ihre API-Zugriffsberechtigung verwenden, erhalten Sie eine Garantie dafür, dass alle Elemente auf der Website verfügbar sind.

Bitte beachten Sie, dass alle verfügbaren Selektoren auf der Website ausgewählt und vermarktet werden, damit sie nicht gefunden werden. Wenn der Wählschalter nicht eingeschaltet ist, muss das Gerät mit der Bestellung, der Bestellung und dem Versand mit dem Gerät ausgestattet werden pc_status 595 Es wurde kein Reserve-Wahlschalter aktiviert.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# устройство

  • Auf Wunsch
  • Typ string

Wenn Sie zuvor nicht den user_agent ausgewählt und keine Vorschläge für ein bestimmtes Gerät abgeschlossen haben, können Sie diesen Parameter verwenden.

Es stehen zwei Optionen zur Verfügung: desktop и mobile.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • Auf Wunsch
  • Typ boolean

Wenn Sie jedoch noch keine Cookies-Dateien verwenden, können Sie diese auf unserer Website verwenden &get_cookies=true Parameter.

Cookie-Dateien werden im Browser angezeigt (oder Sie verwenden JSON, wenn Sie sie verwenden). &format=json) Wie original_set_cookie.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# получить_заголовки

  • Auf Wunsch
  • Typ boolean

Wenn Sie jedoch noch keine Beiträge erhalten, können Sie diese Website möglicherweise verwenden &get_headers=true Parameter.

Заголовки будут возвращены в ответе как original_header_name по умолчанию. Когда &format=json передан, заголовок вернется как original_headers.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# заголовки_запроса

  • Auf Wunsch
  • Typ string

Sobald Sie die Anmeldegebühr auf einer bestimmten Website abgelehnt haben, können Sie sie verwenden &request_headers=EncodedRequestHeaders Parameter.

Beispiele für die vorgeschlagene Vorgehensweise: принять-язык:en-GB|принять-code:gzip

Beispielcodes: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip

Bitte beachten Sie, dass nicht alle API-Anforderungen erfüllt sind. Wir empfehlen Ihnen, die heruntergeladenen Dateien zu testen und diese unter folgender URL zu lesen: https://postman-echo.com/headers

Wenn Sie keine zusätzlichen Anmeldedaten verwenden möchten, die keine API-Zugriffsberechtigung haben, verwenden Sie die Anmeldesimulation, um sie für Ihr Problem zu nutzen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Cookies setzen

  • Auf Wunsch
  • Typ string

Sobald Sie die Cookie-Dateien auf Ihrer Website gelöscht haben, können Sie diese verwenden &cookies=EncodedCookies Parameter.

Beispiele für Cookie-Dateien: key1=value1; key2=value2; key3=value3

Beispielcodes: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Ich empfehle Ihnen, gegen die Verwendung von Cookie-Dateien vorzugehen. Verwenden Sie dazu diese Test-URL: https://postman-echo.com/cookies

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_sitzung

  • Auf Wunsch
  • Typ string

Wenn Sie noch keine Cookie-Dateien gelesen haben, können Sie diese nach jeder weiteren Anfrage erneut aufrufen использовать &cookies_session= Parameter.

Team &cookies_session= Der Parameter kann eine wichtige Rolle spielen. Um ein neues Cookie zu veröffentlichen, müssen Sie das neue Cookie von Seans erstellen API-Auswahl für diesen Eintrag значением сеанса Cookie). Die Dauer kann maximal 32 Zeichen betragen, da sie nach der letzten API-Anfrage etwa 300 Sekunden dauern.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Screenshot

  • Auf Wunsch
  • Typ boolean

Wenn Sie verwenden JavaScript-Code, Sie können es gerne weitergeben &screenshot=true Parameter zum Vergrößern von Bildern auf dem Bildschirm JPEG Formatieren Sie alle angezeigten Seiten.

Crawlbase отправлю вам обратно screenshot_url In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json). screenshot_url истекает через час.

Hinweis: Wenn Sie screenshot=true Parameter, den Sie durch Hinzufügen weiterer Parameter aufrufen können:

  • mode: Установлен in viewport Für den Kauf einer Website auf einer polnischen Seite. Zur Verbesserung fullpage.
  • width: Maximale Anzahl von Bildern in Pixeln (ergibt nur 100 %). mode=viewport). По умолчанию – ширина экрана.
  • height: Ermöglichen Sie die maximale Anzahl an Pixeln mode=viewport). По умолчанию – высота экрана.

Beispiel: &screenshot=true&mode=viewport&width=1200&height=800

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Geschäft

  • Auf Wunsch
  • Typ boolean

Es ist ein Gewinn &store=true Parameter zum Sichern von Kopien aus der API in Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).

Crawlbase отправлю вам обратно storage_url In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json).

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Schaber

  • Auf Wunsch
  • Typ string

Es werden Informationen bereitgestellt und im Internet mit einem von Ihnen ausgewählten Unternehmen analysiert. Überprüfe SPEISEKARTE ALLER DOSUST-SPEZIELLE DANKSTUNDEN (Neues Datum veröffentlicht) (öffnet neues Fenster) Die Liste aller ausgewählten Benutzer wird angezeigt und Sie können nichts anderes tun.

Möglicherweise wird das JSON-Format verwendet.

Bitte beachten Sie: Schaber – neuwertige Parameter. Wenn Sie dies nicht tun, verwenden Sie eine neue HTML-Seite, damit Sie sie erstellen können.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# asinchronnoj

  • Auf Wunsch
  • Typ boolean
  • Innerhalb kürzester Zeit kann LinkedIn.com diesen Parameter verwenden. Bitte beachten Sie, dass sich in der Regel noch andere Häuser befinden.

Es ist ein Gewinn &async=true Parameter für die automatische Suche nach einer URL. Crawlbase сохранит полученную страницу в Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).

Das Ergebnis lautet: async=true, Crawlbase Ich melde mich bei Ihnen, um einen Identitätsnachweis zu erhalten rid Lesen Sie json. Sie müssen unbedingt die RID-Datei für die Erstellung von Dokumenten aus der Liste verwenden. С RID können Sie vor der Verwendung verwenden Wolke Storage API (aktuell geöffnet) (öffnet neues Fenster) Zur Verbesserung der Suchergebnisse.

Sie können async=true Parameter in Verbindung mit anderen API-Parametern, zum Beispiel &async=true&autoparse=true.

Пример запроса с async=true Auswahl:

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Zum Beispiel weg mit async=true Auswahl:

{ "rid": "1e92e8bff32c31c2728714d4" }

# Autoanalyse

  • Auf Wunsch
  • Typ boolean

Wenn Sie jedoch noch nicht einmal die von Ihnen empfohlenen Seiten gelesen haben, können Sie sie weitergeben &autoparse=true Parameter.

Wird im JSON-Format verwendet. Die Struktur wird von der angezeigten URL verlangt.

Bitte beachten Sie: &autoparse=true neuwertiger Parameter. Wenn Sie keine HTML-Seite verwenden, können Sie diese automatisch scannen.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Land

  • Auf Wunsch
  • Typ string

Wenn Sie wissen, dass sich Ihre Aufgaben auf geografischen Gebieten befinden, können Sie diese nutzen &country= Parameter, wie &country=US (Doppelbuchseiten).

Bitte beachten Sie, dass die Website-Besucher möglicherweise zu vielen Verhandlungsanfragen führen können Unter diesen Umständen wird die Geolokalisierung durchgeführt.

Bitte beachten Sie, dass andere Websites, wie z. B. Amazon, auf der Suche nach speziellen Proxy-Servern und auf anderen Websites vertreten sind Nichtsdestotrotz war es einer von ihnen, der sich im Internet befand oder nicht.

Sie sind gerade auf der nächsten Seite

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_netzwerk

  • Auf Wunsch
  • Typ boolean

Wenn Sie onion-sites nach Tor scannen möchten, können Sie sie weitergeben &tor_network=true Parameter.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# propolisieren

  • Auf Wunsch
  • Typ boolean

Wenn Sie verwenden JavaScript-Code, Sie können es gerne weitergeben &scroll=true Für die API dauert es 10 Sekunden, bis die Funktion scroll_interval läuft.

Wenn Sie länger als 10 Sekunden warten, lesen Sie es erneut &scroll=true&scroll_interval=20. Diese Parameter müssen innerhalb von 20 Sekunden nach dem Herunterladen auf die Seite übertragen werden. Das maximale Zeitintervall beträgt 60 Sekunden, nach 60 Sekunden beginnt das System mit Daten und beginnt mit der Zeit.

Die Vertragslaufzeit beträgt 10 Sekunden. Nach ca. 5 Sekunden wird der Antrag auf JS übertragen Crawling API, nachdem Sie scroll_interval 20 aufgerufen haben, dauert das System die Seite maximal 20 Sekunden lang; Nach einer Dauer von nur 10 Sekunden wurden nur 2 zusätzliche Kosten im Rahmen von 4 übernommen.

Hinweis: Wenn Sie die Prüfung innerhalb von 90 Sekunden abgeschlossen haben, stellen Sie sicher, dass Ihr Test nicht länger als 60 Sekunden abgeschlossen ist.

Wichtig: In einigen Häusern gibt es mehr als nur ein automatisches System, das dann automatisch installiert wird. В сочетании с scroll и page_wait Parameter, die möglicherweise eine zusätzliche Anforderung darstellen. Suchen Sie nach weiteren Optionen, wenn Sie diese Einstellungen für Ihr Zuhause optimieren möchten.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"