# Parameter
Die API verfügt über folgende Parameter: Es werden nur ein Token und eine URL benötigt, остальные необязательны.
# unterzeichnen
- notwendig
- Typ
string
Dieser Parameter wird für alle Benutzer angezeigt.
Es handelt sich um eine Authentifizierung. Es handelt sich um zwei Token: Ein Link für zusätzliche JavaScript-Anforderungen und eine zusätzliche JavaScript-Anforderung.
Verwenden Sie JavaScript, um Inhalte zu erhalten, die Sie nicht scannen können. Es wird mit JavaScript generiert und kann auf dieser Seite mit JavaScript erstellt werden (React, Angular и т. д.), Es kann sein, dass der Inhalt im Browser generiert wird.
Beliebiger Token
_USER_TOKEN_
JavaScript-Code
_JS_TOKEN_
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- notwendig
- Typ
string
Dieser Parameter wird für alle Benutzer angezeigt.
Ich brauche eine URL zum Scannen. Bitte beachten Sie, dass dies auf http oder https erfolgt ist полностью закодирован.
Zum Beispiel folgende URL-Adresse: https://github.com/crawlbase?tab=repositories
Die URL-Adresse muss über die API-Suche nach dem folgenden Ziel eingegeben werden: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# формат
- Auf Wunsch
- Typ
string
Das angegebene Format wird angezeigt json
or html
. Standardmäßig html
.
Es gibt Format html
ergreift, Crawlbase Finden Sie die angezeigten Parameter heraus (sm. HTML-Antwort unten).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# eher
- Auf Wunsch
- Typ
boolean
Wenn Sie dies bestätigen json
Bitte beachten Sie, dass Sie Ihr Unternehmen optimieren und verwenden möchten &pretty=true
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- Auf Wunsch
- Typ
string
Wenn Sie Ihre Anfrage an einen anderen Agenten senden möchten, können Sie diese Nachricht weitergeben, und unsere Server übertragen sie auf die angegebene URL.
Мы рекомендуем NICHT Verwenden Sie diese Parameter und stellen Sie sicher, dass Ihr Intellekt diesen Parameter verwendet.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# страница_ожидание
- Auf Wunsch
- Typ
number
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben page_wait
Parameter zur Überwachung der Gesamtzahl Millisekunden Darüber hinaus benötigt der Brauzer einen mehrteiligen HTML-Code.
Nach einigen Monaten dauert die Bewertung der Seite nur eine Sekunde oder Sie müssen erst nach dem Laden des HTML-Codes einen Ajax-Code herunterladen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- Auf Wunsch
- Typ
boolean
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben ajax_wait
Parameter zur Überwachung der Ajax-Anforderungen vor der Veröffentlichung der HTML-Anfrage.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# CSS-Klickselektor
- Auf Wunsch
- Typ
string
# Eigener CSS-Selektor
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben css_click_selector
Parameter für die Auswahl eines Elements auf der Seite, bevor der Browser einen zusätzlichen HTML-Code benötigt.
Bei diesem Parameter handelt es sich um einen ausgewählten und deinstallierten CSS-Selektor. Sie können beispielsweise auch die Auswahl-ID verwenden #some-button
, Auswahlklasse, Beispiel .some-other-button
Oder wählen Sie Attribute aus [data-tab-item="tab1"]
. Es ist wichtig, dass der CSS-Wähler normalerweise verwendet wird, damit er nicht angezeigt wird.
Hinweis: Wenn der Anbieter nicht auf der Seite ist, wird er angezeigt pc_status
595
. Sie möchten dies tun, denn wenn der Auswahlschalter nicht vorhanden ist, können Sie beispielsweise einen universellen Auswahlschalter verwenden body
, как запасной variante. Beispiel: #some-button,body
.
# Kleine CSS-Auswahl
Nach einigen Ereignissen kann es vorkommen, dass einige Elemente nachträglich auf andere Websites übertragen werden, css_click_selector
Der Parameter „Temper“ kann nur wenige CSS-Selektoren verwenden. Wählen Sie den vertikalen Schwarz-Wähler aus (|
) simvol. Stellen Sie sicher, dass nach jeder Abfrage die in der URL gespeicherten Einträge angezeigt werden, damit das Problem bei der Analyse ermittelt werden kann.
Zunächst müssen Sie den Knopf mit der Identifikationsnummer drücken start-button
Nach Abschluss der Unterrichtsstunde next-page-link
. Sie haben uns gepostet css_click_selector
dieser Parameter:
- Originalauswahl:
#start-button|.next-page-link
- URL-kodiert:
%23start-button%7C.next-page-link
Wenn Sie diesen Parameter für Ihre API-Zugriffsberechtigung verwenden, erhalten Sie eine Garantie dafür, dass alle Elemente auf der Website verfügbar sind.
Bitte beachten Sie, dass alle verfügbaren Selektoren auf der Website ausgewählt und vermarktet werden, damit sie nicht gefunden werden. Wenn der Wählschalter nicht eingeschaltet ist, muss das Gerät mit der Bestellung, der Bestellung und dem Versand mit dem Gerät ausgestattet werden pc_status
595
Es wurde kein Reserve-Wahlschalter aktiviert.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# устройство
- Auf Wunsch
- Typ
string
Wenn Sie zuvor nicht den user_agent ausgewählt und keine Vorschläge für ein bestimmtes Gerät abgeschlossen haben, können Sie diesen Parameter verwenden.
Es stehen zwei Optionen zur Verfügung: desktop
и mobile
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch keine Cookies-Dateien verwenden, können Sie diese auf unserer Website verwenden &get_cookies=true
Parameter.
Cookie-Dateien werden im Browser angezeigt (oder Sie verwenden JSON, wenn Sie sie verwenden). &format=json
) Wie original_set_cookie
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# получить_заголовки
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch keine Beiträge erhalten, können Sie diese Website möglicherweise verwenden &get_headers=true
Parameter.
Заголовки будут возвращены в ответе как original_header_name
по умолчанию. Когда &format=json
передан, заголовок вернется как original_headers
.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# заголовки_запроса
- Auf Wunsch
- Typ
string
Sobald Sie die Anmeldegebühr auf einer bestimmten Website abgelehnt haben, können Sie sie verwenden &request_headers=EncodedRequestHeaders
Parameter.
Beispiele für die vorgeschlagene Vorgehensweise: принять-язык:en-GB|принять-code:gzip
Beispielcodes: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip
Bitte beachten Sie, dass nicht alle API-Anforderungen erfüllt sind. Wir empfehlen Ihnen, die heruntergeladenen Dateien zu testen und diese unter folgender URL zu lesen: https://postman-echo.com/headers
Wenn Sie keine zusätzlichen Anmeldedaten verwenden möchten, die keine API-Zugriffsberechtigung haben, verwenden Sie die Anmeldesimulation, um sie für Ihr Problem zu nutzen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Cookies setzen
- Auf Wunsch
- Typ
string
Sobald Sie die Cookie-Dateien auf Ihrer Website gelöscht haben, können Sie diese verwenden &cookies=EncodedCookies
Parameter.
Beispiele für Cookie-Dateien: key1=value1; key2=value2; key3=value3
Beispielcodes: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Ich empfehle Ihnen, gegen die Verwendung von Cookie-Dateien vorzugehen. Verwenden Sie dazu diese Test-URL: https://postman-echo.com/cookies
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_sitzung
- Auf Wunsch
- Typ
string
Wenn Sie noch keine Cookie-Dateien gelesen haben, können Sie diese nach jeder weiteren Anfrage erneut aufrufen использовать &cookies_session=
Parameter.
Team &cookies_session=
Der Parameter kann eine wichtige Rolle spielen. Um ein neues Cookie zu veröffentlichen, müssen Sie das neue Cookie von Seans erstellen API-Auswahl für diesen Eintrag значением сеанса Cookie). Die Dauer kann maximal 32 Zeichen betragen, da sie nach der letzten API-Anfrage etwa 300 Sekunden dauern.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Screenshot
- Auf Wunsch
- Typ
boolean
Wenn Sie verwenden JavaScript-Code, Sie können es gerne weitergeben &screenshot=true
Parameter zum Vergrößern von Bildern auf dem Bildschirm JPEG
Formatieren Sie alle angezeigten Seiten.
Crawlbase отправлю вам обратно screenshot_url
In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json
). screenshot_url
истекает через час.
Hinweis: Wenn Sie screenshot=true
Parameter, den Sie durch Hinzufügen weiterer Parameter aufrufen können:
mode
: Установлен inviewport
Für den Kauf einer Website auf einer polnischen Seite. Zur Verbesserungfullpage
.width
: Maximale Anzahl von Bildern in Pixeln (ergibt nur 100 %).mode=viewport
). По умолчанию – ширина экрана.height
: Ermöglichen Sie die maximale Anzahl an Pixelnmode=viewport
). По умолчанию – высота экрана.
Beispiel: &screenshot=true&mode=viewport&width=1200&height=800
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Geschäft
- Auf Wunsch
- Typ
boolean
Es ist ein Gewinn &store=true
Parameter zum Sichern von Kopien aus der API in Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).
Crawlbase отправлю вам обратно storage_url
In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json
).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Schaber
- Auf Wunsch
- Typ
string
Es werden Informationen bereitgestellt und im Internet mit einem von Ihnen ausgewählten Unternehmen analysiert. Überprüfe SPEISEKARTE ALLER DOSUST-SPEZIELLE DANKSTUNDEN (Neues Datum veröffentlicht) (öffnet neues Fenster) Die Liste aller ausgewählten Benutzer wird angezeigt und Sie können nichts anderes tun.
Möglicherweise wird das JSON-Format verwendet.
Bitte beachten Sie: Schaber – neuwertige Parameter. Wenn Sie dies nicht tun, verwenden Sie eine neue HTML-Seite, damit Sie sie erstellen können.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# asinchronnoj
- Auf Wunsch
- Typ
boolean
- Innerhalb kürzester Zeit kann LinkedIn.com diesen Parameter verwenden. Bitte beachten Sie, dass sich in der Regel noch andere Häuser befinden.
Es ist ein Gewinn &async=true
Parameter für die automatische Suche nach einer URL. Crawlbase сохранит полученную страницу в Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).
Das Ergebnis lautet: async=true
, Crawlbase Ich melde mich bei Ihnen, um einen Identitätsnachweis zu erhalten rid
Lesen Sie json. Sie müssen unbedingt die RID-Datei für die Erstellung von Dokumenten aus der Liste verwenden. С RID können Sie vor der Verwendung verwenden Wolke Storage API (aktuell geöffnet) (öffnet neues Fenster) Zur Verbesserung der Suchergebnisse.
Sie können async=true
Parameter in Verbindung mit anderen API-Parametern, zum Beispiel &async=true&autoparse=true
.
Пример запроса с async=true
Auswahl:
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Zum Beispiel weg mit async=true
Auswahl:
{ "rid": "1e92e8bff32c31c2728714d4" }
# Autoanalyse
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch nicht einmal die von Ihnen empfohlenen Seiten gelesen haben, können Sie sie weitergeben &autoparse=true
Parameter.
Wird im JSON-Format verwendet. Die Struktur wird von der angezeigten URL verlangt.
Bitte beachten Sie: &autoparse=true
neuwertiger Parameter. Wenn Sie keine HTML-Seite verwenden, können Sie diese automatisch scannen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# Land
- Auf Wunsch
- Typ
string
Wenn Sie wissen, dass sich Ihre Aufgaben auf geografischen Gebieten befinden, können Sie diese nutzen &country=
Parameter, wie &country=US
(Doppelbuchseiten).
Bitte beachten Sie, dass die Website-Besucher möglicherweise zu vielen Verhandlungsanfragen führen können Unter diesen Umständen wird die Geolokalisierung durchgeführt.
Bitte beachten Sie, dass andere Websites, wie z. B. Amazon, auf der Suche nach speziellen Proxy-Servern und auf anderen Websites vertreten sind Nichtsdestotrotz war es einer von ihnen, der sich im Internet befand oder nicht.
Sie sind gerade auf der nächsten Seite
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_netzwerk
- Auf Wunsch
- Typ
boolean
Wenn Sie onion-sites nach Tor scannen möchten, können Sie sie weitergeben &tor_network=true
Parameter.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# propolisieren
- Auf Wunsch
- Typ
boolean
Wenn Sie verwenden JavaScript-Code, Sie können es gerne weitergeben &scroll=true
Für die API dauert es 10 Sekunden, bis die Funktion scroll_interval läuft.
Wenn Sie länger als 10 Sekunden warten, lesen Sie es erneut &scroll=true&scroll_interval=20
. Diese Parameter müssen innerhalb von 20 Sekunden nach dem Herunterladen auf die Seite übertragen werden. Das maximale Zeitintervall beträgt 60 Sekunden, nach 60 Sekunden beginnt das System mit Daten und beginnt mit der Zeit.
Die Vertragslaufzeit beträgt 10 Sekunden. Nach ca. 5 Sekunden wird der Antrag auf JS übertragen Crawling API, nachdem Sie scroll_interval 20 aufgerufen haben, dauert das System die Seite maximal 20 Sekunden lang; Nach einer Dauer von nur 10 Sekunden wurden nur 2 zusätzliche Kosten im Rahmen von 4 übernommen.
Hinweis: Wenn Sie die Prüfung innerhalb von 90 Sekunden abgeschlossen haben, stellen Sie sicher, dass Ihr Test nicht länger als 60 Sekunden abgeschlossen ist.
Wichtig: In einigen Häusern gibt es mehr als nur ein automatisches System, das dann automatisch installiert wird. В сочетании с scroll
и page_wait
Parameter, die möglicherweise eine zusätzliche Anforderung darstellen. Suchen Sie nach weiteren Optionen, wenn Sie diese Einstellungen für Ihr Zuhause optimieren möchten.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"