# Parameter
Die API verfügt über folgende Parameter: Es werden nur ein Token und eine URL benötigt, остальные необязательны.
# Zeichen
- notwendig
- Typ
string
Dieser Parameter wird für alle Benutzer angezeigt.
Es handelt sich um eine Authentifizierung. Es handelt sich um zwei Token: Ein Link für zusätzliche JavaScript-Anforderungen und eine zusätzliche JavaScript-Anforderung.
Verwenden Sie JavaScript, um Inhalte zu erhalten, die Sie nicht scannen können. Es wird mit JavaScript generiert und kann auf dieser Seite mit JavaScript erstellt werden (React, Angular и т. д.), Es kann sein, dass der Inhalt im Browser generiert wird.
Beliebiger Token
_USER_TOKEN_
JavaScript-Code
_JS_TOKEN_
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- notwendig
- Typ
string
Dieser Parameter wird für alle Benutzer angezeigt.
Ich brauche eine URL zum Scannen. Bitte beachten Sie, dass dies auf http oder https erfolgt ist полностью закодирован.
Zum Beispiel folgende URL-Adresse: https://github.com/crawlbase?tab=repositories Die URL-Adresse muss über die API-Suche nach dem folgenden Ziel eingegeben werden: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Format
- Auf Wunsch
- Typ
string
Das angegebene Format wird angezeigt json or html. Standardmäßig html.
Es gibt Format html ergreift, Crawlbase Finden Sie die angezeigten Parameter heraus (sm. HTML-Antwort unten).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# ziemlich
- Auf Wunsch
- Typ
boolean
Wenn Sie dies bestätigen json Bitte beachten Sie, dass Sie Ihr Unternehmen optimieren und verwenden möchten &pretty=true.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- Auf Wunsch
- Typ
string
Wenn Sie Ihre Anfrage an einen anderen Agenten senden möchten, können Sie diese Nachricht weitergeben, und unsere Server übertragen sie auf die angegebene URL.
Мы рекомендуем NICHT Verwenden Sie diese Parameter und stellen Sie sicher, dass Ihr Intellekt diesen Parameter verwendet.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Seite_warten
- Auf Wunsch
- Typ
number
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben page_wait Parameter zur Überwachung der Gesamtzahl Millisekunden Darüber hinaus benötigt der Brauzer einen mehrteiligen HTML-Code.
Nach einigen Monaten dauert die Bewertung der Seite nur eine Sekunde oder Sie müssen erst nach dem Laden des HTML-Codes einen Ajax-Code herunterladen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- Auf Wunsch
- Typ
boolean
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben ajax_wait Parameter zur Überwachung der Ajax-Anforderungen vor der Veröffentlichung der HTML-Anfrage.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# CSS-Klickselektor
- Auf Wunsch
- Typ
string
# Einzelner CSS-Selektor
Wenn Sie JavaScript verwenden, können Sie es zusätzlich weitergeben css_click_selector Parameter für die Auswahl eines Elements auf der Seite, bevor der Browser einen zusätzlichen HTML-Code benötigt.
Bei diesem Parameter handelt es sich um einen ausgewählten und deinstallierten CSS-Selektor. Sie können beispielsweise auch die Auswahl-ID verwenden #some-button, Auswahlklasse, Beispiel .some-other-buttonOder wählen Sie Attribute aus [data-tab-item="tab1"]. Es ist wichtig, dass der CSS-Wähler normalerweise verwendet wird, damit er nicht angezeigt wird.
Hinweis: Wenn der Anbieter nicht auf der Seite ist, wird er angezeigt pc_status 595. Sie möchten dies tun, denn wenn der Auswahlschalter nicht vorhanden ist, können Sie beispielsweise einen universellen Auswahlschalter verwenden body, как запасной variante. Beispiel: #some-button,body.
# Mehrere CSS-Selektoren
Aufgrund der aktuellen Ereignisse kann es vorkommen, dass einige Elemente später auf die nächste Website verschoben werden. css_click_selector Der Parameter „Temper“ kann nur wenige CSS-Selektoren verwenden. Wählen Sie den vertikalen Schwarz-Wähler aus (|) simvol. Stellen Sie sicher, dass nach jeder Abfrage die in der URL gespeicherten Einträge angezeigt werden, damit das Problem bei der Analyse ermittelt werden kann.
Zunächst müssen Sie den Knopf mit der Identifikationsnummer drücken start-button Nach Abschluss der Unterrichtsstunde next-page-link. Sie haben uns gepostet css_click_selector dieser Parameter:
- Originalauswahl:
#start-button|.next-page-link - URL-kodiert:
%23start-button%7C.next-page-link
Wenn Sie diesen Parameter für Ihre API-Zugriffsberechtigung verwenden, erhalten Sie eine Garantie dafür, dass alle Elemente auf der Website verfügbar sind.
Bitte beachten Sie, dass alle verfügbaren Selektoren auf der Website ausgewählt und vermarktet werden, damit sie nicht gefunden werden. Wenn der Wählschalter nicht eingeschaltet ist, muss das Gerät mit der Bestellung, der Bestellung und dem Versand mit dem Gerät ausgestattet werden pc_status 595 Es wurde kein Reserve-Wahlschalter aktiviert.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Gerät
- Auf Wunsch
- Typ
string
Wenn Sie zuvor nicht den user_agent ausgewählt und keine Vorschläge für ein bestimmtes Gerät abgeschlossen haben, können Sie diesen Parameter verwenden.
Es stehen zwei Optionen zur Verfügung: desktop и mobile.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch keine Cookies-Dateien verwenden, können Sie diese auf unserer Website verwenden &get_cookies=true Parameter.
Cookie-Dateien werden im Browser angezeigt (oder Sie verwenden JSON, wenn Sie sie verwenden). &format=json) Wie original_set_cookie.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_headers
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch keine Beiträge erhalten, können Sie diese Website möglicherweise verwenden &get_headers=true Parameter.
Заголовки будут возвращены в ответе как original_header_name по умолчанию. Когда &format=json передан, заголовок вернется как original_headers.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Anforderungsheader
- Auf Wunsch
- Typ
string
Sobald Sie die Anmeldegebühr auf einer bestimmten Website abgelehnt haben, können Sie sie verwenden &request_headers=EncodedRequestHeaders Parameter.
Beispiele für die vorgeschlagene Vorgehensweise: принять-язык:en-GB|принять-code:gzip
Beispielcodes: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip
Bitte beachten Sie, dass nicht alle API-Anforderungen erfüllt sind. Wir empfehlen Ihnen, die heruntergeladenen Dateien zu testen und diese unter folgender URL zu lesen: https://postman-echo.com/headers
Wenn Sie keine zusätzlichen Anmeldedaten verwenden möchten, die keine API-Zugriffsberechtigung haben, verwenden Sie die Anmeldesimulation, um sie für Ihr Problem zu nutzen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# Cookies setzen
- Auf Wunsch
- Typ
string
Sobald Sie die Cookie-Dateien auf Ihrer Website gelöscht haben, können Sie diese verwenden &cookies=EncodedCookies Parameter.
Beispiele für Cookie-Dateien: key1=value1; key2=value2; key3=value3
Beispielcodes: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Ich empfehle Ihnen, gegen die Verwendung von Cookie-Dateien vorzugehen. Verwenden Sie dazu diese Test-URL: https://postman-echo.com/cookies
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_sitzung
- Auf Wunsch
- Typ
string
Wenn Sie noch keine Cookie-Dateien gelesen haben, können Sie diese nach jeder weiteren Anfrage erneut aufrufen использовать &cookies_session= Parameter.
Die &cookies_session= Der Parameter kann eine wichtige Rolle spielen. Um ein neues Cookie zu veröffentlichen, müssen Sie das neue Cookie von Seans erstellen API-Auswahl für diesen Eintrag значением сеанса Cookie). Die Dauer kann maximal 32 Zeichen betragen, da sie nach der letzten API-Anfrage etwa 300 Sekunden dauern.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Screenshot
- Auf Wunsch
- Typ
boolean
Wenn Sie verwenden JavaScript-Code, Sie können es gerne weitergeben &screenshot=true Parameter zum Vergrößern von Bildern auf dem Bildschirm JPEG Formatieren Sie alle angezeigten Seiten.
Crawlbase отправлю вам обратно screenshot_url In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json). screenshot_url истекает через час.
Hinweis: Wenn Sie screenshot=true Parameter, den Sie durch Hinzufügen weiterer Parameter aufrufen können:
mode: Установлен inviewportFür den Kauf einer Website auf einer polnischen Seite. Zur Verbesserungfullpage.width: Maximale Anzahl von Bildern in Pixeln (ergibt nur 100 %).mode=viewport). По умолчанию – ширина экрана.height: Ermöglichen Sie die maximale Anzahl an Pixelnmode=viewport). По умолчанию – высота экрана.
Beispiel: &screenshot=true&mode=viewport&width=1200&height=800
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Shop an
- Auf Wunsch
- Typ
boolean
Es ist ein Gewinn &store=true Parameter zum Sichern von Kopien aus der API in Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).
Crawlbase отправлю вам обратно storage_url In den folgenden Abschnitten (oder in json angezeigt, falls Sie diese verwenden). &format=json).
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Schaber
- Auf Wunsch
- Typ
string
Es werden Informationen bereitgestellt und im Internet mit einem von Ihnen ausgewählten Unternehmen analysiert. Überprüfe SPEISEKARTE ALLER DOSUST-SPEZIELLE DANKSTUNDEN (Neues Datum veröffentlicht) (öffnet neues Fenster) Die Liste aller ausgewählten Benutzer wird angezeigt und Sie können nichts anderes tun.
Möglicherweise wird das JSON-Format verwendet.
Bitte beachten Sie: Schaber – neuwertige Parameter. Wenn Sie dies nicht tun, verwenden Sie eine neue HTML-Seite, damit Sie sie erstellen können.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# async
- Auf Wunsch
- Typ
boolean - Innerhalb kürzester Zeit kann LinkedIn.com diesen Parameter verwenden. Bitte beachten Sie, dass sich in der Regel noch andere Häuser befinden.
Es ist ein Gewinn &async=true Parameter für die automatische Suche nach einer URL. Crawlbase сохранит полученную страницу в Crawlbase Cloud Storage (aktuell geöffnet) (öffnet neues Fenster).
Das Ergebnis lautet: async=true, Crawlbase Ich melde mich bei Ihnen, um einen Identitätsnachweis zu erhalten rid Lesen Sie json. Sie müssen unbedingt die RID-Datei für die Erstellung von Dokumenten aus der Liste verwenden. С RID können Sie vor der Verwendung verwenden Облачное хранилище (aktuell geöffnet) (öffnet neues Fenster) Zur Verbesserung der Suchergebnisse.
Sie können async=true Parameter in Verbindung mit anderen API-Parametern, zum Beispiel &async=true&autoparse=true.
Пример запроса с async=true Auswahl:
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Zum Beispiel weg mit async=true Auswahl:
{ "rid": "1e92e8bff32c31c2728714d4" }
# automatische Analyse
- Auf Wunsch
- Typ
boolean
Wenn Sie jedoch noch nicht einmal die von Ihnen empfohlenen Seiten gelesen haben, können Sie sie weitergeben &autoparse=true Parameter.
Wird im JSON-Format verwendet. Die Struktur wird von der angezeigten URL verlangt.
Bitte beachten Sie: &autoparse=true neuwertiger Parameter. Wenn Sie keine HTML-Seite verwenden, können Sie diese automatisch scannen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# Land
- Auf Wunsch
- Typ
string
Wenn Sie wissen, dass sich Ihre Aufgaben auf geografischen Gebieten befinden, können Sie diese nutzen &country= Parameter, wie &country=US (Doppelbuchseiten).
Bitte beachten Sie, dass die Website-Besucher möglicherweise zu vielen Verhandlungsanfragen führen können Unter diesen Umständen wird die Geolokalisierung durchgeführt.
Bitte beachten Sie, dass andere Websites, wie z. B. Amazon, auf der Suche nach speziellen Proxy-Servern und auf anderen Websites vertreten sind Nichtsdestotrotz war es einer von ihnen, der sich im Internet befand oder nicht.
Sie sind gerade auf der nächsten Seite
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_netzwerk
- Auf Wunsch
- Typ
boolean
Wenn Sie onion-sites nach Tor scannen möchten, können Sie sie weitergeben &tor_network=true Parameter.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# blättern
- Auf Wunsch
- Typ:
boolean
Schließt eine automatische Verbindung zum Aufladen dynamischer Sprachen bei der Verwendung eines echten Seans-Brauzers ab. Wird mit JavaScript verwendet.
Parameter
scroll=true:Schließt den Vorgang ab.scroll_interval:Sechs Tage (Sekunden). Es werden mehrere Projekte durchgeführt. Weitere Seiten herunterladen. Dollt:10. Maksimum:60.
Beispiel: &scroll=true&scroll_interval=20
Verhalten
Nach dem Auftritt
scroll=trueNach der Installation lädt die API die URL in einen echten Browser und speichert sie programmgesteuert auf der Seitescroll_intervalZwei Sekunden zum Aufladen dynamischer Download-Inhalte (zum Beispiel, kostenlose Downloads).Nach Abschluss des Kaufs wird der Betrag gelöscht und angezeigt.
If
scroll_intervalNicht mehr verfügbar, nach 10 Sekunden.
Billing
Angebote mit einer abgeschlossenen Tarifierung nach Ablauf der letzten Vertragslaufzeiten auf dem Server:
Vorherige Sprachausgabe:
Jeder
scroll=trueDie API-Tarifierung erfolgt wie folgt 1 Sekunde, охватывающий первый (8%) Während der gesamten Bearbeitungszeit (auf Englisch herunterladen und herunterladen).Zusätzliche Tarife:
Für jedes 5 Sekunden länger Bearbeitungszeit vor Ablauf von 8 Sekunden, 1 zusätzliche Sicherheitsgarantie hinzugefügt.
- Berechnungsbeispiel:
- Bearbeitungszeit: 20 Sekunden
- 1 Tarif für jeweils 8 Sekunden
- +1 оплачиваемый запрос für Sekunden 9–13
- +1 оплачиваемый запрос für Sekunden 14–18
- +1 Tarifvergünstigungen (19–20 Jahre, diese Tarife gelten als polnischer Block)
- Mehrmals gelesen: 4 Vorschläge
- 1 Tarif für jeweils 8 Sekunden
- Wenn der Prozess nach der Installation von scroll_interval abgeschlossen ist, wird eine kurze Zeitspanne angezeigt.
Aufzeichnungen
Maximal zulässiges scroll_interval 60 Sekunden. Es dauert ca. 60 Sekunden, bis der Auftrag abgeschlossen ist und dann angezeigt wird.
Zeitspanne: Wenn Sie
scroll_interval=60, vergewissern Sie sich, dass die Kundenbestätigung innerhalb von 90 Sekunden erfolgt.Spezifische Informationen für die Website: Einige Häuser können mehr als zwei Monate lang auf den Server zugreifen, der automatisch aktiviert wird. Beschreibung
scrollсpage_waitEs kann sein, dass Sie während des gesamten Prozesses eine Weile warten und die Dateien löschen.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# benutzerdefinierte Erfolgscodes
- Auf Wunsch
- Typ
string
Es wird empfohlen, einen HTTP-Code-Status für mehrere Benutzer anzuzeigen, der nach Erhalt neuer Antworten analysiert wird und keine weiteren Download-Inhalte enthält и Suchen Sie nach diesem aktuellen Code-Status.
Anwendung: custom_success_codes=403,429,503
Dieser Parameter ist auf mehrere Häuser beschränkt und wird durch die folgenden Codes (Beispiel: 403 oder 500) angezeigt успешными für вашего Konkrete Variante der Verwendung.
Hinweis: Wenn Sie diesen Parameter verwenden, müssen Sie sich unbedingt mit ihm befassen, damit er Ihnen eine Antwort auf Ihre Vorschläge geben kann.
- curl
- Rubin
- Knoten
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"