Schnellstart
Melden Sie sich an, holen Sie sich ein Token, senden Sie Ihre erste Anfrage. Von null zum Crawling in weniger Zeit, als das Aufbrühen eines Kaffees dauert.
Voraussetzungen
Sie benötigen genau zwei Dinge:
- Ein kostenloses Crawlbase-Konto - bringt Ihnen 1.000 kostenlose Requests, keine Kreditkarte erforderlich.
- Entweder
curlin Ihrer Shell oder eines unserer offiziellen SDKs in Ihrem Projekt.
Jedes Konto verfügt über einen Normal token (TCP, am schnellsten) und einen JavaScript token (vollständiges Chrome-Rendering). Wählen Sie je nach Website: Die meisten APIs und statischen Seiten funktionieren mit dem Normal token.
Ihre erste Anfrage
Die Crawling API benötigt einen einzigen erforderlichen Parameter - url: vollständig URL-kodiert. Setzen Sie Ihr Token ein und schon crawlen Sie.
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')
print(res['status_code'])
print(res['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')
puts res.status_code
puts res.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');
echo $res->statusCode . PHP_EOL;
echo $res->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://httpbin.org/headers")
fmt.Println(res.StatusCode)
fmt.Println(res.Body)
}In der Windows-Eingabeaufforderung (cmd.exe) ersetzen Sie die einfachen Anführungszeichen um die URL durch doppelte Anführungszeichen: curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Einfache Anführungszeichen sind eine Konvention der Unix-Shell; cmd.exe gibt sie wörtlich weiter und die Anfrage schlägt fehl. PowerShell sowie macOS- und Linux-Shells akzeptieren die obige Form mit einfachen Anführungszeichen.
Sie erhalten das HTML der Seite zurück, dazu einige Header, die beschreiben, was beim Zielserver passiert ist. Die wichtigsten:
200 bedeutet Erfolg. Die vollständige Liste finden Sie unter status codes.&async=true oder &store=true verwenden. Damit können Sie die Seite im Cloud Storage abrufen.Brauchen Sie JavaScript-Rendering?
Websites, die mit React, Vue, Angular oder allem, was eine leere HTML-Hülle ausliefert, gebaut sind, benötigen einen echten Browser. Wechseln Sie zu Ihrem JavaScript token: selber Endpoint, anderes Token.
curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
'page_wait': 2000,
'ajax_wait': True,
})
print(res['body'])Nützliche Parameter für JS-Rendering:
page_wait: wartet N Millisekunden nach dem Laden (Standardwert 0).ajax_wait: wartet, bis das Netzwerk inaktiv ist.css_click_selector: klickt ein Element an, bevor erfasst wird.
Die vollständige Liste finden Sie unter Crawling API-Parameter.
Nächste Schritte
Sie crawlen. Wählen Sie jetzt Ihren Weg: