Anmelden

Voraussetzungen

Sie benötigen genau zwei Dinge:

  • Ein kostenloses Crawlbase-Konto - bringt Ihnen 1.000 kostenlose Requests, keine Kreditkarte erforderlich.
  • Entweder curl in Ihrer Shell oder eines unserer offiziellen SDKs in Ihrem Projekt.
Zwei Token, ein Konto

Jedes Konto verfügt über einen Normal token (TCP, am schnellsten) und einen JavaScript token (vollständiges Chrome-Rendering). Wählen Sie je nach Website: Die meisten APIs und statischen Seiten funktionieren mit dem Normal token.

Ihre erste Anfrage

Die Crawling API benötigt einen einzigen erforderlichen Parameter - url: vollständig URL-kodiert. Setzen Sie Ihr Token ein und schon crawlen Sie.

GEThttps://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')

print(res['status_code'])
print(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')

puts res.status_code
puts res.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');

echo $res->statusCode . PHP_EOL;
echo $res->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://httpbin.org/headers")
    fmt.Println(res.StatusCode)
    fmt.Println(res.Body)
}
Windows-Eingabeaufforderung

In der Windows-Eingabeaufforderung (cmd.exe) ersetzen Sie die einfachen Anführungszeichen um die URL durch doppelte Anführungszeichen: curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Einfache Anführungszeichen sind eine Konvention der Unix-Shell; cmd.exe gibt sie wörtlich weiter und die Anfrage schlägt fehl. PowerShell sowie macOS- und Linux-Shells akzeptieren die obige Form mit einfachen Anführungszeichen.

Sie erhalten das HTML der Seite zurück, dazu einige Header, die beschreiben, was beim Zielserver passiert ist. Die wichtigsten:

original_status
int
Der HTTP-Status, den die Zielseite an uns zurückgegeben hat. Nützlich, um „Seite meldet 404" von „Wir konnten die Seite nicht erreichen" zu unterscheiden.
pc_status
int
Der Crawlbase-Statuscode. 200 bedeutet Erfolg. Die vollständige Liste finden Sie unter status codes.
url
string
Die endgültige URL nach allen Weiterleitungen. Nützlich, wenn Sie wissen möchten, wo Sie tatsächlich gelandet sind.
rid
stringoptional
Ein Request-Identifier, der zurückgegeben wird, wenn Sie &async=true oder &store=true verwenden. Damit können Sie die Seite im Cloud Storage abrufen.

Brauchen Sie JavaScript-Rendering?

Websites, die mit React, Vue, Angular oder allem, was eine leere HTML-Hülle ausliefert, gebaut sind, benötigen einen echten Browser. Wechseln Sie zu Ihrem JavaScript token: selber Endpoint, anderes Token.

curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
    'page_wait': 2000,
    'ajax_wait': True,
})
print(res['body'])

Nützliche Parameter für JS-Rendering:

  • page_wait: wartet N Millisekunden nach dem Laden (Standardwert 0).
  • ajax_wait: wartet, bis das Netzwerk inaktiv ist.
  • css_click_selector: klickt ein Element an, bevor erfasst wird.

Die vollständige Liste finden Sie unter Crawling API-Parameter.

Nächste Schritte

Sie crawlen. Wählen Sie jetzt Ihren Weg:

Jeder Parameter, jeder Header, jeder Statuscode.
Sparen Sie sich das Parsen. Scraper liefern sauberes JSON zurück.
URLs in die Enterprise Crawler-Queue pushen.
MCP-Server, Claude-Integration, Prompt-Patterns.