MCP Server · Crawlbase Documentation

Was ist MCP?

Das Model Context Protocol ist ein offener Standard zur Anbindung von KI-Assistenten an externe Tools. Der Crawlbase MCP-Server spricht MCP, sodass jeder kompatible Client - Claude Desktop, Cursor, Zed, Continue, das OpenAI Agents SDK - Crawlbase als native Funktion nutzen kann.

Das Ergebnis: Ihre KI kann während eines Gesprächs eine Seite abrufen, ein Produkt parsen, einen Screenshot erstellen oder das Web durchsuchen. Kein Glue-Code, kein Copy-Paste zwischen Fenstern, kein Proxy-Server.

Dieselben APIs, konversationelles Interface

Der MCP-Server ist ein dünner Wrapper über dieselben APIs, die in AI & MCP dokumentiert sind. Ihr Token, Ihre Concurrency-Limits, Ihre Nutzung. Das Einzige, was sich ändert, ist, wer aufruft: Ihr Code oder Ihre KI.

Installation

Der Server läuft als kleiner Node-Prozess. Die meisten Clients starten ihn bei Bedarf über npx: keine globale Installation erforderlich.

# No install - let your client launch it
npx @crawlbase/mcp@latest
# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcp
docker run -i --rm \
  -e CRAWLBASE_TOKEN=YOUR_TOKEN \
  -e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
  crawlbase/mcp

Quellcode auf GitHub. Erfordert Node 18+ bei direkter Ausführung.

Client konfigurieren

Jeder MCP-Client verwendet dieselbe Config-Struktur: Servername, auszuführender Befehl, Umgebungsvariablen. Fügen Sie dies in die Config-Datei Ihres Clients ein.

{
  "mcpServers": {
    "crawlbase": {
      "type": "stdio",
      "command": "npx",
      "args": ["@crawlbase/mcp@latest"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_TOKEN",
        "CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
      }
    }
  }
}

Setup-Anleitungen pro Client:

Claude Desktop & Claude Code - Config in claude_desktop_config.json / claude.json
Cursor - Settings → Tools and Integrations → Add Custom MCP
VS Code & Windsurf - über Continue, Cline oder den integrierten MCP-Support von Windsurf
Codex Plugin - kapselt diesen Server als natives Codex-Plugin

Bereitgestellte Tools

Der Server registriert drei Crawl-Tools und sechs Storage-Tools. Ihre KI sieht jedes davon als aufrufbare Funktion.

Crawl-Tools

crawl

tool

Eine beliebige URL abrufen und rohes HTML zurückgeben. Wird auf die Crawling API abgebildet. Akzeptiert store: true, um Ergebnisse an Cloud Storage zu übergeben.

crawl_markdown

tool

Crawlen Sie eine URL und erhalten Sie sauberes Markdown - Inhalt extrahiert aus dem HTML, optimiert für LLM-Verarbeitung.

crawl_screenshot

tool

Rendert die URL als PNG. Wird als Bildinhalt zurückgegeben, den das Modell direkt sehen kann. Akzeptiert store: true, um die zugrunde liegende HTML-Seite in Cloud Storage zu speichern (das Screenshot-Bild selbst wird nicht gespeichert, nur das gerenderte HTML).

Storage-Tools

Sechs Tools zum Abrufen und Verwalten von Seiten, die über store: true gespeichert wurden:

storage_get

tool

Eine gespeicherte Seite per rid oder url abrufen. Wählen Sie das Response-Format mit as: "json" | "html" | "markdown".

storage_bulk_get

tool

Rufen Sie bis zu 100 RIDs in einem einzigen Aufruf ab. Übergeben Sie as: "metadata_only" (Standard), um den Kontext schlank zu halten - gibt nur RID/URL/Zeitstempel zurück - oder as: "json" | "html" | "markdown", um Bodies einzuschließen. Optional auto_delete: true für Fire-and-Forget-Pipelines, die das Silo beim Lesen leeren.

storage_list

tool

Gespeicherte RIDs mit Scroll-Pagination auflisten, bis zu 1.000 pro Aufruf.

storage_count

tool

Gesamtanzahl der Dokumente in Ihrem Storage-Silo.

storage_delete

tool

Eine gespeicherte Seite per RID löschen.

storage_bulk_delete

tool

Bis zu 100 gespeicherte Seiten per RID in einem einzigen Aufruf löschen. Nützlich, um das Silo am Ende einer Pipeline zu leeren.

Storage-Silos pro Token

Storage ist pro Token partitioniert. Mit CRAWLBASE_TOKEN gecrawlte Seiten liegen in einem anderen Silo als mit CRAWLBASE_JS_TOKEN gecrawlte Seiten. Das Feld token_type in Crawl-Responses ("normal" oder "js") zeigt Ihnen, welches. Übergeben Sie use_js_token: true an Storage-Tools, wenn Sie Elemente aus dem JS-Silo abrufen.

Beispielsitzung

Einmal konfiguriert, ruft Ihre KI diese Tools natürlich während des Gesprächs auf. Ein typischer Durchgang sieht so aus:

# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?

# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
  url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.de/dp/1098145356"
)

# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).

Umgebungsvariablen

CRAWLBASE_TOKEN

erforderlich

Ihr Normal token. Wird standardmäßig für die Tools crawl, crawl_markdown und die Storage-Tools verwendet.

CRAWLBASE_JS_TOKEN

Sicherheitshinweise

Tokens verlassen niemals den Serverprozess. Der MCP-Client sieht Tool-Definitionen und Ergebnisse, nicht Ihre Credentials.
Das Modell kann jede beliebige URL anfragen. Wenn Sie befürchten, dass Prompt Injection ausgehende Requests auslöst, betreiben Sie den Server mit CRAWLBASE_ALLOWED_DOMAINS als Allowlist.
Lokal ausführen. Der Server ist für lokalen Stdio-Transport ausgelegt. Stellen Sie ihn nicht ohne Auth-Layer übers Netzwerk bereit.