Anmelden

Was es leistet

Das Crawlbase Codex Plugin verpackt Crawlbase MCP als Codex-natives Plugin. Nach der Installation können Sie Codex in einfachem Englisch bitten, eine Seite zu crawlen, ihren Inhalt zu extrahieren oder einen Screenshot zu erstellen - Codex wählt das richtige Tool, ruft Crawlbase auf und liefert das Ergebnis zurück.

Angetrieben von der Infrastruktur von Crawlbase: JavaScript-Rendering, automatische Proxy-Rotation und integrierter Anti-Bot-Bypass. Dieselbe Zuverlässigkeit wie in Ihrer Produktion, jetzt als Konversations-Interface in Codex.

Quellcode

Das Plugin ist Open Source: github.com/crawlbase/crawlbase-codex-plugin. Issues und PRs sind willkommen.

Voraussetzungen

Sie benötigen ein Crawlbase-Konto und zwei API-Token:

CRAWLBASE_TOKEN
required
Normal token - für statische Seiten.
CRAWLBASE_JS_TOKEN
required
JavaScript token - für JS-gerenderte Seiten und alle Screenshots.

Holen Sie sich beide aus Ihrem Dashboard. Siehe Authentication für den Unterschied.

Installation aus dem Codex Marketplace

  1. Öffnen Sie Codex und gehen Sie zu Plugins → Browse Marketplace.
  2. Suchen Sie nach Crawlbase Web Scraper.
  3. Klicken Sie auf Install.
  4. Geben Sie Ihr CRAWLBASE_TOKEN und CRAWLBASE_JS_TOKEN ein, sobald Sie dazu aufgefordert werden.
Marketplace-Eintrag in Kürze verfügbar

Der Marketplace-Eintrag wird derzeit noch geprüft. Nutzen Sie in der Zwischenzeit die manuelle Installation weiter unten.

Manuelle Installation

Klonen Sie das Repository in Ihr Codex-Plugins-Verzeichnis und setzen Sie die Umgebungsvariablen:

# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
  ~/.codex/plugins/crawlbase-mcp

# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN

# Restart Codex - the plugin auto-discovers

Verwendung

Nach der Installation fragen Sie Codex einfach in natürlicher Sprache. Codex wählt das richtige Tool und ruft Crawlbase im Hintergrund auf.

# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"

# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"

Bereitgestellte Tools

Das Plugin registriert drei Crawl-Tools und sechs Storage-Tools.

Crawl-Tools

crawl
Tool
Ruft eine beliebige URL ab und gibt rohes HTML zurück. Akzeptiert store: true, um die Seite an Cloud Storage zu übertragen, anstatt sie inline zurückzugeben.
crawl_markdown
Tool
Crawlen Sie eine URL und erhalten Sie sauberes Markdown - Inhalt aus HTML-Rauschen extrahiert, optimiert für die LLM-Verarbeitung. Unterstützt store: true.
crawl_screenshot
Tool
Rendert die URL als PNG. Der Screenshot wird ephemer über screenshot_url zurückgegeben: Das zugrunde liegende HTML kann mit store: true persistiert werden, das Bild selbst wird jedoch nicht gespeichert.

Storage-Tools

storage_get
Tool
Ruft eine gespeicherte Seite per rid oder url ab. Geben Sie as: "json", "html" oder "markdown" an, um das Format der Response zu wählen.
storage_bulk_get
Tool
Ruft bis zu 100 RIDs in einem Aufruf ab. Optionales delete_after-Flag für Fire-and-Forget-Pipelines.
storage_list
Tool
Listet gespeicherte RIDs mit Scroll-Pagination auf, bis zu 1.000 pro Aufruf.
storage_count
Tool
Gesamtanzahl der Dokumente in Ihrem Storage-Silo.
storage_delete
Tool
Löscht eine einzelne gespeicherte Seite per RID.
storage_bulk_delete
Tool
Löscht bis zu 100 RIDs in einem Aufruf.

Beispiele zur Storage-Verwendung

"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"

Storage-Silos pro Token

Der Storage ist pro Token partitioniert. Mit CRAWLBASE_TOKEN gecrawlte Seiten liegen in einem anderen Silo als Seiten, die mit CRAWLBASE_JS_TOKEN gecrawlt werden (welches JS-gerenderte Seiten und alle Screenshots abdeckt).

Jede Crawl-Response enthält ein token_type-Feld - "normal" oder "js": Das verrät Ihnen, in welchem Silo ein Ergebnis gelandet ist. Beim Aufruf eines beliebigen Storage-Tools übergeben Sie use_js_token: true, wenn das Element im JS-Silo liegt. Andernfalls lassen Sie es weg.

Eine Abfrage am falschen Silo liefert "Not found"

Wenn storage_get einen Not-Found-Fehler für eine RID zurückgibt, von der Sie wissen, dass sie existiert, fragen Sie wahrscheinlich das falsche Silo ab. Versuchen Sie es erneut mit use_js_token: true (oder entfernen Sie es, falls es gesetzt war).