Verwendung mit OpenAI
Ein natives Plugin, das Crawlbase MCP in OpenAI Codex bringt. Crawlen Sie jede URL, extrahieren Sie sauberes Markdown, erstellen Sie Screenshots und übertragen Sie Ergebnisse optional an Cloud Storage - alles ohne Codex zu verlassen.
Was es leistet
Das Crawlbase Codex Plugin verpackt Crawlbase MCP als Codex-natives Plugin. Nach der Installation können Sie Codex in einfachem Englisch bitten, eine Seite zu crawlen, ihren Inhalt zu extrahieren oder einen Screenshot zu erstellen - Codex wählt das richtige Tool, ruft Crawlbase auf und liefert das Ergebnis zurück.
Angetrieben von der Infrastruktur von Crawlbase: JavaScript-Rendering, automatische Proxy-Rotation und integrierter Anti-Bot-Bypass. Dieselbe Zuverlässigkeit wie in Ihrer Produktion, jetzt als Konversations-Interface in Codex.
Das Plugin ist Open Source: github.com/crawlbase/crawlbase-codex-plugin. Issues und PRs sind willkommen.
Voraussetzungen
Sie benötigen ein Crawlbase-Konto und zwei API-Token:
Holen Sie sich beide aus Ihrem Dashboard. Siehe Authentication für den Unterschied.
Installation aus dem Codex Marketplace
- Öffnen Sie Codex und gehen Sie zu Plugins → Browse Marketplace.
- Suchen Sie nach Crawlbase Web Scraper.
- Klicken Sie auf Install.
- Geben Sie Ihr
CRAWLBASE_TOKENundCRAWLBASE_JS_TOKENein, sobald Sie dazu aufgefordert werden.
Der Marketplace-Eintrag wird derzeit noch geprüft. Nutzen Sie in der Zwischenzeit die manuelle Installation weiter unten.
Manuelle Installation
Klonen Sie das Repository in Ihr Codex-Plugins-Verzeichnis und setzen Sie die Umgebungsvariablen:
# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
~/.codex/plugins/crawlbase-mcp
# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN
# Restart Codex - the plugin auto-discoversVerwendung
Nach der Installation fragen Sie Codex einfach in natürlicher Sprache. Codex wählt das richtige Tool und ruft Crawlbase im Hintergrund auf.
# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"
# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"Bereitgestellte Tools
Das Plugin registriert drei Crawl-Tools und sechs Storage-Tools.
Crawl-Tools
store: true, um die Seite an Cloud Storage zu übertragen, anstatt sie inline zurückzugeben.store: true.screenshot_url zurückgegeben: Das zugrunde liegende HTML kann mit store: true persistiert werden, das Bild selbst wird jedoch nicht gespeichert.Storage-Tools
rid oder url ab. Geben Sie as: "json", "html" oder "markdown" an, um das Format der Response zu wählen.delete_after-Flag für Fire-and-Forget-Pipelines.Beispiele zur Storage-Verwendung
"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"Storage-Silos pro Token
Der Storage ist pro Token partitioniert. Mit CRAWLBASE_TOKEN gecrawlte Seiten liegen in einem anderen Silo als Seiten, die mit CRAWLBASE_JS_TOKEN gecrawlt werden (welches JS-gerenderte Seiten und alle Screenshots abdeckt).
Jede Crawl-Response enthält ein token_type-Feld - "normal" oder "js": Das verrät Ihnen, in welchem Silo ein Ergebnis gelandet ist. Beim Aufruf eines beliebigen Storage-Tools übergeben Sie use_js_token: true, wenn das Element im JS-Silo liegt. Andernfalls lassen Sie es weg.
Wenn storage_get einen Not-Found-Fehler für eine RID zurückgibt, von der Sie wissen, dass sie existiert, fragen Sie wahrscheinlich das falsche Silo ab. Versuchen Sie es erneut mit use_js_token: true (oder entfernen Sie es, falls es gesetzt war).
Verwandte Themen
- Crawlbase MCP Server - der zugrunde liegende MCP-Server, den das Plugin verpackt
- Cloud Storage - das Storage-Backend
- Prompt-Patterns - bewährte Prompts, die Sie für Codex anpassen können