Airbyte · Crawlbase Documentation

Bald verfügbar - Vorschau der Funktionsweise

Der dedizierte Crawlbase Airbyte-Source-Connector befindet sich in Entwicklung. Setup und Streams unten sind eine Vorschau auf den finalen Flow. Schreiben Sie uns eine E-Mail, um benachrichtigt zu werden, sobald er verfügbar ist.

Sie brauchen es heute? Verwenden Sie Airbytes HTTP API-Source gegen die Crawling API, oder pushen Sie Ergebnisse zu Cloud Storage und ingestieren Sie das Bucket über Airbytes S3-Source - beides funktioniert end-to-end ohne den dedizierten Connector.

Setup

Gehen Sie in Ihrer Airbyte-Instanz zu Sources → New Source.
Suchen Sie nach Crawlbase und wählen Sie es aus.
Konfigurieren: Fügen Sie Ihr Token ein, wählen Sie einen Crawler (die Queue, an die Sie URLs pushen), und wählen Sie die zu synchronisierenden Streams aus.
Testen Sie die Verbindung, speichern Sie und verbinden Sie sich mit einem Ziel.

Streams

crawl_results

inkrementell

Jeder abgeschlossene Crawl, eine Zeile pro URL. Spalten: rid, url, cb_status, original_status, completed_at, body, headers.

scraper_outputs

inkrementell

Strukturierte Scraper-Ergebnisse mit pro Scraper automatisch abgeleiteten Schemas (Amazon, Google usw.), die als verschachtelte Spalten verfügbar sind.

crawler_status

vollständige Aktualisierung

Snapshot des Zustands der Crawler-Queue: Anzahl der Einträge in Queue, in Bearbeitung sowie abgeschlossen/fehlgeschlagen pro Crawler.

Muster

Stündliches Produktpreis-Warehouse: Pushen Sie Produkt-URLs an einen Crawler mit dem Amazon-Scraper. Stündlich synchronisieren. Bauen Sie darauf ein dbt-Modell, um Preissenkungen zu markieren.
Compliance-Archiv: tägliche Full-Page-Crawls regulierter Sites, via Airbyte mit S3 synchronisiert. Mit Zeitstempel, Schema und abfragbar.
SEO-Wettbewerbsbeobachtung: SERPs wöchentlich gescraped, mit BigQuery synchronisiert, in Looker als Dashboard dargestellt.