Airbytebald
Leiten Sie Crawlbase-Output direkt nach Snowflake, BigQuery, Redshift oder Postgres. Der Airbyte-Source-Connector übernimmt inkrementelle Synchronisation und Schemaverwaltung.
Der dedizierte Crawlbase Airbyte-Source-Connector befindet sich in Entwicklung. Setup und Streams unten sind eine Vorschau auf den finalen Flow. Schreiben Sie uns eine E-Mail, um benachrichtigt zu werden, sobald er verfügbar ist.
Sie brauchen es heute? Verwenden Sie Airbytes HTTP API-Source gegen die Crawling API, oder pushen Sie Ergebnisse zu Cloud Storage und ingestieren Sie das Bucket über Airbytes S3-Source - beides funktioniert end-to-end ohne den dedizierten Connector.
Setup
- Gehen Sie in Ihrer Airbyte-Instanz zu Sources → New Source.
- Suchen Sie nach Crawlbase und wählen Sie es aus.
- Konfigurieren: Fügen Sie Ihr Token ein, wählen Sie einen Crawler (die Queue, an die Sie URLs pushen), und wählen Sie die zu synchronisierenden Streams aus.
- Testen Sie die Verbindung, speichern Sie und verbinden Sie sich mit einem Ziel.
Streams
rid, url, pc_status, original_status, completed_at, body, headers.Muster
- Stündliches Produktpreis-Warehouse: Pushen Sie Produkt-URLs an einen Crawler mit dem Amazon-Scraper. Stündlich synchronisieren. Bauen Sie darauf ein dbt-Modell, um Preissenkungen zu markieren.
- Compliance-Archiv: tägliche Full-Page-Crawls regulierter Sites, via Airbyte mit S3 synchronisiert. Mit Zeitstempel, Schema und abfragbar.
- SEO-Wettbewerbsbeobachtung: SERPs wöchentlich gescraped, mit BigQuery synchronisiert, in Looker als Dashboard dargestellt.