Das Scraping, Analysieren und Speichern von Daten muss nicht kompliziert sein. Wenn Sie Crawlbase Mit GoogleSQL und BigQuery wird die direkte Einbindung von Webdaten in Ihre Analysen deutlich einfacher. In dieser Anleitung zeigen wir Ihnen Schritt für Schritt, wie Sie Crawlbase, greifen Sie auf die benötigten Daten zu und laden Sie sie alle in Google Cloud SQL, damit Sie intelligentere Fragen stellen und mühelos klare Antworten erhalten können.
Was ist GoogleSQL?
GoogleSQL ist Teil der verwalteten SQL-Datenbankdienste von Google Cloud, wie Cloud SQL oder BigQuery. Stellen Sie sich vor, Sie benötigen einen sicheren Ort in der Cloud für Ihre Daten. Google Cloud SQL ist im Grunde ein Zuhause für Datenbanken wie MySQL, PostgreSQL und SQL Server, die alle von Google verwaltet werden, sodass Sie sich weder um die Hardware noch um die komplizierte Einrichtung kümmern müssen. Sie geben Ihre Daten ein, und Google übernimmt den Großteil der Arbeit im Backend.
Wenn jemand Google SQL erwähnt, geht es oft um die SQL-Sprache, die BigQuery zum Slicen von Big Data verwendet. Einfach ausgedrückt bedeutet „Google SQL“ in der Regel, dass Sie die Cloud-basierten Tools von Google zum Speichern von Daten und Ausführen von SQL-Abfragen nutzen, ohne eigene Server verwalten oder komplizierte Software installieren zu müssen. Sie können sich einfach verbinden, Abfragen schreiben und Google den Rest erledigen lassen.
Schritte zur Verwendung von GoogleSQL in Crawlbase
Hier sind die folgenden Schritte zur Verwendung von Google SQL in der Crawlbase Umgebung:
Schritt 1: Einrichten Crawlbase und Python-Umgebung
Nachdem Ihre Umgebung nun bereit ist, holen wir uns einige echte Daten, mit denen wir arbeiten können. Als Erstes müssen Sie Ihre Crawlbase Konto. Befolgen Sie die folgenden Schritte, wenn Sie noch kein Konto haben.
- Erstelle ein Konto bei Crawlbase und logge dich ein.
- Nach der Registrierung erhalten Sie 1,000 kostenlose Anfragen. Um weitere 9,000 Anfragen kostenlos zu erhalten, einfach Fügen Sie Ihre Rechnungsdetails hinzu bevor Sie eines der kostenlosen Testguthaben verbrauchen.
- Suchen und kopieren Sie Ihre Crawling API Token für normale Anfragen.
Als Nächstes müssen wir sicherstellen, dass die kompatible Python-Version und die Requests-Bibliothek ordnungsgemäß installiert sind. Befolgen Sie daher die folgenden Schritte.
- Installieren Sie Python 3 auf deinem Computer
- Erstellen Sie ein Stammverzeichnis in unserem Dateisystem.
- Gehen Sie zu Ihrem Terminal und führen Sie
pip install requests
Schritt 2: Daten für den Datenbankimport crawlen
Der nächste Schritt besteht darin, die Daten zu sammeln, die Sie in Ihre Datenbank importieren möchten. Unten finden Sie ein einfaches Python-Skript, das die Crawling API um Amazon-Produktdaten zu scrapen und als CSV-Datei zu speichern. Kopieren Sie also das folgende Skript und speichern Sie es unter crawl_data.py
1 | von Anfragen.Ausnahmen importieren RequestException |
Um das Skript auszuführen, verwenden Sie einfach den folgenden Befehl:
1 | python crawl_data.py |
Dadurch wird eine CSV-Datei mit dem Namen generiert data.csv, das wir im nächsten Abschnitt verwenden werden.
Schritt 3: Google Cloud SQL-Datenbank einrichten
Bevor Sie Ihre Scraped-Daten analysieren können, müssen Sie zunächst eine Cloud SQL-Datenbank in Google Cloud einrichten. So erstellen Sie eine Instanz, fügen eine Datenbank hinzu und richten eine Tabelle ein, in die Ihre Scraped-Amazon-Produktdaten gespeichert werden.
- Gehe zu Google Cloud-Konsole.
- Erstellen Sie ein neues Projekt oder wählen Sie ein vorhandenes aus.
- Du brauchst Abrechnung aktivieren in Ihrem Projekt, um Cloud SQL zu verwenden.
- Aktivieren Sie Cloud SQL:
- Gehen Sie zum Google Cloud-Konsole
- Navigieren Sie zu „API & Services“ > „Dashboard“
- Klicken Sie auf „APIs und Dienste aktivieren“.
- Suchen Sie nach „Cloud SQL“, wählen Sie es aus und klicken Sie auf „Aktivieren“.
- Erstellen Sie eine Cloud SQL-Instanz:
- Gehen Sie zum Cloud SQL-Instanzen Seite in der Google Cloud-Konsole.
- Klicken Sie auf „Instanz erstellen“.
- Wählen Sie eine Datenbank-Engine (MySQL, PostgreSQL oder SQL Server). Dieses Mal wählen wir „PostgreSQL“.
- Konfigurieren Sie die Instanzeinstellungen (Instanz-ID, Region usw.).
- Legen Sie ein Passwort für den Root-Benutzer fest.
- Klicken Sie auf „Instanz erstellen“.
- Erstellen Sie eine Datenbank:
- Gehen Sie zum Cloud SQL-Instanzen
- Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
- Navigieren Sie zur Registerkarte „Datenbanken“.
- Erstellen Sie eine Datenbank mit dem Namen „analytics_example_db“.
- Erstellen Sie eine Tabelle:
- Gehen Sie zur Seite „Cloud SQL-Instanzen“.
- Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
- Navigieren Sie zur Registerkarte „Cloud SQL Studio“.
- Melden Sie sich bei der Datenbank „analytics_example_db“ an
- Klicken Sie auf das [+], um eine neue Registerkarte zu erstellen
- Fügen Sie die SQL-Skripte unten ein und klicken Sie auf Ausführen
1 | TABELLE ERSTELLEN "öffentlich"."amazon_products" ( |
Dadurch wird eine neue Tabelle mit dem Namen erstellt amazon_products

Schritt 4: Importieren Sie gecrawlte Daten in Crawlbase Datenbank
Der letzte Schritt besteht darin, die CSV-Datei in Ihre Cloud SQL-Datenbank zu importieren, nachdem die Tabelle fertig ist. Führen Sie die folgenden Schritte aus, um die Daten hochzuladen und für Abfragen mit Google SQL verfügbar zu machen.
- Wählen Sie eine Cloud SQL-Instanz aus:
- Gehen Sie zum Seite „Cloud SQL-Instanzen“.
- Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
- Gehen Sie zu Übersicht → Importieren
- Wählen Sie CSV als Dateiformat
- Laden Sie Dateien von Ihrem Computer als Quelldatei hoch
- Navigieren Sie zu
data.csvvon oben gekrochen. - Erstellen Sie ein einzigartiges Cloud Storage Ortsname.
- Laden Sie die
data.csvzum Eimer. - Auswählen
analytics_example_dbals Zieldatenbank - Setzen Sie den Tabellennamen auf
amazon_products - Klicken Sie auf Importieren

Sie haben Ihre Scraped-Daten nun erfolgreich in Cloud SQL importiert. Sobald alles bereit ist, können Sie Abfragen ausführen und die Daten mit Google SQL untersuchen, um wertvolle Erkenntnisse zu gewinnen.
ABSICHT Crawlbase ein Versuch jetzt und sehen Sie, was Sie erreichen können!
Häufig gestellte Fragen (FAQs)
F: Muss ich für die Nutzung von Google Cloud SQL bezahlen?
A. Um Cloud SQL nutzen zu können, müssen Sie die Abrechnung aktivieren. Die gute Nachricht ist jedoch, dass Google neuen Nutzern kostenloses Guthaben anbietet. Sie können es ausprobieren, ohne sofort Geld auszugeben.
F: Kann ich diese Methode verwenden, um Daten von anderen Websites zu importieren, nicht nur von Amazon?
A. Ja, dieses Setup ist nicht auf Amazon beschränkt. Sie können Daten von jeder öffentlichen Website scrapen mit Crawlbase, und führen Sie dann die gleichen Schritte aus, um es in Google Cloud SQL zu speichern und zu analysieren.
F: Was passiert, wenn sich mein Datenformat später ändert?
A. Keine Sorge! Wenn sich Ihre Scraped-Daten ändern (z. B. neue Felder hinzugefügt werden), können Sie Ihre Cloud SQL-Tabelle ganz einfach aktualisieren. Verwenden Sie einfach ein ALTER TABLE Befehl zum Hinzufügen neuer Spalten, während Ihre vorhandenen Daten geschützt bleiben.











