Das Scraping, Analysieren und Speichern von Daten muss nicht kompliziert sein. Wenn Sie Crawlbase Mit GoogleSQL und BigQuery wird die direkte Einbindung von Webdaten in Ihre Analysen deutlich einfacher. In dieser Anleitung zeigen wir Ihnen Schritt für Schritt, wie Sie Crawlbase, greifen Sie auf die benötigten Daten zu und laden Sie sie alle in Google Cloud SQL, damit Sie intelligentere Fragen stellen und mühelos klare Antworten erhalten können.

Was ist GoogleSQL?

GoogleSQL ist Teil der verwalteten SQL-Datenbankdienste von Google Cloud, wie Cloud SQL oder BigQuery. Stellen Sie sich vor, Sie benötigen einen sicheren Ort in der Cloud für Ihre Daten. Google Cloud SQL ist im Grunde ein Zuhause für Datenbanken wie MySQL, PostgreSQL und SQL Server, die alle von Google verwaltet werden, sodass Sie sich weder um die Hardware noch um die komplizierte Einrichtung kümmern müssen. Sie geben Ihre Daten ein, und Google übernimmt den Großteil der Arbeit im Backend.

Wenn jemand Google SQL erwähnt, geht es oft um die SQL-Sprache, die BigQuery zum Slicen von Big Data verwendet. Einfach ausgedrückt bedeutet „Google SQL“ in der Regel, dass Sie die Cloud-basierten Tools von Google zum Speichern von Daten und Ausführen von SQL-Abfragen nutzen, ohne eigene Server verwalten oder komplizierte Software installieren zu müssen. Sie können sich einfach verbinden, Abfragen schreiben und Google den Rest erledigen lassen.

Schritte zur Verwendung von GoogleSQL in Crawlbase

Hier sind die folgenden Schritte zur Verwendung von Google SQL in der Crawlbase Umgebung:

Schritt 1: Einrichten Crawlbase und Python-Umgebung

Nachdem Ihre Umgebung nun bereit ist, holen wir uns einige echte Daten, mit denen wir arbeiten können. Als Erstes müssen Sie Ihre Crawlbase Konto. Befolgen Sie die folgenden Schritte, wenn Sie noch kein Konto haben.

  1. Erstelle ein Konto bei Crawlbase und logge dich ein.
  2. Nach der Registrierung erhalten Sie 1,000 kostenlose Anfragen. Um weitere 9,000 Anfragen kostenlos zu erhalten, einfach Fügen Sie Ihre Rechnungsdetails hinzu bevor Sie eines der kostenlosen Testguthaben verbrauchen.
  3. Suchen und kopieren Sie Ihre Crawling API Token für normale Anfragen.

Als Nächstes müssen wir sicherstellen, dass die kompatible Python-Version und die Requests-Bibliothek ordnungsgemäß installiert sind. Befolgen Sie daher die folgenden Schritte.

  1. Installieren Sie Python 3 auf deinem Computer
  2. Erstellen Sie ein Stammverzeichnis in unserem Dateisystem.
  3. Gehen Sie zu Ihrem Terminal und führen Sie pip install requests

Schritt 2: Daten für den Datenbankimport crawlen

Der nächste Schritt besteht darin, die Daten zu sammeln, die Sie in Ihre Datenbank importieren möchten. Unten finden Sie ein einfaches Python-Skript, das die Crawling API um Amazon-Produktdaten zu scrapen und als CSV-Datei zu speichern. Kopieren Sie also das folgende Skript und speichern Sie es unter crawl_data.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
von Anfragen.Ausnahmen importieren RequestException
importieren Zugriffe
importieren JSON
importieren csv

def Crawldaten(amazon_serp_url: str) -> str:
SCHABER = "amazon-serp"
API_TOKEN = "<Crawlbase Token für normale Anfragen>" #<- Ersetzen Sie es durch Ihr tatsächliches Token
API_ENDPOINT = "https://api.crawlbase.com/"

# Bereiten Sie die API-Anforderungsparameter vor
Parameter = {
"Zeichen": API_TOKEN,
"URL": amazon_serp_url, # Ziel-Amazon-Such-URL
"Schaber": SCHABER
}

# Stellen Sie die API-Anfrage an Crawlbase
Antwort = Anfragen.get(API_ENDPOINT, Parameter=Parameter)

# Eine Ausnahme für fehlerhafte HTTP-Statuscodes auslösen
Response.raise_for_status()

# Geben Sie die JSON-Antwort als Text zurück
Rückkehr Antworttext

def als CSV speichern(Daten, Dateiname="Daten.csv"):
versuchen:
# Produkte aus den Daten extrahieren
Produkte = Daten.get('Körper', {}).erhalten('Produkte', [])

if kein Frontalunterricht. Produkte:
drucken(„Keine Produkte in den Daten gefunden“)
Rückkehr

# Definieren Sie die CSV-Spalten basierend auf der Produktstruktur
Feldnamen = [
'Süßkartoffel', „Rohpreis“, 'Währung', 'Angebot',
„Kundenbewertung“, 'Kundenbewertungsanzahl', 'Versandnachricht',
'asin', 'Bild', 'URL', 'isPrime', „gesponserte Anzeige“, 'GutscheinInfo'
]

# In CSV-Datei schreiben
mit XNUMXh geöffnet(Dateiname, 'w', neue Zeile='', Kodierung='utf-8') as csv-Datei:
Writer = csv.DictWriter(CSV-Datei, Feldnamen=Feldnamen)

# Schreiben Sie jedes Produkt (keine Kopfzeile)
für PRODUKTE in Produkte:
# Daten für CSV bereinigen (fehlende Felder behandeln)
gereinigtes_Produkt = {}
für Feld in Feldnamen:
Wert = Produkt.get(Feld, '')
# Boolesche Werte in Zeichenfolgen konvertieren
if Instanz(Wert, bool):
Wert = str(Wert)
# Listenfelder verarbeiten (wie badgesInfo)
elif Instanz(Wert, Liste):
Wert = ','.beitreten(str(Artikel) für ausgleichen in Wert) if Wert sonst ''
gereinigtes_Produkt[Feld] = Wert

writer.writerow(gereinigtes_Produkt)

drucken(f"Erfolgreich gespeichert {len(Produkte)} Produkte zu {Dateiname}")

ausgeschlossen Exception as e:
drucken(f"Fehler beim Speichern in CSV: {e}")

if __name__ == "__hauptsächlich__":
versuchen:
json_data = crawl_data("https://www.amazon.com/s?k=iPhone+16")
parsed_json = json.loads(json_data)
drucken(json.dumps(parsed_json, Einzug=2))

# Als CSV speichern
save_to_csv(parsed_json, "Daten.csv")

ausgeschlossen json.JSONDecodeError as e:
drucken(f"Fehler beim Parsen von JSON: {e}")
drucken("Rohe Antwort:")
drucken(crawl_data())

Um das Skript auszuführen, verwenden Sie einfach den folgenden Befehl:

1
python crawl_data.py

Dadurch wird eine CSV-Datei mit dem Namen generiert data.csv, das wir im nächsten Abschnitt verwenden werden.

Schritt 3: Google Cloud SQL-Datenbank einrichten

Bevor Sie Ihre Scraped-Daten analysieren können, müssen Sie zunächst eine Cloud SQL-Datenbank in Google Cloud einrichten. So erstellen Sie eine Instanz, fügen eine Datenbank hinzu und richten eine Tabelle ein, in die Ihre Scraped-Amazon-Produktdaten gespeichert werden.

  1. Gehe zu Google Cloud-Konsole.
  2. Erstellen Sie ein neues Projekt oder wählen Sie ein vorhandenes aus.
  3. Du brauchst Abrechnung aktivieren in Ihrem Projekt, um Cloud SQL zu verwenden.
  4. Aktivieren Sie Cloud SQL:
  • Gehen Sie zum Google Cloud-Konsole
  • Navigieren Sie zu „API & Services“ > „Dashboard“
  • Klicken Sie auf „APIs und Dienste aktivieren“.
  • Suchen Sie nach „Cloud SQL“, wählen Sie es aus und klicken Sie auf „Aktivieren“.
  1. Erstellen Sie eine Cloud SQL-Instanz:
  • Gehen Sie zum Cloud SQL-Instanzen Seite in der Google Cloud-Konsole.
  • Klicken Sie auf „Instanz erstellen“.
  • Wählen Sie eine Datenbank-Engine (MySQL, PostgreSQL oder SQL Server). Dieses Mal wählen wir „PostgreSQL“.
  • Konfigurieren Sie die Instanzeinstellungen (Instanz-ID, Region usw.).
  • Legen Sie ein Passwort für den Root-Benutzer fest.
  • Klicken Sie auf „Instanz erstellen“.
  1. Erstellen Sie eine Datenbank:
  • Gehen Sie zum Cloud SQL-Instanzen
  • Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
  • Navigieren Sie zur Registerkarte „Datenbanken“.
  • Erstellen Sie eine Datenbank mit dem Namen „analytics_example_db“.
  1. Erstellen Sie eine Tabelle:
  • Gehen Sie zur Seite „Cloud SQL-Instanzen“.
  • Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
  • Navigieren Sie zur Registerkarte „Cloud SQL Studio“.
  • Melden Sie sich bei der Datenbank „analytics_example_db“ an
  • Klicken Sie auf das [+], um eine neue Registerkarte zu erstellen
  • Fügen Sie die SQL-Skripte unten ein und klicken Sie auf Ausführen
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
TABELLE ERSTELLEN "öffentlich"."amazon_products" (
"Name" TEXT,
"Preis" DEZIMAL(10, 2),
"Währung" VARCHAR(10),
"Angebot" VARCHAR(255),
"Kundenrezension" VARCHAR(255),
"Kundenbewertungsanzahl" VARCHAR(255),
"Versandnachricht" VARCHAR(255),
"asin" VARCHAR(255),
"Bild" TEXT,
"URL" TEXT,
"istPrime" BOOLEAN,
„gesponserte Anzeige“ BOOLEAN,
"GutscheinInfo" VARCHAR(255)
);

Dadurch wird eine neue Tabelle mit dem Namen erstellt amazon_products

Ein Bild der Google SQL-Benutzeroberfläche

Schritt 4: Importieren Sie gecrawlte Daten in Crawlbase Datenbank

Der letzte Schritt besteht darin, die CSV-Datei in Ihre Cloud SQL-Datenbank zu importieren, nachdem die Tabelle fertig ist. Führen Sie die folgenden Schritte aus, um die Daten hochzuladen und für Abfragen mit Google SQL verfügbar zu machen.

  1. Wählen Sie eine Cloud SQL-Instanz aus:
  • Gehen Sie zum Seite „Cloud SQL-Instanzen“.
  • Wählen Sie die Instanz aus, die Sie konfigurieren möchten.
  • Gehen Sie zu Übersicht → Importieren
  • Wählen Sie CSV als Dateiformat
  • Laden Sie Dateien von Ihrem Computer als Quelldatei hoch
  • Navigieren Sie zu data.csv von oben gekrochen.
  • Erstellen Sie ein einzigartiges Cloud Storage Ortsname.
  • Laden Sie die data.csv zum Eimer.
  • Auswählen analytics_example_db als Zieldatenbank
  • Setzen Sie den Tabellennamen auf amazon_products
  • Klicken Sie auf Importieren
Ein Bild mit tabellarischen Daten

Sie haben Ihre Scraped-Daten nun erfolgreich in Cloud SQL importiert. Sobald alles bereit ist, können Sie Abfragen ausführen und die Daten mit Google SQL untersuchen, um wertvolle Erkenntnisse zu gewinnen.

ABSICHT Crawlbase ein Versuch jetzt und sehen Sie, was Sie erreichen können!

Häufig gestellte Fragen (FAQs)

F: Muss ich für die Nutzung von Google Cloud SQL bezahlen?

A. Um Cloud SQL nutzen zu können, müssen Sie die Abrechnung aktivieren. Die gute Nachricht ist jedoch, dass Google neuen Nutzern kostenloses Guthaben anbietet. Sie können es ausprobieren, ohne sofort Geld auszugeben.

F: Kann ich diese Methode verwenden, um Daten von anderen Websites zu importieren, nicht nur von Amazon?

A. Ja, dieses Setup ist nicht auf Amazon beschränkt. Sie können Daten von jeder öffentlichen Website scrapen mit Crawlbase, und führen Sie dann die gleichen Schritte aus, um es in Google Cloud SQL zu speichern und zu analysieren.

F: Was passiert, wenn sich mein Datenformat später ändert?

A. Keine Sorge! Wenn sich Ihre Scraped-Daten ändern (z. B. neue Felder hinzugefügt werden), können Sie Ihre Cloud SQL-Tabelle ganz einfach aktualisieren. Verwenden Sie einfach ein ALTER TABLE Befehl zum Hinzufügen neuer Spalten, während Ihre vorhandenen Daten geschützt bleiben.