Web Scraping und Datenextraktion haben die Art und Weise revolutioniert, wie wir Informationen aus den riesigen Datenmengen im Internet sammeln. Suchmaschinen wie Google sind wahre Goldgruben an Wissen und die Fähigkeit, nützliche URLs aus ihren Suchergebnissen zu extrahieren, kann für viele Zwecke einen großen Unterschied machen. Ob Sie ein Marktforschungsunternehmen besitzen, Daten lieben und Informationen suchen oder Daten für verschiedene Zwecke in Ihrem Beruf benötigen – Web Scraping kann Ihnen die Daten liefern, die Sie brauchen.

In diesem Blog erfahren Sie, wie Sie Google-Suchergebnisse durchsuchen, nützliche Informationen extrahieren und Informationen gut in einem speichern SQLite Datenbank.

Wir werden verwenden Python und der Crawlbase Crawling API. Gemeinsam erkunden wir die komplexe Welt des Web Scraping und Datenmanagements und vermitteln Ihnen die Fähigkeiten und das Know-how, um die Leistungsfähigkeit der Google-Suchergebnisse zu nutzen. Lassen Sie uns loslegen!

  1. Die Leistungsfähigkeit von Web Scraping enthüllen
  • Hauptvorteile von Web Scraping
  1. Die Bedeutung des Scrapings von Google-Suchseiten verstehen
  • Warum Google-Suchseiten scrapen?
  1. Beginnen Sie Ihre Web Scraping-Reise mit Crawlbase Crawling API
  • Einführung der Crawlbase Crawling API
  • Die klaren Vorteile von Crawlbase Crawling API
  • Erkunden der Crawlbase Python-Bibliothek
  1. Grundvoraussetzungen für einen erfolgreichen Start
  • Konfigurieren Ihrer Entwicklungsumgebung
  • Installieren der erforderlichen Bibliotheken
  • Erstellen Ihres Crawlbase-Kontos
  1. Die Anatomie der Google-Suchseiten entschlüsseln
  • Dekonstruktion einer Google-Suchseite
  1. Beherrschen Sie das Scraping von Google-Suchseiten mit dem Crawling API
  • Erhalten Ihres Crawlbase-Tokens
  • Einrichten von Crawlbase Crawling API
  • Auswahl des idealen Schabers
  • Müheloses Verwalten der Seitennummerierung
  • Speichern von Daten in einer SQLite-Datenbank
  1. Schlussfolgerung
  2. Häufig gestellte Fragen

1. Die Macht des Web Scraping

Web Scraping ist eine bahnbrechende Technologie, die Daten von Websites extrahiert. Stellen Sie es sich als einen digitalen Helfer vor, der Websites besucht, Informationen sammelt und sie für Ihre Nutzung organisiert. Beim Web Scraping werden Computerprogramme oder Skripte verwendet, um die Datenerfassung von Websites zu automatisieren. Anstatt Informationen von Webseiten manuell zu kopieren und einzufügen, können Web Scraping-Tools diese Aufgabe in großem Umfang übernehmen. Diese Tools navigieren durch Websites, extrahieren bestimmte Daten und speichern sie in einem organisierten Format, um sie zu analysieren oder aufzubewahren.

Hauptvorteile von Web Scraping

Vorteile des Web Scraping von Google-Suchergebnissen
  1. Produktivität: Durch Web Scraping erfolgt die Datenerfassung von selbst, was Ihnen Zeit und Arbeit spart. Es kann große Datenmengen verarbeiten und richtig verarbeiten.
  2. Die richtigen Daten: Beim Scraping werden die Daten direkt von dort abgerufen, wo sie herkommen. Dadurch werden Fehler vermieden, die beim manuellen Eintippen der Daten auftreten können.
  3. Aktuelle Informationen: Mit Web Scraping können Sie Websites im Auge behalten und die neuesten Informationen sammeln. Dies ist wichtig für Aufgaben wie das Überprüfen von Preisen, das Überprüfen des Lagerbestands oder das Verfolgen von Neuigkeiten.
  4. Auswählen der gewünschten Daten: Sie können Web Scraping so einrichten, dass Sie nur die Informationen erhalten, die Sie benötigen, z. B. wie viel Dinge kosten, was in den Schlagzeilen steht oder Fakten für die Recherche.
  5. Strukturierte Daten: Scraped-Daten werden in einem strukturierten Format organisiert, was die Analyse, Suche und Verwendung in Datenbanken oder Berichten vereinfacht.
  6. Wettbewerbsanalyse: Web Scraping hilft Unternehmen, ihre Konkurrenz im Auge zu behalten, Markttrends zu verfolgen und neue Chancen zu erkennen.
  7. Forschung und Analyse: Forscher nutzen Web Scraping, um akademische oder Marktforschungsdaten zu sammeln, während Analysten Erkenntnisse gewinnen, um Geschäftsentscheidungen zu treffen.
  8. Automatisierung: Sie können Web Scraping so einrichten, dass es nach einem Zeitplan ausgeführt wird. Dadurch wird sichergestellt, dass Ihre Daten aktuell bleiben.

2. Die Bedeutung des Scrapings von Google-Suchergebnissen verstehen

Google, die weltweit beliebteste Suchmaschine, hat einen entscheidenden Einfluss auf diese Szene. Das Scraping von Google-Suchseiten bietet Zugriff auf eine Fülle von Daten, was in verschiedenen Bereichen viele Vorteile bietet. Bevor wir uns mit den Einzelheiten des Scrapings von Google-Suchseiten befassen, müssen wir die Vorteile des Web Scraping verstehen und erkennen, warum diese Methode so wichtig ist, um Daten aus dem Web zu erhalten.

Warum Google-Suchergebnisse kratzen?

Das Scraping von Google-Suchseiten hat viele Vorteile. Dank Googles Spitzenposition als weltweit meistgenutzte Suchmaschine erhalten Sie Zugriff auf einen riesigen und vielfältigen Datensatz. Diese Daten decken viele Bereiche ab, von Wirtschaft über Schule bis hin zur Forschung.

Warum Google-Suchseiten scrapen?

Die wahre Stärke des Scrapings besteht darin, dass Sie genau die Daten erhalten, die Sie benötigen. Die Suchergebnisse von Google entsprechen dem, wonach Sie suchen. Wenn Sie diese Ergebnisse scrapen, können Sie Daten erhalten, die zu Ihren Suchbegriffen passen, sodass Sie nur die Informationen herausziehen können, die Sie benötigen. Google Search zeigt eine Liste von Websites zu dem von Ihnen gesuchten Thema an. Durch das Scraping dieser Links können Sie einen vollständigen Satz von Quellen erstellen, die zu dem passen, was Sie recherchieren oder studieren.

Unternehmen können das Scraping von Google-Suchergebnissen nutzen, um den Markt zu untersuchen. Sie können aus Suchergebnissen zu ihrem Bereich oder ihren Produkten Erkenntnisse über ihre Konkurrenten gewinnen. Die Betrachtung dieser Ergebnisse hilft ihnen, Markttrends zu verstehen, was Käufer denken und was andere Unternehmen tun. Personen, die Inhalte erstellen und Blogs schreiben, können diese Methode nutzen, um gute Artikel, Blogbeiträge und Nachrichten zu finden. Dies gibt ihnen eine solide Grundlage für die Erstellung eigener Inhalte. Online-Vermarkter und SEO-Experten profitieren stark vom Scraping von Suchseiten.

Wenn Sie lernen, Google-Suchseiten zu scrapen, haben Sie ein leistungsstarkes Tool, mit dem Sie die Informationsfülle des Internets nutzen können. In diesem Blog werden wir uns die technische Seite dieses Prozesses ansehen. Wir verwenden Python und die Crawlbase Crawling API als unsere Werkzeuge. Beginnen wir diese Reise, um mehr über die Kunst und Wissenschaft des Web Scraping für Google-Suchseiten zu erfahren.

3. Beginnen Sie Ihre Web Scraping-Reise mit Crawlbase Crawling API

Beginnen wir Ihr Web Scraping Abenteuer mit dem Crawlbase Crawling API. Egal, ob Sie neu im Web Scraping sind oder es schon seit Jahren tun, diese API wird Ihr Leitfaden durch die Feinheiten des Datenabrufs von Websites sein. Wir zeigen Ihnen, was dieses Tool so besonders macht und geben Ihnen die wichtigsten Informationen über die Crawlbase Python-Bibliothek.

Kennenlernen der Crawlbase Crawling API

Die Crawlbase Crawling API ist führend im Bereich Web Scraping und bietet Benutzern eine leistungsstarke und flexible Möglichkeit, Daten von Websites abzurufen. Ziel ist es, die schwierige Aufgabe des Web Scrapings zu vereinfachen, indem eine einfache Benutzeroberfläche mit leistungsstarken Tools bereitgestellt wird. Mit der Hilfe von Crawlbase können Sie die automatische Datenerfassung von Websites einrichten, sogar von schwierigen Websites wie den Suchseiten von Google. Diese Automatisierung spart Ihnen viel Zeit und Arbeit, die Sie sonst mit dem manuellen Sammeln von Daten verbringen würden.

Mit dieser API können Sie über eine Restful-API auf das große Crawling-Setup von Crawlbase zugreifen. Sie kommunizieren einfach mit dieser API und teilen ihr mit, welche URLs Sie scrapen möchten und welche zusätzlichen Details die Crawling API Bedürfnisse. Sie erhalten die Scraped-Daten in einem übersichtlichen Paket als HTML oder JSON zurück. Durch diesen reibungslosen Hin- und Her-Verkehr können Sie sich auf die Beschaffung nützlicher Daten konzentrieren, während Crawlbase sich um die schwierigen Aufgaben beim Web Scraping kümmert.

Die Vorteile von Crawlbase Crawling API

Warum haben wir uns für die Crawlbase entschieden? Crawling API für unser Web Scraping-Projekt, wenn es so viele Möglichkeiten gibt? Schauen wir uns die Überlegungen hinter dieser Wahl genauer an:

  1. Skalierbarkeit: Crawlbase kann Web Scraping in großem Maßstab durchführen. Ihr Projekt kann mehrere hundert Seiten oder eine riesige Datenbank mit Millionen von Einträgen umfassen. Crawlbase passt sich Ihren Anforderungen an und sorgt dafür, dass Ihre Scraping-Projekte reibungslos wachsen.
  2. Zuverlässigkeit: Web Scraping kann schwierig sein, da sich Websites ständig ändern. Crawlbase begegnet diesem Problem mit solider Fehlerbehandlung und -überwachung. Dies verringert die Wahrscheinlichkeit, dass Scraping-Jobs auf unerwartete Probleme stoßen.
  3. Proxy-Verwaltung: Websites verwenden häufig Anti-Scraping-Maßnahmen wie IP-Blockierung. Um damit umzugehen, bietet Crawlbase ein gutes Proxy-Management. Diese Funktion hilft Ihnen, IP-Sperren zu vermeiden und stellt sicher, dass Sie trotzdem die gewünschten Daten abrufen können.
  4. Einfach zu bedienen:: Die Crawlbase-API nimmt Ihnen die Mühe des Erstellens und Ausführens Ihres Scrapers oder Crawlers ab. Sie arbeitet in der Cloud und kümmert sich um die komplexen technischen Dinge, sodass Sie sich auf das Abrufen der Daten konzentrieren können, die Sie benötigen.
  5. Neue Daten: Die Crawlbase Crawling API stellt sicher, dass Sie durch Crawling in Echtzeit die neuesten und aktuellsten Daten erhalten. Dies ist der Schlüssel für Aufgaben, die genaue Analysen und Entscheidungen erfordern.
  6. Geld sparen: Das Einrichten und Ausführen Ihres Web Scraping-Systems kann teuer sein. Auf der anderen Seite bietet die Crawlbase Crawling API bietet eine günstigere Option, bei der Sie nur das bezahlen, was Sie nutzen.

Erkunden der Crawlbase Python-Bibliothek

Die Crawlbase Python-Bibliothek hilft Ihnen, das Beste aus der Crawlbase herauszuholen Crawling API. Diese Bibliothek dient als Toolkit zum Hinzufügen von Crawlbase zu Python-Projekten. Sie vereinfacht den Vorgang für Entwickler, unabhängig von ihrem Erfahrungsniveau.

Hier ein kleiner Einblick in die Funktionsweise:

  1. Initialisierung: Beginnen Sie Ihre Reise mit der Initialisierung des Crawling API Klasse mit Ihrem Crawlbase-Token.
1
api = CrawlingAPI({ 'Zeichen': 'IHR_CRAWLBASE_TOKEN' })
  1. Scraping von URLs: Scrapen Sie URLs mühelos mit der Get-Funktion und geben Sie die URL und alle optionalen Parameter an.
1
2
3
Antwort = api.get(„https://www.example.com“)
if Antwort['Statuscode'] == 200:
drucken(Antwort['Körper'])
  1. Anpassung: Die Crawlbase Python-Bibliothek bietet Optionen zum Anpassen Ihres Scrapings. Weitere Möglichkeiten finden Sie in der API-Dokumentation.

Jetzt wissen Sie über die Crawlbase Bescheid Crawling API und können sie gut nutzen. Wir werden gleich in die riesigen Suchergebnisse von Google eintauchen und die Geheimnisse der Beschaffung von Webdaten lüften. Lassen Sie uns loslegen und alle Informationen erkunden, die Google zu bieten hat!

4. Wesentliche Voraussetzungen für einen erfolgreichen Start

Bevor Sie Ihre Web Scraping-Reise mit der Crawlbase beginnen Crawling APImüssen Sie einige wichtige Dinge vorbereiten. In diesem Teil geht es um diese Must-Haves, damit Sie für alles, was vor Ihnen liegt, bestens gerüstet sind.

Konfigurieren Ihrer Entwicklungsumgebung

Das Einrichten Ihres Codierbereichs ist der erste Schritt bei Ihrem Web Scraping-Abenteuer. Folgendes müssen Sie tun:

  1. Python-Installation: Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Sie können die neueste Python-Version von der offiziellen Website herunterladen. Dort finden Sie auch leicht verständliche Installationsanleitungen.
  2. Code-Editor: Wählen Sie einen Code-Editor oder eine IDE, um Ihren Python-Code zu schreiben. Einige beliebte Optionen sind Visual Studio Code, PyCharm, Jupyter Notizbuchoder sogar einen einfachen Texteditor wie Sublime Text.
  3. Virtuelle Umgebung: Das Einrichten einer virtuellen Umgebung für Ihr Projekt ist ein kluger Schachzug. Dadurch werden die für Ihr Projekt erforderlichen Pakete von dem getrennt, was auf dem Haupt-Python-Setup Ihres Computers installiert ist. Dies hilft, Konflikte zwischen verschiedenen Paketversionen zu vermeiden. Sie können die in Python integrierte venv Modul oder andere Tools wie virtualenv um diese isolierten Umgebungen zu schaffen.

Installieren der erforderlichen Bibliotheken

Zur Interaktion mit der Crawlbase Crawling API und um Web Scraping-Aufgaben effektiv durchführen zu können, müssen Sie einige Python-Bibliotheken installieren. Hier ist eine Liste der wichtigsten Bibliotheken, die Sie benötigen:

  1. Crawlbase: Eine leichte, abhängigkeitsfreie Python-Klasse, die als Wrapper für die Crawlbase-API fungiert. Wir können sie verwenden, um Anfragen an die Crawling API und Antworten erhalten. Sie können es installieren mit pip:
1
pip installieren crawlbase
  1. SQLite: SQLite ist eine leichte, serverlose und in sich geschlossene Datenbank-Engine, die wir zum Speichern der Scraped-Daten verwenden werden. Python verfügt über integrierte Unterstützung für SQLite, sodass es nicht separat installiert werden muss.

Erstellen Ihres Crawlbase-Kontos

Jetzt richten wir ein Crawlbase-Konto für Sie ein. Folgen Sie diesen Schritten:

  1. Besuchen Sie die Crawlbase-Website: Öffnen Sie Ihren Webbrowser und navigieren Sie zur Anmeldeseite der Crawlbase-Website, um den Registrierungsprozess zu starten.
  2. Geben Sie Ihre Daten an: Sie werden aufgefordert, Ihre E-Mail-Adresse anzugeben und ein Passwort für Ihr Crawlbase-Konto zu erstellen. Geben Sie die erforderlichen Informationen ein.
  3. Überprüfung: Nach dem Absenden Ihrer Daten müssen Sie möglicherweise Ihre E-Mail-Adresse bestätigen. Suchen Sie in Ihrem Posteingang nach einer Bestätigungs-E-Mail von Crawlbase und folgen Sie den Anweisungen.
  4. Anmeldung: Sobald Ihr Konto verifiziert ist, kehren Sie zur Crawlbase-Website zurück und melden Sie sich mit Ihren neu erstellten Anmeldeinformationen an.
  5. Greifen Sie auf Ihr API-Token zu: Sie benötigen ein API-Token, um die Crawlbase zu verwenden Crawling API. Ihre Token finden Sie hier.

Nachdem Sie Ihre Entwicklungsumgebung konfiguriert, die erforderlichen Bibliotheken installiert und Ihr Crawlbase-Konto erstellt haben, verfügen Sie nun über die Grundlagen, um mit Crawlbase in die Welt des Web Scraping einzutauchen. Crawling API. In den folgenden Abschnitten werden wir tiefer in die Suchseitenstruktur von Google und die Feinheiten des Web Scraping eintauchen. Setzen wir also unsere Reise fort!

5. Die Struktur der Google-Suchergebnisseiten verstehen

Um gut darin zu werden, Google-Suchseiten zu scrapen, müssen Sie verstehen, wie diese Seiten aufgebaut sind. Google verwendet ein komplexes Layout, das verschiedene Teile mischt, um Suchergebnisse anzuzeigen. In diesem Teil zerlegen wir die Hauptteile und zeigen Ihnen, wie Sie die wertvollen Daten darin erkennen.

Komponenten einer Google-Suchergebnisseite

Eine typische Google-Suchseite besteht aus mehreren unterschiedlichen Abschnitten, von denen jeder einem bestimmten Zweck dient:

Google-Suchseite
  1. Suchleiste: Die Suchleiste finden Sie oben auf der Seite. Hier geben Sie ein, wonach Sie suchen. Google durchsucht dann seine Datenbank, um Ihnen passende Ergebnisse anzuzeigen.
  2. Suchwerkzeuge: Direkt über Ihren Suchergebnissen sehen Sie eine Reihe von Optionen, mit denen Sie die angezeigten Ergebnisse eingrenzen können. Sie können die Sortierung der Ergebnisse ändern, einen bestimmten Datumsbereich auswählen oder den gewünschten Inhaltstyp auswählen. So finden Sie leichter, was Sie benötigen.
  3. Anzeigen: Achten Sie auf gesponserte Inhalte am Anfang und Ende Ihrer Suchergebnisse. Dabei handelt es sich um Anzeigen, für die Unternehmen bezahlen. Sie könnten mit dem, wonach Sie gesucht haben, in Zusammenhang stehen, manchmal aber auch nicht.
  4. Standorte: Google zeigt oben auf der Suchergebnisseite häufig eine Karte an, die sich auf das bezieht, wonach Sie suchen. Außerdem werden die Adressen und Kontaktmöglichkeiten zu den wichtigsten Orten aufgeführt.
  5. Suchergebnisse: Der Hauptteil der Seite enthält eine Liste von Websites, Artikeln, Bildern oder anderen Inhalten, die Ihrer Suche entsprechen. Jeder Eintrag enthält normalerweise einen Titel, eine kleine Vorschau und die Webadresse.
  6. Nutzer fragen auch: Neben den Suchergebnissen wird häufig ein Feld mit der Aufschrift „Nutzer fragen auch“ angezeigt. Es funktioniert wie ein FAQ-Bereich, in dem Fragen angezeigt werden, die mit dem verknüpft sind, wonach Sie gesucht haben.
  7. Ähnliche Suchanfragen: Google zeigt eine Liste mit ähnlichen Suchlinks basierend auf Ihrer Suchanfrage an. Diese Links können Sie zu nützlichen Ressourcen führen, die Ihre Datensammlung ergänzen.
  8. Knowledge Graph: Auf der rechten Seite der Seite sehen Sie möglicherweise ein Knowledge Graph-Fenster mit Informationen zu dem von Ihnen nachgeschlagenen Thema. Dieses Fenster enthält häufig wichtige Fakten, Bilder und verwandte Themen.
  9. Seitennummerierung: Wenn mehrere Seiten mit Suchergebnissen vorhanden sind, finden Sie unten Links zur Seitennummerierung. Mit diesen können Sie sich durch die Ergebnisse bewegen.

In den nächsten Teilen werden wir uns mit den Grundlagen des Scrapings von Google-Suchseiten befassen. Wir werden uns damit befassen, wie man Schlüsseldaten extrahiert, mit der Paginierung umgeht und Informationen in einer SQLite-Datenbank speichert.

6. Google Search Page Scraping meistern mit dem Crawling API

In diesem Teil geht es darum, sich mit dem Scraping von Google-Suchseiten vertraut zu machen. Crawlbase Crawling API. Wir möchten dieses leistungsstarke Tool optimal nutzen, um Informationen aus den Suchergebnissen von Google zu ziehen. Wir gehen die wichtigsten Schritte durch, vom Erhalt Ihres Crawlbase-Tokens bis zur Handhabung der Paginierung. Als Beispiel sammeln wir wichtige Details zu Suchergebnissen für die Abfrage „Data Science“ bei Google.

Abrufen des richtigen Crawlbase-Tokens

Bevor wir uns auf die Reise zum Scraping unserer Google-Suchseiten begeben, müssen wir den Zugriff auf die Crawlbase sichern. Crawling API durch den Erhalt eines geeigneten Tokens. Crawlbase bietet zwei Arten von Tokens: den Normal Token (TCP) für statische Websites und den JavaScript Token (JS) für dynamische Seiten. Für Google-Suchseiten ist der Normal Token eine gute Wahl.

1
2
3
4
für Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase JavaScript-Token
api = CrawlingAPI({ 'Zeichen': „CRAWLBASE_NORMAL_TOKEN“ })

Sie können Ihr Crawlbase-Token erhalten HIER nachdem Sie ein Konto darauf erstellt haben.

Einrichten von Crawlbase Crawling API

Mit unserem Token in der Hand können wir nun mit der Konfiguration der Crawlbase fortfahren. Crawling API für eine effektive Datenextraktion. Crawling API Antworten können in zwei Formaten abgerufen werden: HTML oder JSON. Standardmäßig gibt die API Antworten im HTML-Format zurück. Wir können jedoch den Parameter „Format“ angeben, um Antworten im JSON-Format zu erhalten.

HTML-Antwort:

1
2
3
4
5
6
7
Headers:
URL: „Die URL, die gecrawlt wurde“
ursprünglicher_status: 200
pc_status: 200

Korpus:
Das HTML der Seite

JSON-Antwort:

1
2
3
4
5
6
7
//Übergeben Sie den Abfrageparameter „format=json“, um die Antwort im JSON-Format zu erhalten
{
"ursprünglicher_Status": "200",
"pc_status": 200,
"URL": „Die URL, die gecrawlt wurde“,
"Karosserie": „Das HTML der Seite“
}

Wir können mehr darüber lesen Crawling API Antwort HIER. Für das Beispiel verwenden wir die JSON-Antwort. Wir verwenden das initialisierte API-Objekt, um Anfragen zu stellen. Geben Sie die URL an, die Sie scrapen möchten, mit dem api.get(url, options={}) Funktion.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
für Crawlbase importieren CrawlingAPI
importieren JSON

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase Normal-Token
api = CrawlingAPI({ 'Zeichen': „CRAWLBASE_NORMAL_TOKEN“ })

# URL der Google-Suchseite, die Sie scrapen möchten
google_search_url = „https://www.google.com/search?q=data+science“

# Optionen für Crawling API
Optionen = {
'Format': 'json'
}

# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(Google_Search_URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# hübsch gedruckter Antworttext
drucken(json.dumps(response_json, Einzug=4, sort_keys=Wahre))
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

Im obigen Code haben wir die API initialisiert, die Google-Such-URL definiert und die Optionen für die Crawling API. Wir übergeben den Parameter „Format“ mit dem Wert „json“, damit wir die Antwort in JSON erhalten. Crawling API liefert viele weitere wichtige Parameter. Sie können mehr darüber lesen HIER.

Nach erfolgreicher Ausführung des Codes erhalten Sie die folgende Ausgabe.

1
2
3
4
5
6
{
"Karosserie": „HTML der Seite gecrawlt“,
"ursprünglicher_Status": 200,
"pc_status": 200,
"URL": „https://www.google.com/search?q=data+science“
}

Auswahl des idealen Schabers

Crawling API bietet mehrere integrierte Scraper für verschiedene wichtige Websites, einschließlich Google. Sie können über die verfügbaren Scraper lesen HIER. Der Parameter „Scraper“ wird verwendet, um die abgerufenen Daten gemäß einem bestimmten Scraper zu analysieren, der von der Crawlbase-API bereitgestellt wird. Er ist optional. Wenn er nicht angegeben wird, erhalten Sie das vollständige HTML der Seite zum manuellen Scraping. Wenn Sie diesen Parameter verwenden, wird die Antwort als JSON zurückgegeben, das die gemäß dem angegebenen Scraper analysierten Informationen enthält.

Beispiel:

1
2
# Beispiel mit einem bestimmten Scraper
Antwort = api.get('https://www.google.com/search?q=your_search_query', { 'Schaber': „Schabername“ })

Einer der verfügbaren Scraper ist „google-serp“, der für Google-Suchergebnisseiten entwickelt wurde. Er gibt ein Objekt mit Details wie Anzeigen zurück, und die Leute mögen auch Abschnittsdetails, Suchergebnisse, verwandte Suchanfragen und mehr. Dies umfasst alle gewünschten Informationen. Sie können über den Scraper „google-serp“ lesen HIER.

Fügen wir diesen Parameter zu unserem Beispiel hinzu und sehen wir, was wir als Antwort erhalten:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
für Crawlbase importieren CrawlingAPI
importieren JSON

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase Normal-Token
api = CrawlingAPI({ 'Zeichen': „CRAWLBASE_NORMAL_TOKEN“ })

# URL der Google-Suchseite, die Sie scrapen möchten
google_search_url = „https://www.google.com/search?q=data+science“

# Optionen für Crawling API
Optionen = {
'Schaber': „Google-SERP“
}

# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(Google_Search_URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200 und Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# hübsch gedruckter Antworttext
drucken(json.dumps(response_json, Einzug=4, sort_keys=Wahre))
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

Ausgang:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
{
"Karosserie": {
"Anzeigen": [],
"AnzahlErgebnisse": 2520000000,
„peopleAlsoAsk“ (Die Leute fragen auch): [
{
„Beschreibung“: „Ein Datenwissenschaftler verwendet Daten, um die sie umgebenden Phänomene zu verstehen und zu erklären und Organisationen dabei zu helfen, bessere Entscheidungen zu treffen. Die Arbeit als Datenwissenschaftler kann intellektuell herausfordernd und analytisch befriedigend sein und Sie an die Spitze neuer technologischer Fortschritte bringen. 15. Juni 2023“,
"Ziel": {
"text": „Courserahttps://www.coursera.org \u00e2\u0080\u00ba Coursera-Artikel \u00e2\u0080\u00ba-Daten“,
"URL": "https://www.coursera.org/articles/what-is-a-data-scientist#:~:text=A%20data%20scientist%20uses%20data,of%20new%20advances%20in%20technology."
},
"Position": 1,
„Titel“: „Was genau macht ein Data Scientist?“,
"URL": "https://google.com/search?sca_esv=561439800&q=What+exactly+does+a+data+scientist+do%3F&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQzmd6BAgvEAY"
},
{
„Beschreibung“: „Ja, da ein Data Science-Studium solide Grundlagen in Mathematik, Statistik und Computerprogrammierung erfordert, kann der Einstieg in ein Data Science-Studium schwierig sein. Die Fähigkeiten und Kenntnisse, die erforderlich sind, um in diesem Bereich erfolgreich zu sein, kann jedoch jeder mit dem richtigen Maß an Anstrengung und Engagement erwerben. 11. August 2023“,
"Ziel": {
"text": "simplilearn.comhttps://www.simplilearn.com \u00e2\u0080\u00a ist-Data-Science-schwer-Artikel",
"URL": "https://www.simplilearn.com/is-data-science-hard-article#:~:text=Yes%2C%20because%20it%20demands%20a,amount%20of%20effort%20and%20commitment."
},
"Position": 2,
„Titel“: „Ist Data Science zu schwer?“,
"URL": "https://google.com/search?sca_esv=561439800&q=Is+data+science+too+hard%3F&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQzmd6BAgqEAY"
},
{
„Beschreibung“: „Ist für Data Science Programmieren erforderlich? Ja, Data Science erfordert Programmieren, da dabei Sprachen wie Python und R verwendet werden, um Modelle für maschinelles Lernen zu erstellen und große Datensätze zu verarbeiten. 28. Juli 2023“,
"Ziel": {
"text": „simplilearn.comhttps://www.simplilearn.com \u00e2\u0080\u00a welche-Fähigkeiten-brauche-ich-um...“,
"URL": "https://www.simplilearn.com/what-skills-do-i-need-to-become-a-data-scientist-article#:~:text=Does%20Data%20Science%20Require%20Coding,and%20deal%20with%20large%20datasets."
},
"Position": 3,
„Titel“: „Ist Data Science eine Kodierung?“,
"URL": "https://google.com/search?sca_esv=561439800&q=Is+data+science+a+coding%3F&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQzmd6BAgrEAY"
},
{
„Beschreibung“: „Ist Data Science eine gute Karriere? Data Science ist eine fantastische Karriere mit viel Potenzial für zukünftiges Wachstum. Schon jetzt gibt es eine große Nachfrage, wettbewerbsfähige Bezahlung und mehrere Vorteile. Unternehmen suchen aktiv nach Datenwissenschaftlern, die aus riesigen Datenmengen wertvolle Informationen gewinnen können. 19. Juni 2023“,
"Ziel": {
"text": "simplilearn.comhttps://www.simplilearn.com \u00e2\u0080\u00a ist-Data-Science-ein-gutes-Auto...",
"URL": "https://www.simplilearn.com/is-data-science-a-good-career-choice-article#:~:text=View%20More-,Is%20data%20science%20a%20good%20career%3F,from%20massive%20amounts%20of%20data."
},
"Position": 4,
„Titel“: „Ist Data Science eine gute Karriere?“,
"URL": "https://google.com/search?sca_esv=561439800&q=Is+data+science+a+good+career%3F&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQzmd6BAgsEAY"
}
],
"verwandteSuchen": [
{
„Titel“: „Jobs im Bereich Datenwissenschaft“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+science+jobs&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhVEAE"
},
{
„Titel“: „Data Science-Gehalt“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+science+salary&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhQEAE"
},
{
„Titel“: „Data Science-Abschluss“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+Science+degree&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhREAE"
},
{
„Titel“: „Datenwissenschaft – Wikipedia“,
"URL": "https://google.com/search?sca_esv=561439800&q=data+science+-+wikipedia&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhTEAE"
},
{
„Titel“: „Data Science-Definition und Beispiel“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+science+definition+and+example&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhUEAE"
},
{
„Titel“: „Lehrplan für Data Science“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+Science+syllabus&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhSEAE"
},
{
„Titel“: „Datenwissenschaft vs. Datenanalyse“,
"URL": "https://google.com/search?sca_esv=561439800&q=Data+science+vs+data+analytics&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhPEAE"
},
{
„Titel“: „Was ist Data Science in Python“,
"URL": "https://google.com/search?sca_esv=561439800&q=What+is+Data+Science+in+Python&sa=X&ved=2ahUKEwikkP3WyYWBAxUkkWoFHTxKCSIQ1QJ6BAhNEAE"
}
],
"Suchergebnisse": [
{
„Beschreibung“: „Data Science kombiniert Mathematik und Statistik, spezialisierte Programmierung, fortgeschrittene Analytik, künstliche Intelligenz (KI) und maschinelles Lernen mit spezifischen Themen …“,
"Ziel": „IBMhttps://www.ibm.com \u00e2\u0080\u00a Themen \u00e2\u0080\u00a Datenwissenschaft“,
"Position": 1,
"nachdatieren": "",
„Titel“: „Was ist Data Science?“,
"URL": „https://www.ibm.com/topics/data-science“
},
{
„Beschreibung“: „Data Scientists untersuchen, welche Fragen beantwortet werden müssen und wo die entsprechenden Daten zu finden sind. Sie verfügen über betriebswirtschaftliches Geschick und analytische Fähigkeiten sowie die …“,
"Ziel": „University of California, Berkeleyhttps://ischoolonline.berkeley.edu \u00e2\u0080\u00a Data Science“,
"Position": 2,
"nachdatieren": "",
„Titel“: „Was ist Data Science? – UC Berkeley Online“,
"URL": „https://ischoolonline.berkeley.edu/data-science/what-is-data-science/“
},
{
„Beschreibung“: „Ein Datenwissenschaftler ist ein Fachmann, der Programmcode erstellt und ihn mit statistischem Wissen kombiniert, um aus Daten Erkenntnisse zu gewinnen.“,
"Ziel": „Wikipediahttps://en.wikipedia.org \u00e2\u0080\u00a Wiki \u00e2\u0080\u00a Data_science“,
"Position": 3,
"nachdatieren": "",
„Titel“: "Datenwissenschaft",
"URL": „https://en.wikipedia.org/wiki/Data_science“
},
{
„Beschreibung“: „Zu den Aufgaben eines Datenwissenschaftlers können das Entwickeln von Strategien zur Datenanalyse, das Vorbereiten von Daten für die Analyse sowie das Erkunden, Analysieren und Visualisieren von Daten gehören, …“,
"Ziel": „Oraclehttps://www.oracle.com \u00e2\u0080\u00a was-ist-Data-Science“,
"Position": 4,
"nachdatieren": "",
„Titel“: „Was ist Data Science?“,
"URL": „https://www.oracle.com/what-is-data-science/“
},
{
„Beschreibung“: "1. August 2023 \u00e2\u0080\u0094 Data Science ist der Studienbereich, der sich mit riesigen Datenmengen unter Verwendung moderner Werkzeuge und Techniken befasst, um unsichtbare Muster zu finden, abzuleiten …",
"Ziel": „Simplilearn.comhttps://www.simplilearn.com \u00e2\u0080\u00ein Data-Science-Tutorial“,
"Position": 5,
"nachdatieren": "",
„Titel“: „Was ist Data Science? Eine einfache Erklärung und mehr“,
"URL": „https://www.simplilearn.com/tutorials/data-science-tutorial/what-is-data-science“
},
{
„Beschreibung“: "15. Juni 2023 \u00e2\u0080\u0094 Ein Datenwissenschaftler verwendet Daten, um die sie umgebenden Phänomene zu verstehen und zu erklären und Organisationen dabei zu helfen, bessere Entscheidungen zu treffen.",
"Ziel": „Courserahttps://www.coursera.org \u00e2\u0080\u00ba Coursera-Artikel \u00e2\u0080\u00ba-Daten“,
"Position": 6,
"nachdatieren": "",
„Titel“: „Was ist ein Data Scientist? Gehalt, Fähigkeiten und wie …“,
"URL": „https://www.coursera.org/articles/what-is-a-data-scientist“
},
{
„Beschreibung“: „Data Science ist eine Kombination aus Mathematik, Statistik, maschinellem Lernen und Informatik. Data Science sammelt, analysiert und interpretiert Daten, um …“,
"Ziel": „Großartiges Lernenhttps://www.mygreatlearning.com \u00e2\u0080\u00ein Blog \u00e2\u0080\u00ein Was-ist-das-Daten...“,
"Position": 7,
"nachdatieren": "",
„Titel“: „Was ist Data Science?: Leitfaden für Anfänger“,
"URL": „https://www.mygreatlearning.com/blog/what-is-data-science/“
},
{
„Beschreibung“: „Spezialisierungen und Kurse im Bereich Data Science vermitteln die Grundlagen der Dateninterpretation, der Durchführung von Analysen sowie des Verstehens und Kommunizierens umsetzbarer …“,
"Ziel": „Courserahttps://www.coursera.org \u00e2\u0080\u00a durchsuchen \u00e2\u0080\u00a Datenwissenschaft“,
"Position": 8,
"nachdatieren": "",
„Titel“: „Beste Data Science-Kurse online [2023]“,
"URL": „https://www.coursera.org/browse/data-science“
},
{
„Beschreibung“: „5. April 2023 \u00e2\u0080\u0094 Die Datenwissenschaft ist ein multidisziplinäres Studiengebiet, das Techniken und Werkzeuge anwendet, um aussagekräftige Informationen und umsetzbare Erkenntnisse zu gewinnen …“,
"Ziel": „Integrierte https://builtin.com \u00e2\u0080\u00a Datenwissenschaft“,
"Position": 9,
"nachdatieren": "",
„Titel“: „Was ist Data Science? Ein vollständiger Leitfaden.“,
"URL": „https://builtin.com/data-science“
}
],
"snackPack": {
"Kartenlink": "",
"mehrStandorteLink": "",
"Ergebnisse": []
}
},
"ursprünglicher_Status": 200,
"pc_status": 200,
"URL": „https://www.google.com/search?q=data%20science“
}

Die obige Ausgabe zeigt, dass der Scraper „google-serp“ seine Arbeit sehr effizient erledigt. Er scrapt alle wichtigen Informationen, darunter 9 Suchergebnisse von der entsprechenden Google-Suchseite, und gibt uns ein JSON-Objekt, das wir je nach Bedarf problemlos in unserem Code verwenden können.

Müheloses Verwalten der Seitennummerierung

Beim Scraping von Google-Suchseiten ist die Beherrschung der Paginierung unerlässlich, um umfassende Daten zu sammeln. Der Crawlbase-Scraper „google-serp“ liefert in seiner JSON-Antwort wertvolle Informationen: die Gesamtzahl der Ergebnisse, bekannt als „numberOfResults“. Diese Informationen dienen uns als Leitfaden für eine effektive Handhabung der Paginierung.

Ihr Scraper muss geschickt durch die verschiedenen Seiten mit Ergebnissen navigieren, die in der Paginierung verborgen sind, um alle Suchergebnisse zu erfassen. Sie verwenden dazu den Abfrageparameter „Start“ und spiegeln damit die Methodik von Google wider. Google zeigt normalerweise neun Suchergebnisse pro Seite an, wodurch zwischen jeder Seite eine konsistente Lücke von neun Ergebnissen entsteht, wie unten dargestellt:

Um den richtigen Wert für den Abfrageparameter „Start“ zu ermitteln, müssen Sie die Position des letzten „searchResults“-Objekts aus der Antwort erhöhen und es zum vorherigen Startwert hinzufügen. Sie setzen diesen Vorgang fort, bis Sie die gewünschte Ergebnisanzahl erreicht haben oder bis Sie die maximale Anzahl verfügbarer Ergebnisse erfasst haben. Dieser systematische Ansatz stellt sicher, dass wertvolle Daten erfasst werden, sodass Sie umfassende Erkenntnisse aus den Suchseiten von Google gewinnen können.

Aktualisieren wir den Beispielcode, um die Seitennummerierung zu handhaben und alle Produkte zu scrapen:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
für Crawlbase importieren CrawlingAPI
importieren JSON

# Initialisieren Sie die Crawling API mit Ihrem Crawlbase Normal-Token
api = CrawlingAPI({ 'Zeichen': „CRAWLBASE_NORMAL_TOKEN“ })

# URL der Google-Suchseite, die Sie scrapen möchten
google_search_url = „https://www.google.com/search?q=data+science“

# Optionen für Crawling API
Optionen = {
'Schaber': „Google-SERP“
}

# Liste zum Speichern der extrahierten Suchergebnisse
Suchergebnisse = []

def Gesamtergebnisse abrufen(URL):
# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200 und Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# Scraper-Ergebnisse erhalten
Scraper-Ergebnis = Antwort_JSON['Körper']

# Paginierungsinformationen extrahieren
AnzahlErgebnisse = scraper_result.get("AnzahlErgebnisse", Keine)
Rückkehr Anzahl der Ergebnisse
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])
Rückkehr Keine

def Suchergebnisse auslesen(URL):
# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200 und Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# Scraper-Ergebnisse erhalten
Scraper-Ergebnis = Antwort_JSON['Körper']

# Extrahieren von Suchergebnissen aus der JSON-Antwort
Ergebnisse = Scraper_Ergebnis.get("Suchergebnisse", [])
search_results.extend(Ergebnisse)

sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

# Paginierungsinformationen extrahieren
AnzahlDerErgebnisse = Gesamtergebnisse abrufen(Google-Such-URL) or 50
# Startposition für Suchergebnisse initialisieren
Startwert = 1

# Beschränkung der Suchergebnisse auf maximal 50 für das Beispiel
# Sie können das Limit auf numberOfResults erhöhen, um die maximale Anzahl an Suchergebnissen zu erhalten
während Startwert 50:
if Startwert > AnzahlErgebnisse:
brechen
Seiten-URL = f'{google_search_url}&Start={Startwert}'
scrape_search_results(Seiten-URL)
Startwert = Startwert + Suchergebnisse[-1]['Position'] + 1

# Verarbeiten Sie die gesammelten Suchergebnisse nach Bedarf
drucken(f'Gesamtsuchergebnisse: {len(Suchergebnisse)}')

Beispielausgabe:

1
Suchergebnisse insgesamt: 47

Wie Sie oben sehen können, haben wir jetzt 47 Suchergebnisse, was weitaus mehr ist als das, was wir vorher hatten. Sie können das Limit im Code aktualisieren (im Beispiel auf 50 einstellen) und eine beliebige Anzahl von Suchergebnissen innerhalb des Bereichs der Anzahl der verfügbaren Ergebnisse abrufen.

Speichern von Daten in einer SQLite-Datenbank

Wenn Sie mit der Crawlbase-API erfolgreich Google-Suchergebnisse gescrapt haben, möchten Sie diese Daten möglicherweise für weitere Analysen speichern oder in Ihren Anwendungen verwenden. Eine effiziente Möglichkeit zum Speichern strukturierter Daten wie Suchergebnisse ist die Verwendung einer SQLite-Datenbank, die leichtgewichtig, in sich geschlossen und in Python einfach zu handhaben ist.

So können Sie die URL, den Titel, die Beschreibung und die Position jedes Suchergebnisobjekts in einer SQLite-Datenbank speichern:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
importieren sqlite3
für Crawlbase importieren CrawlingAPI
importieren JSON

def scrape_google_search
# Initialisieren Sie die Crawling API mit Ihrem Crawlbase Normal-Token
api = CrawlingAPI({'Zeichen': „CRAWLBASE_NORMAL_TOKEN“})

# URL der Google-Suchseite, die Sie scrapen möchten
google_search_url = „https://www.google.com/search?q=data+science“

# Optionen für Crawling API
Optionen = {
'Schaber': „Google-SERP“
}

# Liste zum Speichern der extrahierten Suchergebnisse
Suchergebnisse = []

def Gesamtergebnisse abrufen(URL):
# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200 und Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# Scraper-Ergebnisse erhalten
Scraper-Ergebnis = Antwort_JSON['Körper']

# Paginierungsinformationen extrahieren
AnzahlErgebnisse = scraper_result.get("AnzahlErgebnisse", Keine)
Rückkehr Anzahl der Ergebnisse
sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])
Rückkehr Keine

def Suchergebnisse auslesen(URL):
# Stellen Sie eine Anfrage zum Scrapen der Google-Suchseite mit Optionen
Antwort = api.get(URL, Optionen)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200 und Antwort['Kopfzeilen']['pc_status'] == '200':
# Laden von JSON aus dem Antworttext nach dem Dekodieren der Bytedaten
Antwort_json = json.loads(Antwort['Körper'].dekodieren('lateinisch1'))

# Scraper-Ergebnisse erhalten
Scraper-Ergebnis = Antwort_JSON['Körper']

# Extrahieren von Suchergebnissen aus der JSON-Antwort
Ergebnisse = Scraper_Ergebnis.get("Suchergebnisse", [])
search_results.extend(Ergebnisse)

sonst:
drucken(„Die Seite konnte nicht abgerufen werden. Statuscode:“, Antwort['Statuscode'])

def Datenbank initialisieren
# SQLite-Datenbank erstellen oder Verbindung mit ihr herstellen
Verbindung = sqlite3.connect('Suchergebnisse.db')
Cursor = conn.cursor()

# Erstellen Sie eine Tabelle zum Speichern der Suchergebnisse
Cursor.ausführen('' '
Tabelle erstellen, wenn nicht vorhanden Suchergebnisse (
Titel TEXT,
URL-TEXT,
Beschreibung TEXT,
Position INTEGER
)
'' ')

# Änderungen übernehmen und die Datenbankverbindung schließen
conn.commit()
conn.close()

def Suchergebnisse einfügen(Ergebnisliste):
# SQLite-Datenbank erstellen oder Verbindung mit ihr herstellen
Verbindung = sqlite3.connect('Suchergebnisse.db')
Cursor = conn.cursor()

# Durch die Ergebnisliste iterieren und Daten in die Datenbank einfügen
für Folge in Ergebnisliste:
Titel = Ergebnis.get(‚Titel‘, '')
url = Ergebnis.get('URL', '')
Beschreibung = Ergebnis.get('Bezeichnung', '')
Position = Ergebnis.get('Position', Keine)

Cursor.ausführen(„INSERT INTO search_results VALUES (?, ?, ?, ?)“,
(Titel, URL, Beschreibung, Position))

# Änderungen übernehmen und die Datenbankverbindung schließen
conn.commit()
conn.close()

# Initialisieren der Datenbank
initialisieren_datenbank()

# Paginierungsinformationen extrahieren
AnzahlDerErgebnisse = Gesamtergebnisse abrufen(Google-Such-URL) or 50
# Startposition für Suchergebnisse initialisieren
Startwert = 1

# Beschränkung der Suchergebnisse auf maximal 50 für das Beispiel
# Sie können das Limit auf numberOfResults erhöhen, um die maximale Anzahl an Suchergebnissen zu erhalten
während Startwert 50:
if Startwert > AnzahlErgebnisse:
brechen
Seiten-URL = f'{google_search_url}&Start={Startwert}'
scrape_search_results(Seiten-URL)
Startwert = Startwert + Suchergebnisse[-1]['Position'] + 1

# Suchergebnisse in Datenbank speichern
insert_search_results(Suchergebnisse)

if __name__ == "__hauptsächlich__":
scrape_google_search()

Im obigen Code scrape_google_search() Funktion ist der Einstiegspunkt. Sie initialisiert die Crawlbase-API mit einem Authentifizierungstoken und gibt die Google-Such-URL an, die gescrapt wird. Außerdem richtet sie eine leere Liste namens search_results um die extrahierten Suchergebnisse zu sammeln.

Die scrape_search_results(url) Funktion verwendet eine URL als Eingabe, sendet eine Anfrage an die Crawlbase-API, um die Google-Suchergebnisseite abzurufen, und extrahiert relevante Informationen aus der Antwort. Anschließend hängt sie diese Daten an die search_results Liste.

Zwei weitere Schlüsselfunktionen, initialize_database() und insert_search_results(result_list), befassen sich mit der Verwaltung einer SQLite-Datenbank. initialize_database() Funktion ist verantwortlich für das Erstellen oder Herstellen einer Verbindung zu einer Datenbankdatei namens search_results.db und Definieren einer Tabellenstruktur zur Speicherung der Suchergebnisse. insert_search_results(result_list) Funktion fügt die extrahierten Suchergebnisse in diese Datenbanktabelle ein.

Das Skript übernimmt auch die Seitennummerierung, indem es kontinuierlich Anfragen für nachfolgende Suchergebnisseiten stellt. Das maximale Limit für Suchergebnisse ist in diesem Beispiel auf 50 festgelegt. Die extrahierten Daten, einschließlich Titel, URLs, Beschreibungen und Positionen, werden dann in der SQLite-Datenbank gespeichert, die wir für weitere Analysen verwenden können.

search_results Datenbankvorschau:

Datenbank-Screenshot

7. Scrapen Sie Google-Suchergebnisse mit Crawlbase

Web Scraping ist eine transformative Technologie, die es uns ermöglicht, wertvolle Erkenntnisse aus dem riesigen Ozean an Informationen im Internet zu gewinnen, wobei die Google-Suchseiten eine wichtige Datenquelle darstellen. Dieser Blog hat Sie auf eine umfassende Reise in die Welt des Web Scraping mitgenommen, wobei Python und die Crawlbase zum Einsatz kommen. Crawling API als unsere treuen Begleiter.

Wir begannen damit, die Bedeutung von Web Scraping zu verstehen und dessen Potenzial aufzuzeigen, die Datenerfassung zu rationalisieren, die Effizienz zu steigern und datengesteuerte Entscheidungen in verschiedenen Bereichen zu unterstützen. Dann führten wir die Crawlbase ein Crawling API, ein robustes und benutzerfreundliches Tool, das auf Web Scraping zugeschnitten ist und dessen Skalierbarkeit, Zuverlässigkeit und Echtzeit-Datenzugriff im Vordergrund stehen.

Wir haben wesentliche Voraussetzungen abgedeckt, darunter die Konfiguration Ihrer Entwicklungsumgebung, die Installation der erforderlichen Bibliotheken und die Erstellung eines Crawlbase-Kontos. Wir haben gelernt, wie Sie das Token erhalten, die API einrichten, den idealen Scraper auswählen und die Paginierung effizient verwalten, um umfassende Suchergebnisse zu scrapen.

Jetzt, da Sie wissen, wie Web Scraping funktioniert, können Sie die Google-Suchergebnisse erkunden und Informationen daraus sammeln. Egal, ob Sie gerne mit Daten arbeiten, ein Marktforscher oder ein Geschäftsmann sind, Web Scraping ist eine nützliche Fähigkeit. Es kann Ihnen einen Vorteil verschaffen und Ihnen helfen, tiefere Einblicke zu gewinnen. Ich hoffe also, dass Sie zu Beginn Ihrer Web Scraping-Reise viele nützliche Daten sammeln und viele wertvolle Erkenntnisse gewinnen.

8. Häufig gestellte Fragen

F: Welche Bedeutung hat das Web Scraping der Google-Suchergebnisseite?

Das Web Scraping von Google-Suchergebnissen ist wichtig, da es Zugriff auf eine riesige Menge an im Internet verfügbaren Daten bietet. Google ist ein primäres Tor zu Informationen und das Scraping seiner Suchergebnisse ermöglicht verschiedene Anwendungen, darunter Marktforschung, Datenanalyse, Konkurrenzanalyse und Inhaltsaggregation.

F: Was sind die Hauptvorteile der Verwendung des Scrapers „Google-SERP“?

Der Scraper „google-serp“ ist speziell für das Scraping von Google-Suchergebnisseiten konzipiert. Er liefert eine strukturierte JSON-Antwort mit wichtigen Informationen wie Suchergebnissen, Anzeigen, verwandten Suchanfragen und mehr. Dieser Scraper ist vorteilhaft, da er den Datenextraktionsprozess vereinfacht und die Arbeit mit den von Ihnen gesammelten Daten erleichtert. Außerdem stellt er sicher, dass Sie alle relevanten Informationen von den dynamischen Suchseiten von Google erfassen.

F: Was sind die Schlüsselkomponenten einer Google-Suchseite und warum ist es für das Web Scraping wichtig, diese zu verstehen?

Eine Google-Suchseite besteht aus mehreren Komponenten: der Suchleiste, Suchwerkzeugen, Anzeigen, Standorten, Suchergebnissen, dem Abschnitt „Nutzer fragen auch“, verwandten Suchanfragen, dem Wissensgraphen und der Seitennummerierung. Das Verständnis dieser Komponenten ist für das Web Scraping von entscheidender Bedeutung, da es Ihnen hilft, die benötigten Daten zu identifizieren und effektiv durch dynamische Inhalte zu navigieren.

F: Wie kann ich die Paginierung beim Web Scraping von Google-Suchergebnissen handhaben und warum ist dies notwendig?

Die Handhabung der Paginierung beim Web Scraping von Google-Suchseiten umfasst das Navigieren durch mehrere Ergebnisseiten, um umfassende Daten zu sammeln. Dies ist notwendig, da Google Suchergebnisse auf mehreren Seiten anzeigt und Sie alle relevanten Informationen scrapen möchten. Sie können den Abfrageparameter „Start“ und die Gesamtzahl der Ergebnisse verwenden, um die richtigen URLs für jede Seite zu ermitteln und eine vollständige Datenextraktion sicherzustellen.