In dieser Anleitung scrapen wir Wikipedia, die größte Enzyklopädie des Internets. Egal, ob Sie ein akademischer Forscher, Inhaltsersteller, Datenwissenschaftler oder einfach nur neugierig sind, wie man einen Wikipedia-Scraper erstellt, dieses Tutorial ist für Sie.

Wir geben Ihnen Schritt-für-Schritt-Anleitungen, wie Sie Daten aus Wikipedia mit Python extrahieren können, einer beliebten Programmiersprache, die für ihre Einfachheit und Vielseitigkeit bekannt ist. Darüber hinaus stellen wir Ihnen Crawlbases vor. Crawling API, ein leistungsstarkes Tool, das den Scraping-Prozess rationalisiert und noch effizienter macht.

Am Ende dieses Tutorials verfügen Sie über die Fähigkeiten und Kenntnisse, um Wikipedia zu extrahieren und aus den Artikeln problemlos Informationen für alle möglichen Projekte zu sammeln. Lassen Sie uns beginnen.

Inhaltsverzeichnis

I. Was sind die besten Möglichkeiten, Daten aus Wikipedia zu extrahieren?

II. Projektumfang

Voraussetzungen

IV. Abhängigkeiten installieren

V. So extrahieren Sie HTML aus Wikipedia

  • Schritt 1: Importieren der Crawlbase-Bibliothek
  • Schritt 2: Definieren der Funktion crChoosing an Endpointawl
  • Schritt 3: Initialisieren des CrawlingAPI-Objekts
  • Schritt 4: Erstellen einer GET-Anfrage
  • Schritt 5: Überprüfen des Antwortstatuscodes
  • Schritt 6: Extrahieren und Drucken des HTML-Inhalts
  • Schritt 7: Fehlerbehandlung
  • Schritt 8: Hauptfunktion
  • Schritt 9: Wikipedia-Seiten-URL und API-Token angeben
  • Schritt 10: Aufrufen der Crawl-Funktion

VI. Wie man Wikipedia scrapt

  • Schritt 1: Bibliotheken importieren
  • Schritt 2: Initialisieren des Crawling API
  • Schritt 3: Den Wikipedia-Seitentitel extrahieren
  • Schritt 4: Scraping der Nickname-Eigenschaft
  • Schritt 5: Staatsbürgerschaftseigenschaft löschen
  • Schritt 6: Bild auskratzen
  • Schritt 7: Profiltitel scrapen
  • Schritt 8: Vervollständigen Sie den Code

VII. Fazit

VIII. Häufig gestellte Fragen

I. Was sind die besten Möglichkeiten zum Extrahieren von Wikipedia?

Wikipedia wurde 2001 gegründet und ist eine kostenlose Online-Enzyklopädie, die von Freiwilligen auf der ganzen Welt gepflegt wird. Mit fast 4.3 Milliarden Einzelbesuchern weltweit im Dezember 2023 dient sie als wichtige Informationsquelle zu verschiedenen Themen. Wikipedia wird von der Wikimedia Foundation betrieben und ermöglicht offene Zusammenarbeit und demokratisierten Wissensaustausch, was sie zu einer wichtigen Plattform für Benutzer weltweit macht.

Wikipedia-Besuche 2024

Quelle

Das Scraping von Wikipedia kann auf verschiedene Arten erfolgen, jede mit ihren eigenen Vorteilen. Hier sind einige effektive Ansätze:

  1. APIs: Wikipedia bietet eine MediaWiki-API, die programmgesteuerten Zugriff auf eine große Menge an Wikipedia-Inhalten ermöglicht. Diese API ermöglicht zwar das Abrufen bestimmter Datensätze, kann jedoch ihre Einschränkungen haben. In diesem Tutorial werden wir einen anderen API-Typ untersuchen, die Crawling API, was eine höhere Effizienz und Flexibilität bei der Datenextraktion verspricht.
  2. Web-Scraping: Mit Bibliotheken wie BeautifulSoup (für Python), Scrapy oder Cheerio (für Node.js) können Sie Wikipedia-Seiten direkt scrapen. Achten Sie darauf, die robots.txt-Datei von Wikipedia einzuhalten und vermeiden Sie eine Überlastung der Server durch übermäßige Anfragen. Später in diesem Blog werden wir BeautifulSoup mit dem kombinieren Crawling API um das Scraping von Wikipedia-Seiten auf die effektivste Weise zu erreichen.
  3. Datenbank-Dumps: Wikipedia veröffentlicht regelmäßig vollständige Datenbank-Dumps enthält den gesamten Inhalt. Obwohl diese Dumps groß sein können und spezielle Software zum Parsen erfordern, bieten sie umfassenden Zugriff auf Wikipedia-Daten.
  4. Datensätze von Drittanbietern: Es gibt Datensätze von Drittanbietern verfügbar, die bereits Daten aus Wikipedia extrahiert und formatiert haben. Diese Datensätze können für bestimmte Anwendungsfälle nützlich sein, aber es ist wichtig, ihre Genauigkeit und Zuverlässigkeit zu überprüfen.

Bei der Verwendung von Scraped-Daten ist es wichtig, die Quelle entsprechend anzugeben. Bedenken Sie außerdem die Auswirkungen Ihrer Scraping-Aktivitäten auf die Server von Wikipedia und stellen Sie sicher, dass die Nutzungsrichtlinien eingehalten werden.

II. Projektumfang

Unser Ziel in diesem Tutorial ist es, einen Python-basierten Wikipedia-Scraper zu entwickeln, um Daten aus Wikipedia-Seiten zu extrahieren. Unser Projektumfang umfasst die Nutzung der BeautifulSoup-Bibliothek für HTML-Parsing und die Integration der Crawlbase Crawling API für eine effiziente Datenextraktion. Wir behandeln das Scraping verschiedener Elemente wie Seitentitel, Spitznamen, Staatsbürgerschaftsdetails, Bilder und Profiltitel von Wikipedia-Seiten.

Zu den Schlüsselkomponenten dieses Projekts gehören:

  1. HTML-Crawling: Wir werden Python mit Crawlbase nutzen Crawling API um den vollständigen HTML-Inhalt aus Wikipedia-Seiten zu extrahieren und so einen effizienten Datenabruf unter Einhaltung der Nutzungsrichtlinien von Wikipedia sicherzustellen.

Wir zielen Diese URL für dieses Projekt.

Elon Musk Wikipedia
  1. Wikipedia Scraping: Unser Fokus liegt dabei auf der Extraktion spezifischer Datenelemente aus Wikipedia-Seiten mit Hilfe von BeautifulSoup (Python), darunter Titel, Spitznamen, Angaben zur Staatsbürgerschaft, Bildern und Profiltitel.

  2. Fehlerbehandlung: Wir befassen uns mit der Fehlerbehandlung während des Scraping-Prozesses und bieten Richtlinien und Tipps zur Fehlerbehebung für häufige Probleme, die bei der Datenextraktion auftreten.

Nachdem dies nun geklärt ist, fahren wir mit den Voraussetzungen des Projekts fort.

Voraussetzungen

Bevor Sie sich kopfüber in unser Web-Scraping-Projekt zum Scrapen von Wikipedia mit Python stürzen, sollten Sie einige Voraussetzungen berücksichtigen:

  1. Grundkenntnisse in Python: Um die in diesem Tutorial vorgestellten Codebeispiele und Konzepte zu verstehen, ist es wichtig, mit der Programmiersprache Python vertraut zu sein. Wenn Sie neu bei Python sind, sollten Sie die Einführung durchgehen. Python-Tutorials oder Kurse zum Erlernen der Grundlagen.

  2. Aktives Crawlbase-API-Konto mit API-Anmeldeinformationen: Um programmgesteuert und effizient auf Wikipedia-Seiten zuzugreifen, benötigen Sie ein aktives Konto bei Crawlbase und API-Anmeldeinformationen.

Beginnen Sie, indem Anmeldung für die Crawlbase Crawling API um Ihre kostenlosen 1,000 Anfragen zu erhalten und Ihre API-Anmeldeinformationen zu erhalten von KontodokumentationFür dieses spezielle Projekt verwenden wir die Normales Anforderungstoken.

Crawlbase-Kontodokumente
  1. Auf Ihrem Entwicklungscomputer installiertes Python: Stellen Sie sicher, dass Python auf Ihrem lokalen Entwicklungscomputer installiert ist. Sie können Python von der offiziellen Python-Website basierend auf Ihrem Betriebssystem. Stellen Sie außerdem sicher, dass Sie pip (Python-Paketmanager) installiert haben, das normalerweise standardmäßig in Python-Installationen enthalten ist.

Sobald Sie diese Voraussetzungen erfüllt haben, können Sie mit dem Web Scraping von Wikipedia-Seiten mit Python beginnen. In den nächsten Abschnitten führen wir Sie Schritt für Schritt durch den Prozess, vom Einrichten der Umgebung bis zum effektiven Extrahieren und Verarbeiten von Daten. Fahren wir mit dem Projekt fort!

IV. Abhängigkeiten installieren

Wenn Sie Python noch nicht auf Ihrem System installiert haben, können Sie die neueste Version von der offiziellen Python-Website.

Paketinstallation:

  1. Öffnen Sie Ihre Eingabeaufforderung oder Ihr Terminal:
  • Für Windows-Benutzer: Drücken Sie Win + R, Typ cmd, und drücken Sie die Eingabetaste.
  • Für macOS/Linux-Benutzer: Öffnen Sie die Terminalanwendung.
  1. Erstellen Sie ein Verzeichnis für Ihren Python Scraper:
  • Navigieren Sie zu dem Verzeichnis, in dem Sie Ihr Python-Scraper-Projekt speichern möchten.
  1. Installieren Sie die erforderlichen Bibliotheken:
  • Verwenden Sie die folgenden Befehle, um die erforderlichen Python-Bibliotheken zu installieren:
1
2
3
pip installieren crawlbase
pip install beautifulsoup4
Pandas installieren

Über die Bibliotheken:

  • Pandas: Pandas ist eine beliebte Open-Source-Python-Bibliothek zur Datenmanipulation und -analyse. Sie bietet leistungsstarke Datenstrukturen und Funktionen, die das Arbeiten mit strukturierten oder tabellarischen Daten nahtlos und effizient machen. Die primäre Datenstruktur in Pandas ist der DataFrame, eine zweidimensionale beschriftete Datenstruktur, die einer Kalkulationstabelle oder SQL-Tabelle ähnelt.
  • Crawlbase: Die Crawlbase Python-Bibliothek vereinfacht die Integration der Crawling API, das wir verwenden, um HTML-Inhalte von Websites, einschließlich Wikipedia-Seiten, abzurufen. Durch die Verwendung der Crawlbase-Python-Bibliothek können wir den Prozess des Datenabrufs optimieren und effiziente Web-Scraping-Vorgänge für unser Projekt ermöglichen.
  • SchöneSuppe: BeautifulSuppe ist eine beliebte Python-Bibliothek zum Web Scraping und Parsen von HTML- und XML-Dokumenten. Sie bietet eine bequeme Möglichkeit, Daten aus Webseiten zu extrahieren, indem sie durch die HTML-Struktur navigiert und nach bestimmten Tags, Attributen oder Textinhalten sucht.

Einrichten Ihrer Entwicklungsumgebung:

Um mit der Codierung Ihres Web Scrapers zu beginnen, öffnen Sie Ihren bevorzugten Texteditor oder Ihre integrierte Entwicklungsumgebung (IDE). Sie können jede beliebige IDE verwenden, wie zum Beispiel PyCharm, VS-Code, oder auch Jupyter Notizbuch.

Erstellen Sie eine neue Python-Datei: Öffnen Sie Ihre IDE und erstellen Sie eine neue Python-Datei. Nennen wir sie wikipedia_scraper.py für dieses Beispiel. Diese Datei dient als unser Scraper-Skript.

Nachdem Sie nun Python installiert und die erforderlichen Bibliotheken eingerichtet haben, können Sie mit der Codierung Ihres Web Scrapers beginnen, um Daten aus Wikipedia-Seiten zu extrahieren. Fahren wir mit dem Erstellen des Scraper-Skripts fort!

V. So extrahieren Sie HTML aus Wikipedia

Um den vollständigen HTML-Quellcode aus einer Wikipedia-Webseite zu extrahieren, verwenden wir das Crawlbase-Paket, um eine Anfrage zu stellen und den HTML-Inhalt abzurufen. Nachfolgend finden Sie die Schritte zum Schreiben des Codes:

Schritt 1: Importieren der Crawlbase-Bibliothek

1
für Crawlbase importieren CrawlingAPI
  • Diese Zeile importiert die CrawlingAPI Klasse aus der crawlbase Bibliothek, die es uns ermöglicht, Anfragen an die Crawlbase-API für Web-Crawling- und Scraping-Aufgaben zu stellen.

Schritt 2: Definieren der crawl Funktion

1
def kriechen(Seiten-URL, API-Token):
  • Diese Funktion, genannt crawl, benötigt zwei Parameter: page_url (die URL der zu scrapenden Wikipedia-Seite) und api_token (das API-Token, das für den Zugriff auf die Crawlbase-API erforderlich ist).

Schritt 3: Initialisieren des CrawlingAPI-Objekts

1
api = CrawlingAPI({'Zeichen': api_token})
  • Hier erstellen wir eine Instanz von CrawlingAPI Klasse, wobei das API-Token als Parameter übergeben wird, um unsere Anfrage an die Crawlbase-API zu authentifizieren.

Schritt 4: Erstellen einer GET-Anfrage

1
Antwort = api.get(Seiten-URL)
  • Diese Zeile sendet eine GET-Anfrage an die angegebene page_url Verwendung der get Methode des API-Objekts. Es ruft den HTML-Inhalt der Wikipedia-Seite ab.

Schritt 5: Überprüfen des Antwortstatuscodes

1
if Antwort['Statuscode'] == 200:
  • Wir prüfen, ob der Antwortstatuscode 200 lautet. Dies bedeutet, dass die Anforderung erfolgreich war und der HTML-Inhalt ohne Fehler abgerufen wurde.

Schritt 6: Extrahieren und Drucken des HTML-Inhalts

1
drucken(f'{Antwort["Karosserie"]}')
  • Wenn die Anfrage erfolgreich war, drucken wir den HTML-Inhalt der Wikipedia-Seite. Der HTML-Inhalt wird gespeichert im response Wörterbuch unter dem Schlüssel 'body'.

Schritt 7: Fehlerbehandlung

1
2
sonst:
drucken(f"Fehler: {Antwort}")
  • Wenn die Anforderung fehlschlägt (d. h. wenn der Antwortstatuscode nicht 200 ist), drucken wir eine Fehlermeldung zusammen mit den Antwortdetails.

Schritt 8: Hauptfunktion

1
if __name__ == "__hauptsächlich__":
  • Dieser Codeblock stellt sicher, dass der folgende Code nur ausgeführt wird, wenn das Skript direkt ausgeführt wird (nicht als Modul importiert wird).

Schritt 9: Wikipedia-Seiten-URL und API-Token angeben

1
2
Seiten-URL = 'https://en.wikipedia.org/wiki/Elon_Musk'
api_token = 'Crawlbase_Token'
  • Hier geben wir die URL der Wikipedia-Seite an, die wir scrapen möchten (page_url) und das API-Token, das für den Zugriff auf die Crawlbase-API erforderlich ist (api_token). Stellen Sie sicher, dass Sie Crawlbase_Token durch Ihren tatsächlichen ersetzen Crawling API Normales Anforderungstoken.

Schritt 10: Aufruf der crawl Funktion

1
crawlen (Seiten-URL, API-Token)
  • Schließlich nennen wir die crawl Funktion, die Übergabe der page_url und api_token als Argumente, um den Scraping-Prozess zu starten.

Hier ist der komplette Python-Codeausschnitt, den Sie kopieren und in Ihr wikipedia_scraper.py Datei:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
für Crawlbase importieren CrawlingAPI

def kriechen(Seiten-URL, API-Token):
# Initialisieren Sie das CrawlingAPI-Objekt mit Ihrem Token
api = CrawlingAPI({'Zeichen': api_token})

# Holen Sie sich den Seiteninhalt
Antwort = api.get(Seiten-URL)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Daten extrahieren
drucken(f'{Antwort["Karosserie"]}')
sonst:
drucken(f"Fehler: {Antwort}")

if __name__ == "__hauptsächlich__":
# Geben Sie die URL der Wikipedia-Seite an, die ausgelesen werden soll.
Seiten-URL = 'https://en.wikipedia.org/wiki/Elon_Musk'

# Geben Sie Ihr Crawlbase API-Token an
api_token = 'Crawlbase_Token'

# Rufen Sie die Crawl-Funktion auf
crawlen (Seiten-URL, API-Token)

Lassen Sie uns nun den obigen Codeausschnitt ausführen. Dazu müssen wir den folgenden Befehl ausführen:

1
Python Wikipedia_Scraper.py

Bei der Ausführung stellt das Skript eine Anfrage an die angegebene Wikipedia-Seiten-URL ('https://en.wikipedia.org/wiki/Elon_Musk') mithilfe des bereitgestellten Crawlbase-API-Tokens. Wenn die Anforderung erfolgreich ist, wird der HTML-Inhalt der Seite gedruckt. Andernfalls wird eine Fehlermeldung angezeigt.

Die Ausgabe ist der HTML-Inhalt der Wikipedia-Seite, der dann analysiert und weiterverarbeitet werden kann, um bestimmte interessante Daten zu extrahieren.

gecrawltes HTML aus Wikipedia

VI. Wie man Wikipedia scrapt

Um mit BeautifulSoup Inhalte aus Wikipedia zu extrahieren, müssen wir die erforderlichen Bibliotheken importieren und Funktionen definieren, die den Scraping-Prozess handhaben. So können wir vorgehen:

Schritt 1: Bibliotheken importieren

Wir müssen importieren die CrawlingAPI Klasse aus der crawlbase Modul zum Stellen von Anfragen an die Crawlbase-API. Zusätzlich importieren wir BeautifulSoup von dem bs4 (BeautifulSoup) Modul zum Parsen von HTML und pandas zum Erstellen und Bearbeiten von Datenrahmen.

1
2
3
für Crawlbase importieren CrawlingAPI
für bs4 importieren BeautifulSuppe
importieren Pandas as pd

Schritt 2: Initialisieren des Crawling API

Wir definieren eine Funktion namens crawl um das CrawlingAPI-Objekt zu initialisieren, den Webseiteninhalt mithilfe der API abzurufen und den Scraping-Prozess abzuwickeln.

Wir definieren außerdem eine Funktion namens scrape_data um mit BeautifulSoup bestimmte Informationen aus dem HTML-Inhalt der Webseite zu extrahieren.

Zum Schluss geben wir die URL der Wikipedia-Seite an, die ausgelesen werden soll, das Crawlbase API-Token und rufen die crawl Funktion zum Einleiten des Schabvorgangs.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def kriechen(Seiten-URL, API-Token):
# Initialisieren Sie das CrawlingAPI-Objekt mit Ihrem Token
api = CrawlingAPI({'Zeichen': api_token})

# Holen Sie sich den Seiteninhalt
Antwort = api.get(Seiten-URL)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Daten scrapen
scraped_data = scrape_data(Antwort)

csv_dateiname = „wikipedia.csv“
df = pd.DataFrame([gescrapte_Daten])
df.to_csv(csv_dateiname, index=falsch)
sonst:
drucken(f"Fehler: {Antwort}")

if __name__ == "__hauptsächlich__":
# Geben Sie die URL der Wikipedia-Seite an, die ausgelesen werden soll.
Seiten-URL = 'https://en.wikipedia.org/wiki/Elon_Musk'

# Geben Sie Ihr Crawlbase API-Token an
api_token = 'Crawlbase_Token'

# Rufen Sie die Crawl-Funktion auf
crawlen (Seiten-URL, API-Token)

Schritt 3: Wikipedia-Seitentitel scrapen

Suchen Sie im HTML-Quellcode den Abschnitt oder Container, der den Titel darstellt. Dazu müssen Sie normalerweise die Struktur der Webseite mithilfe von Browser-Entwicklertools überprüfen oder den Seitenquelltext anzeigen.

So scrapen Sie den Wikipedia-Seitentitel

Verwenden Sie BeautifulSoup-Selektoren, um das Titelelement innerhalb der Webseite anzusprechen. Dazu müssen Sie die entsprechende Klasse angeben, die dem gewünschten Element entspricht.

1
Titel = Suppe.find('h1', id='ersteÜberschrift').get_text(strip=True)

Diese Codezeile findet das erste Vorkommen des <h1> Element mit der ID „firstHeading“ im HTML-Inhalt, der in der Variablen soup gespeichert ist. Anschließend extrahiert es den Text innerhalb dieses Elements und entfernt alle zusätzlichen Leerzeichen oder Zeilenumbrüche mithilfe des get_text(strip=True) Methode. Schließlich weist es den bereinigten Text der Variablen zu title.

Schritt 4: Wikipedia-Spitznamen-Eigenschaft scrapen

So scrapen Sie die Wikipedia-Spitznamen-Eigenschaft
1
Spitzname = soup.find('div', Klasse_='Spitzname').get_text(Streifen=Wahre)

Dieser Code findet ein HTML-Element <div> mit der CSS-Klasse „nickname“ innerhalb eines analysierten HTML-Dokuments, das durch die Variable soup dargestellt wird. Anschließend extrahiert es den Textinhalt dieses Elements, entfernt alle zusätzlichen Leerzeichen vor und nach dem Text und weist ihn der Variable zu nick_name.

Schritt 5: Wikipedia-Staatsbürgerschaftseigenschaft scrapen

So scrapen Sie das Eigentum an der Staatsbürgerschaft in Wikipedia
1
Staatsbürgerschaft = soup.select_one(„.infobox-data .plainlist“).text.strip().ersetzen('\n', ',')

Der obige Code sucht in einem analysierten HTML-Dokument, das durch die Variable soup dargestellt wird, nach einem HTML-Element mit der Klasse „infobox-data“ und „plainlist“. Er wählt das erste passende Element aus und extrahiert dessen Textinhalt. Anschließend entfernt er alle führenden oder nachfolgenden Leerzeichen und ersetzt Zeilenumbruchzeichen durch Kommas. Der resultierende Text stellt Informationen zur Staatsbürgerschaft dar und wird der Variable citizenship zugewiesen.

Schritt 6: Wikipedia-Bild scrapen

So scrapen Sie Wikipedia-Bilder
1
Bildquelle = Suppe.Wählen Sie eine('.mw-Dateibeschreibung .mw-Dateielement')['Quelle']

Dieser Codeausschnitt sucht nach einem HTML-Element, das sowohl die Klassen „mw-file-description“ als auch „mw-file-element“ enthält, innerhalb eines analysierten HTML-Dokuments, das durch die Variable soup dargestellt wird. Es wählt das erste passende Element aus und ruft den Wert des Attributs „src“ ab, das normalerweise die URL eines Bildes enthält. Die URL wird dann der Variable zugewiesen image_src.

Schritt 7: Wikipedia-Profiltitel scrapen

So scrapen Sie den Wikipedia-Profiltitel
1
Profiltitel = Suppe.Wählen Sie eine(„.infobox-data.title“).text.strip().ersetzen('\n', ',')

Dieser Code sucht nach einem HTML-Element mit der Klasse „infobox-data“ und „title“ innerhalb eines analysierten HTML-Dokuments, das durch die Variable soup dargestellt wird. Er wählt das erste passende Element aus und ruft den Textinhalt ab. Anschließend entfernt er alle führenden oder nachfolgenden Leerzeichen mit strip() und ersetzt Zeilenumbruchzeichen ('\n') mit Kommas (','). Schließlich weist es den geänderten Text der Variablen zu profile_title.

Schritt 8: Vervollständigen Sie den Code

Wenn Sie alles zusammenfügen, sollte Ihr Code so aussehen. Sie können ihn gerne kopieren und auf Ihrem lokalen Computer speichern:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
für Crawlbase importieren CrawlingAPI
für bs4 importieren BeautifulSuppe

def kriechen(Seiten-URL, API-Token):
# Initialisieren Sie das CrawlingAPI-Objekt mit Ihrem Token
api = CrawlingAPI({'Zeichen': api_token})

# Holen Sie sich den Seiteninhalt
Antwort = api.get(Seiten-URL)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Gescrapte Daten
scraped_data = scrape_data(Antwort)

drucken(f'{gescrapte_Daten}')
sonst:
drucken(f"Fehler: {Antwort}")

def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie den Titel der Wikipedia-Seite
Titel = Suppe.find('h1', id='ersteÜberschrift').get_text(Streifen=Wahre)

Spitzname = soup.find('div', Klasse_='Spitzname').get_text(Streifen=Wahre)

Staatsbürgerschaft = soup.select_one(„.infobox-data .plainlist“).text.strip().ersetzen('\n', ',')

# Extrahieren Sie die Bildquelle
Bildquelle = Suppe.Wählen Sie eine('.mw-Dateibeschreibung .mw-Dateielement')['Quelle']

Profiltitel = Suppe.Wählen Sie eine(„.infobox-data.title“).text.strip().ersetzen('\n', ',')

Rückkehr {
‚Titel‘: Titel,
'Spitzname': Spitzname,
'Staatsbürgerschaft': Staatsbürgerschaft,
'Bild': Bildquelle,
„Profiltitel“: Profiltitel
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

if __name__ == "__hauptsächlich__":
# Geben Sie die URL der Wikipedia-Seite an, die ausgelesen werden soll.
Seiten-URL = 'https://en.wikipedia.org/wiki/Elon_Musk'

# Geben Sie Ihr Crawlbase API-Token an
api_token = 'Crawlbase_Token'

# Rufen Sie die Crawl-Funktion auf
crawlen (Seiten-URL, API-Token)

Ausführen des Codes mit dem Befehl python wikipedia_scraper.py sollte eine ähnliche Ausgabe wie unten gezeigt liefern:

Daten aus Wikipedia kopiert

VII. Fazit

Zusammenfassend bietet dieses Tutorial eine umfassende Anleitung zum Scraping von Daten aus Wikipedia mit Python, BeautifulSoup und der Crawlbase-Bibliothek. Es behandelte verschiedene Aspekte, darunter das Scraping von HTML-Inhalten und das Extrahieren spezifischer Daten wie Seitentitel, Spitznamen, Staatsbürgerschaftsinformationen und Bilder von Wikipedia-Seiten.

Der in diesem Tutorial bereitgestellte Code steht zur freien Verwendung zur Verfügung. Wir ermutigen Sie, den Code für Ihre Projekte zu ändern und anzupassen. Darüber hinaus können die hier gezeigten Techniken zum Scrapen von Daten von anderen Websites angewendet werden und bieten einen vielseitigen Ansatz für Web-Scraping-Aufgaben.

Wir hoffen, dass dieses Tutorial eine wertvolle Ressource für jeden darstellt, der das Scraping von Wikipedia oder anderen Online-Quellen für Analysen, Recherchen oder andere Zwecke erlernen möchte.

Wenn Sie weitere Projekte wie dieses sehen möchten, empfehlen wir Ihnen, die folgenden Seiten zu durchsuchen:

So scrapen Sie Samsung-Produkte

So scrapen Sie Google Scholar-Ergebnisse

Scraping von Immobiliendaten von Zillow

Wenn Sie Fragen zu Crawlbase oder diesem Artikel haben, wenden Sie sich bitte an kontaktieren Sie unser Support-Team.

VIII. Häufig gestellte Fragen

Das Scraping von Wikipedia ist grundsätzlich legal, es gibt jedoch bestimmte Faktoren zu berücksichtigen. Obwohl die Inhalte von Wikipedia häufig unter Creative Commons-Lizenzen lizenziert sind, die bestimmte Verwendungen mit korrekter Quellenangabe erlauben, ist es wichtig, die Nutzungsbedingungen zu überprüfen und einzuhalten, einschließlich aller Einschränkungen des automatisierten Zugriffs.

Um die Einhaltung der geltenden Gesetze und Vorschriften sicherzustellen, empfiehlt es sich, Rechtsexperten zu konsultieren oder direkt bei Wikipedia nachzufragen. Dadurch lässt sich das Risiko potenzieller rechtlicher Probleme im Zusammenhang mit Web Scraping-Aktivitäten verringern.

F: Ist es möglich, Wikipedia mit einer anderen Programmiersprache zu scrapen?

Ja, es ist möglich, Wikipedia mit verschiedenen Programmiersprachen außer Python zu scrapen. Wikipedia bietet eine API, beispielsweise die MediaWiki-API, die programmgesteuerten Zugriff auf den Inhalt ermöglicht. Das bedeutet, dass Sie verschiedene Programmiersprachen verwenden können, die HTTP-Anfragen und JSON/XML-Parsing unterstützen, um mit der API zu interagieren und Wikipedia-Daten abzurufen.

Die spezifischen Details können jedoch je nach Programmiersprache und den verfügbaren Bibliotheken oder Frameworks zum Stellen von HTTP-Anfragen und Verarbeiten von JSON/XML-Daten variieren.

Darüber hinaus können Web-Scraping-Techniken, wie das Parsen von HTML mit Bibliotheken wie BeautifulSoup, auch in verschiedenen Programmiersprachen angewendet werden, um Wikipedia-Daten direkt zu extrahieren.