TechCrunch ist eine führende Quelle für Technologienachrichten und deckt alles von aufstrebenden Startups bis hin zu großen Technologiegiganten ab. Mit Millionen von Lesern weltweit veröffentlicht TechCrunch Artikel, die Branchentrends beeinflussen und Geschäftsstrategien prägen. Das Scraping von Daten von TechCrunch kann wertvolle Einblicke in die neuesten Technologietrends, Startup-Neuigkeiten und Branchenentwicklungen bieten.

In diesem Blog führen wir Sie durch den Prozess des Scrapens von TechCrunch mit Python. Wir behandeln alles, vom Verständnis der Website-Struktur bis zum Schreiben eines Web Scrapers, der effizient Daten aus TechCrunch-Artikeln sammeln kann. Darüber hinaus untersuchen wir, wie Sie den Scraping-Prozess mithilfe von optimieren können Crawlbase Crawling API um Anti-Scraping-Maßnahmen zu umgehen. Lasst uns beginnen!

Hier ist eine kurze Anleitung zum Scrapen von TechCrunch:

Inhaltsverzeichnis

  1. Warum TechCrunch-Daten scrapen?
  • Vorteile des Scrapings von TechCrunch
  • Zu extrahierende Schlüsseldatenpunkte
  1. Einrichten Ihrer Python-Umgebung
  • Python installieren
  • Einrichten einer virtuellen Umgebung
  • Erforderliche Bibliotheken installieren
  • Auswahl einer IDE
  1. Scraping von TechCrunch-Artikellisten
  • Überprüfen der HTML-Struktur
  • Schreiben des TechCrunch Listing Scrapers
  • Umgang mit Paginierung
  • Speichern von Daten in einer CSV-Datei
  • Code vervollständigen
  1. Scraping der TechCrunch-Artikelseite
  • Überprüfen der HTML-Struktur
  • Schreiben der TechCrunch-Artikelseite
  • Speichern von Daten in einer CSV-Datei
  • Code vervollständigen
  1. Scraping optimieren mit Crawlbase Crawling API
  • Umgehen von Scraping-Herausforderungen
  • Implementieren von Crawlbase in Ihrem Scraper
  1. Abschließende Überlegungen
  2. Häufig gestellte Fragen

Warum TechCrunch-Daten scrapen?

TechCrunch ist eine der führenden Quellen für Technologienachrichten und -analysen und bietet wertvolle Einblicke in die neuesten Entwicklungen in der Technologiebranche. Im Folgenden finden Sie einige der Vorteile des Scrapings von TechCrunch und welche Art von Informationen Sie daraus gewinnen können.

Vorteile des Scrapings von TechCrunch

Das Scraping von TechCrunch kann mehrere Vorteile bieten:

Ein Bild der Vorteile des Scrapings von Techcrunch
  • Bleiben Sie auf dem Laufenden: Durch das Scraping von TechCrunch-Daten können Sie die aktuellsten Technologietrends, Start-up-Gründungen und Veränderungen in der Branche abrufen. Dies hilft Organisationen und Einzelpersonen, in einem sich ständig verändernden Markt der Konkurrenz immer einen Schritt voraus zu sein.
  • Marktforschung: Durch das Scraping von TechCrunch-Daten können Sie gründliche Marktforschung betreiben. Durch die Analyse von Artikeln und Pressemitteilungen können Sie leicht neue Trends, Kundenpräferenzen und Strategien der Konkurrenz erkennen.
  • Trends und Stimmen: Durch das Studium von TechCrunch-Artikeln können Sie die Themen identifizieren, die an Popularität gewinnen, und diejenigen Personen bestimmen, die im Technologiebereich einflussreiche Stimmen haben. Dies hilft Ihnen dabei, potenzielle Partner, Konkurrenten oder sogar Marktführer zu identifizieren.
  • Datengesteuerte Entscheidungsfindung: Die Verfügbarkeit von TechCrunch-Daten ermöglicht es Unternehmen, Geschäftsentscheidungen auf der Grundlage aktueller Branchentrends zu treffen. Wenn Sie planen, ein neues Produkt auf den Markt zu bringen oder in einen neuen Markt einzutreten, können die von TechCrunch bereitgestellten Informationen bei der Entscheidungsfindung sehr hilfreich sein.

Zu extrahierende Schlüsseldatenpunkte

Beim Scraping von TechCrunch gibt es mehrere wichtige Datenpunkte, auf die Sie sich konzentrieren sollten:

  • Artikeltitel und Autoren: Wenn Sie wissen, welche Themen behandelt werden und wer diese Artikel schreibt, erhalten Sie einen Eindruck von Branchentrends und einflussreichen Stimmen.
  • Veröffentlichungstermine: Durch die Verfolgung des Veröffentlichungszeitpunkts von Artikeln können Sie aktuelle Trends und deren Entwicklung im Zeitverlauf erkennen.
  • Inhaltszusammenfassungen: Zusammenfassungen oder Kernaussagen aus diesen Artikeln können dabei helfen, die Hauptideen schnell zu erkennen, ohne sie vollständig lesen zu müssen.
  • Schlagwörter und Kategorien: Wenn man weiß, wie Artikel kategorisiert werden, erhält man mehr Einblicke in die Themen, die TechCrunch am häufigsten behandelt, und es wird auch ersichtlich, wie diese Themen in größere Entwicklungen der Branche passen.
  • Firmenerwähnungen: Die Identifizierung häufig erwähnter Unternehmen kann Aufschluss über Marktführer und potenzielle Investitionsmöglichkeiten geben.

Wenn Sie diese Vorteile und wichtigen Datenpunkte verstehen, können Sie die Daten von TechCrunch effektiv nutzen, um sich einen Wettbewerbsvorteil zu verschaffen und Ihr Wissen über die Technologielandschaft zu erweitern.

Einrichten Ihrer Python-Umgebung

Um TechCrunch-Daten effektiv zu scrapen, richten Sie Ihre Python-Umgebung ein, indem Sie Python installieren, eine virtuelle Umgebung verwenden und die richtigen Tools auswählen.

Python installieren

Stellen Sie sicher, dass Python auf Ihrem System installiert ist. Laden Sie die neueste Version von der Python-Website und folgen Sie den Installationsanweisungen. Denken Sie daran, Python zu Ihrem Systempfad hinzuzufügen.

Einrichten einer virtuellen Umgebung

Die Verwendung einer virtuellen Umgebung hilft Ihnen, Python-Projektabhängigkeiten zu handhaben, ohne andere Projekte zu beeinträchtigen. Es wird eine separate Instanz erstellt, in der Pakete installiert und nachverfolgt werden können, die nur für dieses Scraping-Projekt relevant sind. Hier erfahren Sie, wie Sie beginnen.

Installieren Sie Virtualenv: Wenn Sie virtualenv nicht installiert haben, können Sie es über pip installieren:

1
pip installieren virtualenv

Erstellen Sie eine virtuelle Umgebung: Navigieren Sie zu Ihrem Projektverzeichnis und erstellen Sie eine virtuelle Umgebung:

1
virtuelle Umgebung techcrunch_venv

Aktivieren der virtuellen Umgebung:

  • Unter Windows:

    1
    techcrunch_venv\Scripts\aktivieren
  • Unter MacOS und Linux:

    1
    Quelle techcrunch_venv/bin/activate

Erforderliche Bibliotheken installieren

Wenn die virtuelle Umgebung aktiviert ist, können Sie die für das Web Scraping erforderlichen Bibliotheken installieren:

  1. BeautifulSuppe: Zum Parsen von HTML- und XML-Dokumenten.
  2. Produktanfragen: Zur Verarbeitung von HTTP-Anfragen und -Antworten.
  3. Pandas: Zum Speichern und Bearbeiten der von Ihnen scrapten Daten.
  4. Crawlbase: Um die Scraping-Effizienz zu verbessern und komplexe Herausforderungen später im Prozess zu bewältigen.

Installieren Sie diese Bibliotheken mit dem folgenden Befehl:

1
pip install beautifulsoup4 fordert Pandas Crawlbase an

Auswahl einer IDE

Die Wahl der richtigen integrierten Entwicklungsumgebung (IDE) für Ihre Arbeit kann Ihre Effizienz und sogar Ihren Komfort beim Programmieren erheblich verbessern. Im Folgenden finden Sie einige beliebte Optionen.

  • PyCharm: Eine leistungsstarke IDE speziell für die Python-Entwicklung, die Code-Vervollständigung, Debugging und eine große Auswahl an Plugins bietet.
  • VS-Code: Ein vielseitiger und leichter Editor mit starker Unterstützung für Python durch Erweiterungen.
  • Jupyter Notizbuch: Ideal für explorative Datenanalyse und interaktive Codierung, besonders nützlich, wenn Sie eine Notebook-Schnittstelle bevorzugen.

Die Auswahl der geeigneten IDE hängt von Ihren persönlichen Vorlieben ab und davon, welche Funktionen Ihrer Meinung nach am hilfreichsten für die Optimierung Ihres Workflows sind. Als Nächstes behandeln wir das Scraping von Artikellisten, um Erkenntnisse aus TechCrunch-Inhalten zu gewinnen.

Scraping von TechCrunch-Artikellisten

In diesem Abschnitt besprechen wir, wie man Artikellisten von TechCrunch scrapt. Dazu gehört die Überprüfung der HTML-Struktur der Webseite, das Schreiben eines Scrapers zum Extrahieren von Daten, die Handhabung der Seitennummerierung und das Speichern der Daten in einer CSV-Datei.

Überprüfen der HTML-Struktur

Bevor Sie TechCrunch-Einträge scrapen, müssen Sie die richtigen CSS-Selektoren für die Elemente identifizieren, die die benötigten Daten enthalten.

Ein Bild der HTML-Struktur der Techcrunch-Einträge
  1. Öffnen Sie die Entwicklertools: Besuchen Sie die TechCrunch-Homepage und öffnen Sie dann die Entwicklertools, indem Sie mit der rechten Maustaste klicken und „Untersuchen“ auswählen oder verwenden Ctrl+Shift+I (Windows) oder Cmd+Option+I (Mac).
  2. Artikelcontainer lokalisieren: Finden Sie den Hauptcontainer für jeden Artikel. Auf TechCrunch befinden sich Artikel normalerweise in einem <div> mit der Klasse wp-block-tc23-post-pickerAuf diese Weise können Sie jeden Artikel schneller durchlaufen.
  3. Identifizieren Sie Schlüsselelemente: Suchen Sie in jedem Artikelcontainer die spezifischen Elemente, die die Daten enthalten:
  • Titel : Normalerweise innerhalb einer <h2> tag mit der klasse wp-block-post-title.
  • Link: Ein <a> Tag innerhalb des Titelelements, mit der URL im href Attribut.
  • Autor: Normalerweise in einem <div> mit der Klasse wp-block-tc23-author-card-name.
  • Veröffentlichungsdatum: Oft in einem <time> Tag, mit dem Datum in der datetime Attribut.
  • Zusammenfassung: Gefunden in einem <p> tag mit der klasse wp-block-post-excerpt__excerpt.

Schreiben des TechCrunch Listing Scrapers

Schreiben wir einen Web Scraper, um mit Python und BeautifulSoup Daten aus der Artikelliste von TechCrunch zu extrahieren. Wir extrahieren Titel, Artikellink, Autor, Veröffentlichungsdatum und Zusammenfassung von jedem aufgelisteten Artikel.

Bibliotheken importieren

Zuerst müssen wir die notwendigen Bibliotheken importieren:

1
2
3
importieren Zugriffe
für bs4 importieren BeautifulSuppe
importieren JSON

Definieren der Scraper-Funktion

Als Nächstes definieren wir eine Funktion zum Scrapen der Daten:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
def scrape_techcrunch_listings(URL):
Antwort = Anfragen.get(URL)

if Antwort.Statuscode == 200:
Suppe = Schöne Suppe(Antwort.Inhalt, 'html.parser')
Artikel = Suppe.Auswahl(„div.wp-block-Gruppe > div.wp-block-tc23-post-picker-Gruppe > div.wp-block-tc23-post-picker“)
Daten = []

für Artikel in Artikel:
Titelelement = Artikel.Wählen Sie eins aus(„h2.wp-block-post-titel“)
Titel = Titelelement.text.strip() if Titelelement sonst ''
Link = Titelelement.find('A')['href'] if Titelelement sonst ''
Autor = Artikel.select_one(„div.wp-block-tc23-Autor-Kartenname“).text.strip() if Artikel.select_one(„div.wp-block-tc23-Autor-Kartenname“) sonst ''
Veröffentlichungsdatum = Artikel.Wählen Sie einen aus('Zeit')['Datum/Uhrzeit'] if Artikel.select_one('Zeit') sonst ''
Zusammenfassung = Artikel.select_one(„p.wp-block-post-auszug__auszug“).text.strip() if Artikel.select_one(„p.wp-block-post-auszug__auszug“) sonst ''

Daten.anhängen({
'Titel': Titel,
'Link': Verknüpfung,
'Autor': Autor,
'Veröffentlichungsdatum': Veröffentlichungsdatum,
'Zusammenfassung': Zusammenfassung
})

Rückkehr die Datenerfassung
sonst:
drucken(f"Die Seite konnte nicht abgerufen werden. Statuscode: {response.status_code}")
Rückkehr Keine

Diese Funktion sammelt Artikeldaten aus den Listen von TechCrunch und erfasst Details wie Titel, Links, Autoren, Veröffentlichungsdaten und Zusammenfassungen.

Testen Sie den Scraper

Um den Scraper zu testen, verwenden Sie den folgenden Code:

1
2
3
4
URL = „https://techcrunch.com“
Artikeldaten = scrape_techcrunch_listings(URL)

drucken(json.dumps(articles_data, Einzug=2))

Erstellen Sie eine neue Datei mit dem Namen techcrunch_listing_scraper.py, kopieren Sie den bereitgestellten Code in diese Datei und speichern Sie sie. Führen Sie das Skript mit dem folgenden Befehl aus:

1
Python techcrunch_listing_scraper.py

Sie sollten eine Ausgabe ähnlich dem folgenden Beispiel sehen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
[
{
"Titel": „Wie der M&A-Chef von CNH mit schwarzem Gürtel Geschäfte abschließt“,
"Link": „https://techcrunch.com/2024/08/11/how-cnhs-black-belt-ma-head-makes-deals/“,
"Autor": „Sean O’Kane“,
"Veröffentlichungsdatum": "2024-08-11T11:35:08-07:00",
"Zusammenfassung": "Der Hersteller von Schwermaschinen CNH Industrial hat eine lange Geschichte von Fusionen und Übernahmen und betreute zeitweise legendäre Marken wie Ferrari. Aber vor fünf Jahren, als die Agtech-Branche boomte, war der globale..."
},
{
"Titel": „CrowdStrike nimmt Auszeichnung für ‚epischsten Fail‘ nach globalem IT-Ausfall entgegen“,
"Link": „https://techcrunch.com/2024/08/11/crowdstrike-accepts-award-for-most-epic-fail-after-global-it-outage/“,
"Autor": „Anthony Ha“,
"Veröffentlichungsdatum": "2024-08-11T10:40:21-07:00",
"Zusammenfassung": „Der Präsident von CrowdStrike sagte, er werde die Trophäe mit zum Hauptquartier nehmen, als Erinnerung daran, dass es unser Ziel sei, Menschen zu schützen, und dass wir uns geirrt hätten.“
},
{
"Titel": „Open-Source-Tools zur Steigerung Ihrer Produktivität“,
"Link": „https://techcrunch.com/2024/08/11/a-not-quite-definitive-guide-to-open-source-alternative-software/“,
"Autor": „Paul Sawers“,
"Veröffentlichungsdatum": "2024-08-11T09:00:00-07:00",
"Zusammenfassung": „TechCrunch hat einige Open-Source-Alternativen zu beliebten Produktivitäts-Apps zusammengestellt, die für Prosumenten, Freiberufler oder kleine Unternehmen interessant sein könnten, die den Fängen der Big Tech entkommen möchten.“
},
{
"Titel": „Oyo-Bewertung stürzt bei neuer Finanzierung um über 75 % ab“,
"Link": „https://techcrunch.com/2024/08/11/oyo-valuation-crashes-over-75-in-new-funding/“,
"Autor": „Manish Singh“ – Übersetzung,
"Veröffentlichungsdatum": "2024-08-11T06:07:12-07:00",
"Zusammenfassung": „Die Bewertung von Oyo, einst Indiens zweitwertvollstes Startup mit 2019 Milliarden Dollar, ist in einer neuen Finanzierungsrunde auf 10 Milliarden Dollar gesunken, teilten mehrere Quellen TechCrunch mit. Das Startup mit Hauptsitz in Gurugram, das …“
},
.... mehr
]

In den nächsten Abschnitten kümmern wir uns um die Paginierung und speichern die extrahierten Daten effizient.

Umgang mit Paginierung

Beim Scraping von TechCrunch stoßen Sie möglicherweise auf mehrere Seiten mit Artikellisten. Um Daten von allen Seiten zu sammeln, müssen Sie die Paginierung handhaben. Dazu müssen Sie mehrere Anfragen stellen und durch jede Seite navigieren.

Grundlegendes zu Paginierungs-URLs

Die Artikellisten von TechCrunch verwenden URL-Parameter, um zwischen den Seiten zu navigieren. Die URL für die erste Seite könnte beispielsweise lauten: https://techcrunch.com/page/1/, während die zweite Seite https://techcrunch.com/page/2/, Und so weiter.

Definieren der Paginierungsfunktion

Diese Funktion verwaltet die Seitennummerierung, indem sie durch die Seiten iteriert und Daten sammelt, bis keine Seiten mehr zum Scrapen vorhanden sind.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def scrape_techcrunch_mit_pagination(Basis-URL, Startseite=0, Anzahl_Seiten=1):
alle_daten = []

für Seite in Angebot(Startseite, Startseite + Anzahl Seiten):
URL = f"{base_url}/Seite/{Seite}/"
drucken(f"Scraping-Seite: {Seite + 1}")

Seitendaten = scrape_techcrunch_listings(URL)
if Seitendaten:
all_data.extend(Seitendaten)
sonst:
drucken(f"Daten konnten nicht von Seite abgerufen werden: {Seite + 1}")
brechen

Rückkehr alle_daten

In dieser Funktion:

  • base_url ist die URL der TechCrunch-Listing-Seite.
  • start_page gibt die Startseitennummer an.
  • num_pages bestimmt, wie viele Seiten gescrapt werden sollen.

Speichern von Daten in einer CSV-Datei

Mit der folgenden Funktion können Sie die extrahierten Artikeldaten in einer CSV-Datei speichern.

1
2
3
4
5
6
importieren Pandas as pd

def Daten als CSV speichern(Daten, Dateiname=„techcrunch_listing.csv“):
df = pd.DataFrame(Daten)
df.to_csv(Dateiname, Index=falsch, Kodierung='utf-8')
drucken(f"Daten erfolgreich gespeichert in {Dateiname}")

Diese Funktion konvertiert die Liste der Wörterbücher (die Ihre Scraped-Daten enthalten) in einen DataFrame unter Verwendung von pandas und speichert es dann als CSV-Datei.

Code vervollständigen

Hier ist der vollständige Code zum Scrapen von TechCrunch-Artikellisten, zur Handhabung der Seitennummerierung und zum Speichern der Daten in einer CSV-Datei. Dieses Skript kombiniert alle besprochenen Funktionen in einer Python-Datei.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
importieren Zugriffe
für bs4 importieren BeautifulSuppe
importieren Pandas as pd

# Funktion zum Scrapen von TechCrunch-Artikellisten
def scrape_techcrunch_listings(URL):
Antwort = Anfragen.get(URL)

if Antwort.Statuscode == 200:
Suppe = Schöne Suppe(Antwort.Inhalt, 'html.parser')
Artikel = Suppe.Auswahl(„div.wp-block-Gruppe > div.wp-block-tc23-post-picker-Gruppe > div.wp-block-tc23-post-picker“)
Daten = []

für Artikel in Artikel:
Titelelement = Artikel.Wählen Sie eins aus(„h2.wp-block-post-titel“)
Titel = Titelelement.text.strip() if Titelelement sonst ''
Link = Titelelement.find('A')['href'] if Titelelement sonst ''
Autor = Artikel.select_one(„div.wp-block-tc23-Autor-Kartenname“).text.strip() if Artikel.select_one(„div.wp-block-tc23-Autor-Kartenname“) sonst ''
Veröffentlichungsdatum = Artikel.Wählen Sie einen aus('Zeit')['Datum/Uhrzeit'] if Artikel.select_one('Zeit') sonst ''
Zusammenfassung = Artikel.select_one(„p.wp-block-post-auszug__auszug“).text.strip() if Artikel.select_one(„p.wp-block-post-auszug__auszug“) sonst ''

Daten.anhängen({
'Titel': Titel,
'Link': Verknüpfung,
'Autor': Autor,
'Veröffentlichungsdatum': Veröffentlichungsdatum,
'Zusammenfassung': Zusammenfassung
})

Rückkehr die Datenerfassung
sonst:
drucken(f"Die Seite konnte nicht abgerufen werden. Statuscode: {response.status_code}")
Rückkehr Keine

# Funktion zur Handhabung der Paginierung
def scrape_techcrunch_mit_pagination(Basis-URL, Startseite=1, Anzahl_Seiten=1):
alle_daten = []

für Seite in Angebot(Startseite, Startseite + Anzahl Seiten):
URL = f"{base_url}/Seite/{Seite}/"
drucken(f"Scraping-Seite: {Seite}")

Seitendaten = scrape_techcrunch_listings(URL)
if Seitendaten:
all_data.extend(Seitendaten)
sonst:
drucken(f"Daten konnten nicht von Seite abgerufen werden: {Seite}")
brechen

Rückkehr alle_daten

# Funktion zum Speichern von Daten in CSV
def Daten als CSV speichern(Daten, Dateiname=„techcrunch_listing.csv“):
df = pd.DataFrame(Daten)
df.to_csv(Dateiname, Index=falsch, Kodierung='utf-8')
drucken(f"Daten erfolgreich gespeichert in {Dateiname}")

# Hauptfunktion zum Ausführen des Scrapers
def Haupt-
Basis-URL = „https://techcrunch.com“
Anzahl der zu scrapenden Seiten = 5 # Geben Sie die Anzahl der Seiten an, die Sie scrapen möchten

alle_Artikeldaten = Techcrunch_mit_Paginierung_scrapen (Basis-URL, Seitenanzahl = Anzahl_zu_scrapender_Seiten)

if alle_Artikeldaten:
speichere_daten_als_csv(alle_Artikeldaten)
sonst:
drucken(„Keine Daten erfasst.“)

if __name__ == "__hauptsächlich__":
Main()

Scraping der TechCrunch-Artikelseite

In diesem Abschnitt konzentrieren wir uns auf das Scraping einzelner TechCrunch-Artikelseiten, um detailliertere Informationen zu jedem Artikel zu sammeln. Dazu gehört das Überprüfen der HTML-Struktur einer Artikelseite, das Schreiben einer Scraper-Funktion und das Speichern der gesammelten Daten.

Überprüfen der HTML-Struktur

Um TechCrunch-Artikel zu scrapen, suchen Sie zunächst nach den CSS-Selektoren der erforderlichen Elemente aus der HTML-Struktur der Seite:

Ein Bild der HTML-Struktur der Techcrunch-Artikelseite
  1. Öffnen Sie die Entwicklertools: Besuchen Sie einen TechCrunch-Artikel und öffnen Sie die Entwicklertools mit Ctrl+Shift+I (Windows) oder Cmd+Option+I (Mac).
  2. Identifizieren Sie Schlüsselelemente:
  • Titel : Normalerweise in einem <h1> tag mit der klasse wp-block-post-title.
  • Autor: Oft in einem <div> mit der Klasse wp-block-tc23-author-card-name.
  • Veröffentlichungsdatum: Gefunden in einem <time> Tag, mit dem Datum in der datetime Attribut.
  • Inhalt: Normalerweise in einem <div> mit Klasse wp-block-post-content.

Schreiben des TechCrunch Article Page Scrapers

Lassen Sie uns unter Berücksichtigung der HTML-Struktur eine Funktion schreiben, um die detaillierten Informationen von einer TechCrunch-Artikelseite abzurufen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
importieren Zugriffe
für bs4 importieren BeautifulSuppe
importieren JSON

def scrape_techcrunch_artikel(URL):
Antwort = Anfragen.get(URL)

if Antwort.Statuscode == 200:
Suppe = Schöne Suppe(Antwort.Inhalt, 'html.parser')

# Extrahieren des Titels
Titel = Suppe.select_one(„h1.wp-block-post-titel“).text.strip()

# Extrahieren des Autors
Autor = Suppe.select_one(„div.wp-block-tc23-Autor-Kartenname > a“).text.strip()

# Extrahieren des Veröffentlichungsdatums
Veröffentlichungsdatum = Suppe.Wählen Sie eins aus(„div.wp-block-post-date > Zeit“)['Datum/Uhrzeit']

# Extrahieren des Inhalts
Inhalt = Suppe.select_one(„div.wp-block-post-content“).text.strip()

Rückkehr {
'Titel': Titel,
'Autor': Autor,
'Veröffentlichungsdatum': Veröffentlichungsdatum,
'Inhalt': Inhalt
}
sonst:
drucken(f"Der Artikel konnte nicht abgerufen werden. Statuscode: {response.status_code}")
Rückkehr Keine

Testen Sie den Scraper

Um den Scraper zu testen, verwenden Sie den folgenden Code:

1
2
3
4
URL = „https://techcrunch.com/2024/08/11/oyo-valuation-crashes-over-75-in-new-funding/“
Artikeldaten = scrape_techcrunch_article(URL)

drucken(json.dumps(Artikeldaten, Einzug=2))

Erstellen Sie eine neue Datei mit dem Namen techcrunch_article_scraper.py, kopieren Sie den bereitgestellten Code in diese Datei und speichern Sie sie. Führen Sie das Skript mit dem folgenden Befehl aus:

1
Python techcrunch_article_scraper.py

Sie sollten eine Ausgabe ähnlich dem folgenden Beispiel sehen.

1
2
3
4
5
6
{
"Titel": „Oyo-Bewertung stürzt bei neuer Finanzierung um über 75 % ab“,
"Autor": „Manish Singh“ – Übersetzung,
"Veröffentlichungsdatum": "2024-08-11T06:07:12-07:00",
"Inhalt": „Die Bewertung von Oyo, einst Indiens zweitwertvollstes Startup mit 2019 Milliarden Dollar, ist in einer neuen Finanzierungsrunde auf 10 Milliarden Dollar gesunken, teilten mehrere Quellen TechCrunch mit … mehr bis zum Ende.“
}

Speichern von Daten in einer CSV-Datei

Um die Artikeldaten zu speichern, können Sie Pandas verwenden, um die Ergebnisse in einer CSV-Datei zu speichern. Wir werden die vorherige Funktion save_data_to_csv ändern, um diese Funktionalität einzuschließen.

1
2
3
4
5
6
importieren Pandas as pd

def Artikeldaten als CSV speichern(Daten, Dateiname=„techcrunch_articles.csv“):
df = pd.DataFrame(Daten)
df.to_csv(Dateiname, Index=falsch, Kodierung='utf-8')
drucken(f"Artikeldaten erfolgreich gespeichert in {Dateiname}")

Code vervollständigen

Alles in allem ist dies der vollständige Code zum Scrapen einzelner TechCrunch-Artikelseiten und Speichern der Daten:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
importieren Zugriffe
für bs4 importieren BeautifulSuppe
importieren Pandas as pd

# Funktion zum Scrapen einzelner TechCrunch-Artikelseiten
def scrape_techcrunch_artikel(URL):
Antwort = Anfragen.get(URL)

if Antwort.Statuscode == 200:
Suppe = Schöne Suppe(Antwort.Inhalt, 'html.parser')

# Extrahieren des Titels
Titel = Suppe.select_one(„h1.wp-block-post-titel“).text.strip()

# Extrahieren des Autors
Autor = Suppe.select_one(„div.wp-block-tc23-Autor-Kartenname > a“).text.strip()

# Extrahieren des Veröffentlichungsdatums
Veröffentlichungsdatum = Suppe.Wählen Sie eins aus(„div.wp-block-post-date > Zeit“)['Datum/Uhrzeit']

# Extrahieren des Inhalts
Inhalt = Suppe.select_one(„div.wp-block-post-content“).text.strip()

Rückkehr {
'Titel': Titel,
'Autor': Autor,
'Veröffentlichungsdatum': Veröffentlichungsdatum,
'Inhalt': Inhalt
}
sonst:
drucken(f"Der Artikel konnte nicht abgerufen werden. Statuscode: {response.status_code}")
Rückkehr Keine

# Funktion zum Speichern von Artikeldaten als CSV
def Artikeldaten als CSV speichern(Daten, Dateiname=„techcrunch_articles.csv“):
df = pd.DataFrame(Daten)
df.to_csv(Dateiname, Index=falsch, Kodierung='utf-8')
drucken(f"Artikeldaten erfolgreich gespeichert in {Dateiname}")

# Beispielverwendung
if __name__ == "__hauptsächlich__":
# Durch tatsächliche Artikel-URLs ersetzen
Artikel-URLs = [
'https://techcrunch.com/2024/08/10/example-article/',
„https://techcrunch.com/2024/08/11/another-article/“
]

alle_artikel_daten = []
für URL in Artikel-URLs:
Artikeldaten = scrape_techcrunch_article(URL)
if Artikeldaten:
all_article_data.append(Artikeldaten)

Artikeldaten als CSV speichern (alle Artikeldaten)

Sie können die article_urls Liste, um die URLs der Artikel einzuschließen, die Sie scrapen möchten.

Scraping optimieren mit Crawlbase Crawling API

Beim Scrapen von TechCrunch-Daten kann es zu einigen Herausforderungen kommen, wie z. B. IP-Blockierung, Ratenbegrenzung und dynamische Inhalte. Die Crawlbase Crawling API kann helfen, diese Hürden zu überwinden und einen reibungsloseren Scraping-Prozess zu gewährleisten. So kann Crawlbase Ihre Scraping-Bemühungen optimieren:

Umgehen von Scraping-Herausforderungen

  1. IP-Blockierung und Ratenbegrenzung: Websites wie TechCrunch können Ihre IP-Adresse blockieren, wenn zu viele Anfragen in kurzer Zeit gestellt werden. Um das Risiko einer Erkennung und Blockierung zu verringern, verwendet Crawlbase Crawling API rotiert zwischen verschiedenen IP-Adressen und verwaltet Anforderungsraten.
  2. Dynamischer Inhalt: Einige Seiten in TechCrunch laden bestimmte Inhalte mit JavaScript, was es für herkömmliche Scraper schwierig macht, direkt darauf zuzugreifen. Durch das Rendern von JavaScript kann die Crawlbase Crawling API ermöglicht Ihnen den Zugriff auf jedes einzelne Element auf einer Seite.
  3. CAPTCHA und Anti-Bot-Maßnahmen: TechCrunch kann CAPTCHAs und andere Anti-Bot-Technologien verwenden, um automatisiertes Scraping zu verhindern. Crawlbase Crawling API können diese Maßnahmen umgehen, sodass Sie ohne Unterbrechungen Daten erfassen können.
  4. Geolokalisierung: TechCrunch kann je nach Standort unterschiedliche Inhalte bereitstellen. Crawlbase Crawling API ermöglicht Ihnen die Angabe des Landes für Ihre Anfragen und stellt so sicher, dass Sie relevante Daten basierend auf Ihrer Zielregion erhalten.

Implementieren von Crawlbase in Ihrem Scraper

Zur Integration der Crawlbase Crawling API in Ihren TechCrunch-Scraper eingeben, befolgen Sie diese Schritte:

  1. Installieren Sie die Crawlbase-Bibliothek: Installieren Sie die Crawlbase Python-Bibliothek mit pip:
1
pip installieren crawlbase
  1. Einrichten der Crawlbase-API: Initialisieren Sie die Crawlbase-API mit Ihrem Zugriffstoken. Sie können einen erhalten, indem Sie ein Konto erstellen auf Crawlbase.
1
2
3
4
für Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawlbase-API mit Ihrem Zugriffstoken
crawling_api = CrawlingAPI({'Zeichen': 'IHR_CRAWLBASE_TOKEN'})

Note: Crawlbase bietet zwei Arten von Token: ein normales Token für statische Websites und ein JavaScript (JS)-Token für die Verarbeitung dynamischer oder browserbasierter Anfragen. Im Fall von TechCrunch benötigen Sie ein normales Token. Die ersten 1,000 Anfragen sind kostenlos, damit Sie loslegen können, ohne dass eine Kreditkarte erforderlich ist. Lesen Sie Crawlbase Crawling API Dokumentation HIER.

  1. Scraper-Funktion aktualisieren: Ändern Sie Ihre Scraping-Funktionen, um die Crawlbase-API für Anfragen zu verwenden. Hier ist ein Beispiel für die Aktualisierung der scrape_techcrunch_listings Funktion:
1
2
3
4
5
6
7
8
9
10
def scrape_techcrunch_listings(URL):
Optionen = {
'Land': 'UNS', # Stellen Sie Ihr bevorzugtes Land ein oder entfernen Sie es für die Standardeinstellungen
'Benutzeragent': „Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/123.0.0.0 Safari/537.36“
}
Antwort = crawling_api.get(URL, Optionen)

if Antwort['Kopfzeilen']['pc_status'] == '200':

# verbleibende Funktion wie zuvor

Durch den Einsatz der Crawlbase Crawling APIkönnen Sie häufige Scraping-Probleme effektiv beheben und Daten von TechCrunch scrapen, ohne blockiert zu werden.

Abschließende Gedanken (TechCrunch mit Crawlbase scrapen)

Das Scraping von Daten von TechCrunch kann wertvolle Einblicke in die neuesten Trends, Innovationen und einflussreichen Persönlichkeiten der Technologiebranche liefern. Durch das Extrahieren von Informationen aus Artikeln und Auflistungen können Sie über aufkommende Technologien und wichtige Akteure auf diesem Gebiet auf dem Laufenden bleiben. In diesem Handbuch haben Sie erfahren, wie Sie eine Python-Umgebung einrichten, einen funktionalen Scraper schreiben und Ihre Bemühungen mit dem optimieren Crawlbase Crawling API um allgemeine Scraping-Herausforderungen zu überwinden.

Wenn Sie Ihre Web-Scraping-Fähigkeiten erweitern möchten, sehen Sie sich unsere folgenden Anleitungen zum Scraping anderer wichtiger Websites an.

📜 Wie man Bloomberg scrapt
📜 Wie man Wikipedia scrapt
📜 So verwenden Sie Google Finance
📜 So scrapen Sie Google News
📜 Wie man Clutch.co scrapt

Bei Fragen oder Anregungen steht Ihnen unser Support-Team steht Ihnen jederzeit zur Verfügung, um Sie bei Ihrem Web Scraping-Vorhaben zu unterstützen. Viel Spaß beim Scraping!

Häufig gestellte Fragen

Das Sammeln von Daten von Websites wie TechCrunch wirft rechtliche und ethische Fragen auf. Man muss sich über die Nutzungsbedingungen der verwendeten Plattform informieren, in diesem Fall TechCrunch, da diese manchmal spezifische Richtlinien für die Verwendung bestimmter Formen des Daten-Scrapings haben. Stellen Sie sicher, dass Ihre Scraping-Vorgänge mit diesen Bestimmungen übereinstimmen und vermeiden Sie Verstöße gegen Datenschutzbestimmungen wie die DSGVO oder CCPA. Es ist ratsam, mit Rechtsberatern zu sprechen, um mögliche rechtliche Probleme im Zusammenhang mit rechtlichen und ethischen Fragen im Zusammenhang mit der Datenerfassung zu klären.

F: Was soll ich tun, wenn meine IP-Adresse beim Scraping blockiert wird?

Wenn Ihre IP-Adresse beim Scraping von TechCrunch blockiert wird, können Sie verschiedene Maßnahmen ergreifen, um dieses Problem zu beheben. Implementieren Sie eine IP-Rotation mithilfe von Proxy-Diensten oder Scraping-Tools wie Crawlbase Crawling API, das automatisch IPs rotiert, um eine Erkennung zu vermeiden. Sie können auch die Rate Ihrer Anfragen anpassen, um das menschliche Surfverhalten nachzuahmen und so das Risiko zu verringern, dass Anti-Scraping-Maßnahmen ausgelöst werden.

F: Wie kann ich die Leistung meines TechCrunch-Scrapers verbessern?

Einige der Methoden, mit denen Sie Scraper optimieren können, damit sie viel schneller arbeiten, sind Multithreading oder asynchrone Anfragen. Reduzieren Sie Ihre Operationen, die einfach nicht erforderlich sind, und verwenden Sie spezielle Bibliotheken wie die Pandas-Bibliothek für eine effiziente Datendarstellung. Außerdem Crawlbase Crawling API kann die Leistung durch die Verwaltung der IP-Rotation und die Handhabung von CAPTCHAs verbessern und so einen unterbrechungsfreien Zugriff auf die zu scrapenden Daten gewährleisten.