Dieser Blog ist eine Schritt-für-Schritt-Anleitung zum Scrapen von Crunchbase-Daten. Crunchbase ist einer der wichtigsten Anbieter von Prospektions- und Forschungslösungen für Privatunternehmen mit einer beeindruckenden Erfolgsbilanz bei der Bereitstellung von über 75 Millionen Menschen weltweit. Allein im Februar 2024 zog Crunchbase 7.7 Millionen Besucher auf der Suche nach Einblicken in die dynamische Welt der Startups und Geschäftsvorhaben.

Crunchbase ist zudem die Anlaufstelle für Unternehmer, Investoren, Vertriebsprofis und Marktforscher und verfügt über einen Datenbestand mit 3 Millionen börsennotierten Unternehmen.

Crunchbase-Benutzer und -Besucher

Der Zugriff auf diese Daten und deren Extraktion zu Analyse- oder Forschungszwecken kann jedoch eine Herausforderung sein. In dieser Anleitung zeigen wir Ihnen einfache Schritte zum Scraping von Crunchbase.

Wir werden untersuchen, wie man einen Crunchbase Scraper mit Python, BeautifulSoup und anderen relevanten Bibliotheken erstellt. Wir werden auch die Crawling API von Crawlbase, einer leistungsstarken Crunchbase-API, die diese Hindernisse effektiv umgeht. Sehen wir uns die Projektdetails an.

1. Voraussetzungen

2. Abhängigkeiten installieren

3. Crawlen der Crunchbase-Webseite

4. Firmentitel löschen

5. Beschreibung des Scraping-Unternehmens

6. Den Firmenstandort abkratzen

7. Mitarbeiter des Unternehmens streichen

8. Scraping der Website-URL des Unternehmens

9. Den Unternehmensrang streichen

10. Firmengründer aussortieren

11. Vervollständigen Sie den Crunchbase Scraper-Code

12. Häufig gestellte Fragen

Dieses Projekt soll Ihnen helfen, einen Crunchbase Scraper mit Python und BeautifulSoup zum Scrapen zu erstellen. Es verwendet Crawlbases Crawling API zu Captchas umgehen und potenzielle Sperren und Seiteninhalte abrufen. Unser Ziel ist es, verschiedene Details über auf Crunchbase gelistete Unternehmen für Marktforschung, Investitionsanalyse, Wettbewerbsanalyse, Identifizierung von Partnerschaften, Personalbeschaffung und mehr zu extrahieren.

Zu diesem Zweck werden wir fehlen uns die Worte. bestimmte Crunchbase-URL als unser Beispiel.

Crunchbase

Hier ist die Liste der Datenpunkte, die wir aus den Crunchbase-Unternehmensseiten extrahieren werden:

  1. Titel: Der Name des Unternehmens, zum Beispiel „OpenAI“.
  2. Beschreibung: Ein kurzer Überblick oder eine Zusammenfassung der Aktivitäten des Unternehmens, z. B. „Eine auf künstliche Intelligenz spezialisierte Forschungsorganisation“.
  3. Standort: Der geografische Standort, an dem das Unternehmen seinen Sitz hat, z. B. „San Francisco, Kalifornien, USA“.
  4. Angestellte: Die ungefähre Anzahl der im Unternehmen beschäftigten Personen, z. B. „Über 100 Mitarbeiter“.
  5. Firmen-URL: Die Webadresse der offiziellen Website des Unternehmens, zum Beispiel „https://www.openai.com/".
  6. Rang: Die Position oder der Rang des Unternehmens in der Crunchbase-Datenbank, z. B. „Platz 5 in Crunchbase“.
  7. Gründungsdatum: Das Datum der Unternehmensgründung, z. B. „Gegründet 2015“.
  8. Gründer: Die Namen der Personen, die das Unternehmen gegründet haben, zum Beispiel „Elon Musk und Sam Altman“.

Durch das Extrahieren von Crunchbase-Daten soll das Skript wertvolle Erkenntnisse zum Profil des auf Crunchbase gelisteten Unternehmens liefern. Diese Daten können es den Beteiligten auch ermöglichen, Einblicke in die Marktdynamik, das Wettbewerbsumfeld und Branchentrends zu gewinnen, was letztlich die strategische Entscheidungsfindung und fundiertes Handeln unterstützt.

Mit diesem Verständnis des Projektumfangs und des Datenextraktionsprozesses können wir nun mit der Einrichtung der erforderlichen Voraussetzungen und der Vorbereitung Ihrer Codierungsumgebung fortfahren.

1. Voraussetzungen zum Scrapen von Crunchbase-Daten

Bevor wir mit dem Scraping von Crunchbase mit Python fortfahren und die Leistungsfähigkeit der Crawlbase-API nutzen, ist es wichtig, sicherzustellen, dass Sie über die erforderlichen Voraussetzungen verfügen. Diese grundlegenden Elemente statten Sie mit dem Wissen, den Tools und dem Zugriff aus, die Sie benötigen, um Ihre Web-Scraping-Projekte effektiv zu starten.

Lassen Sie uns die wichtigsten Voraussetzungen besprechen, die für den Start Ihres Web-Scraping-Projekts erforderlich sind, wobei wir uns insbesondere auf das Extrahieren von Daten aus Crunchbase konzentrieren:

Grundlegende Python-Kenntnisse

Vertrautheit mit dem Python Programmiersprache ist unerlässlich. Dazu gehört das Verständnis, wie man Python-Code schreibt und ausführt.

Hier ist eine Empfehlung: Wenn Sie neu bei Python sind, stehen Ihnen zahlreiche Ressourcen zur Verfügung, die Ihnen beim Lernen helfen. Websites wie Codecademy, Coursera und Udemy bieten Einführungskurse in Python an, die für Anfänger geeignet sind. Darüber hinaus können Sie die Python-Dokumentation lesen und Programmierübungen auf Plattformen wie LeetCode or HackerRank kann Ihr Verständnis festigen.

Crawlbase API-Konto

So erstellen Sie ein Konto: Besuchen Sie die Crawlbase-Website und navigieren Sie zu Anmeldeseite. Füllen Sie die erforderlichen Informationen aus, um Ihr Konto zu erstellen. Sobald Sie registriert sind, erhalten Sie Ihre API-Anmeldeinformationen von der Kontodokumentation

Crawlbase-Dashboard

Bedeutung der API-Anmeldeinformationen: Behandeln Sie Ihre API-Anmeldeinformationen als vertrauliche Informationen. Sie sind für den Zugriff auf die Dienste von Crawlbase und die Durchführung von Web Scraping-Aufgaben unerlässlich. Bewahren Sie sie sicher auf und geben Sie sie nicht an unbefugte Personen weiter.

Auswahl einer integrierten Entwicklungsumgebung (IDE)

Empfehlung: Zu den beliebten IDEs für die Python-Entwicklung gehören PyCharm, VSCode (Visual Studio Code) und Jupiter Notebook. Jede IDE hat ihre Vorteile, daher sollten Sie sie ausprobieren, um diejenige zu finden, die Ihren Anforderungen am besten entspricht.

IDE-Installation: Laden Sie einfach die gewünschte IDE von der jeweiligen Website herunter und installieren Sie sie. Folgen Sie den bereitgestellten Installationsanweisungen, und schon können Sie mit dem Programmieren in Python beginnen.

2. Abhängigkeiten installieren

Stellen Sie zunächst sicher, dass Python installiert ist. Besuchen Sie die offizielle Python-Website und laden Sie die neueste Version herunter, die mit Ihrem Betriebssystem kompatibel ist. Alternativ können Sie Paketmanager verwenden wie Anaconda, die eine umfassende Python-Distribution zusammen mit beliebten Paketen und Entwicklungsumgebungen bereitstellen.

Befolgen Sie die Installationsanweisungen auf der Python-Website oder im Anaconda-Installationsprogramm. Stellen Sie sicher, dass Python auf Ihrem System ordnungsgemäß installiert und konfiguriert ist.

Paketinstallation

Um Ihre Python-Umgebung für Web Scraping einzurichten, öffnen Sie nach der Installation von Python die Eingabeaufforderung oder das Terminal. Erstellen Sie dann ein Verzeichnis auf Ihrem System, um Ihren Python-Scraper-Code unterzubringen, entweder über den Befehl mkdir (unter macOS/Linux) oder über den Datei-Explorer (unter Windows).

Installieren Sie als Nächstes die erforderlichen Pakete mit pip, dem Paketmanager von Python, indem Sie bestimmte Befehle in Ihrer Eingabeaufforderung oder Ihrem Terminal ausführen.

1
2
pip installieren crawlbase
pip install beautifulsoup4

Diese Befehle laden die erforderlichen Bibliotheken herunter und installieren sie:

  • Crawlbase Python-Bibliothek: Die Crawlbase-Bibliothek bietet eine praktische Python-Klasse, die als Wrapper für die Crawlbase-API konzipiert ist (Crawling API und mehr). Diese leichtgewichtige und abhängigkeitsfreie Klasse ermöglicht eine nahtlose Integration der Web-Scraping-Funktionen von Crawlbase in Python-Anwendungen.
  • SchöneSuppe: Als eines der am häufigsten verwendeten Python-Frameworks für Web Scraping vereinfacht Beautiful Soup mit seinen intuitiven Funktionen die HTML-Analyse und erleichtert so das Extrahieren von Daten aus Webseiten.

3. Crawlen der Crunchbase-Webseite

Nachdem wir nun die wichtigen Abhängigkeiten installiert haben, beginnen wir mit dem Codierungsprozess.

Das Extrahieren von Crunchbase-Daten umfasst das Abrufen des HTML-Inhalts der gewünschten Seiten mithilfe der Crawling API. Nachfolgend finden Sie die Schritte zum Crawlen einer Crunchbase-Webseite mit Python und dem bereitgestellten Codeausschnitt:

Importieren Sie die CrawlingAPI-Klasse:

  • Importieren Sie die CrawlingAPI Klasse aus der crawlbase Bibliothek. Diese Klasse ermöglicht die Interaktion mit der Crawling API.

Definiere das crawl Funktion:

  • Erstellen Sie eine Funktion mit dem Namen crawl das braucht zwei Parameter: page_url (die URL der zu crawlenden Crunchbase-Webseite) und api_token (Ihr Crawlbase-API-Token).

Initialisieren Sie das CrawlingAPI-Objekt:

  • Im Inneren der crawl Funktion initialisieren Sie die CrawlingAPI Objekt, indem Sie ein Wörterbuch mit Ihrem API-Token als Wert für das 'token' Taste halten.

Holen Sie sich den Seiteninhalt:

  • Verwenden Sie das get() Methode der CrawlingAPI Objekt zum Abrufen des HTML-Inhalts des angegebenen page_url. Speichern Sie die Antwort im response variabel.

Überprüfen Sie den Antwortstatus:

  • Überprüfen Sie, ob der Antwortstatuscode (aufgerufen über response['status_code']) ist gleich 200 und zeigt damit eine erfolgreiche Anforderung an.

Daten extrahieren oder Fehler behandeln:

  • Wenn die Anfrage erfolgreich ist, extrahieren und drucken Sie den HTML-Inhalt der Seite (Zugriff über response["body"]). Andernfalls wird eine Fehlermeldung mit der Fehlerursache gedruckt.

Geben Sie die Seiten-URL und das API-Token an:

  • Im __main__ Geben Sie im Block Ihres Skripts die URL der zu crawlenden Crunchbase-Seite an (page_url) und Ihr Crawlbase API JavaScript-Token (api_token).

Rufen Sie die Crawl-Funktion auf:

  • Rufen Sie abschließend die an crawl Funktion mit dem angegebenen page_url und api_token als Argumente, um den Crawling-Prozess zu starten.

Hier ist der Code, der diese Schritte implementiert. Sie können den Code kopieren, einfügen und als Python-Datei in Ihrem Verzeichnis speichern. zB scraper.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
für Crawlbase importieren CrawlingAPI

def kriechen(Seiten-URL, API-Token):
# Initialisieren Sie das CrawlingAPI-Objekt mit Ihrem Token
api = CrawlingAPI({'Zeichen': api_token})

# Holen Sie sich den Seiteninhalt
Antwort = api.get(Seiten-URL)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Daten extrahieren
drucken(Antwort["Karosserie"])
sonst:
drucken(f"Fehler: {Antwort}")

if __name__ == "__hauptsächlich__":
# Geben Sie die URL der Crunchbase-Seite an, die ausgelesen werden soll.
Seiten-URL = „https://www.crunchbase.com/organization/openai“

# Geben Sie Ihr Crawlbase-Token an. Verwenden Sie das JavaScript-Token für Crunchbase
api_token = 'Crawlbase_Token'

# Rufen Sie die Crawl-Funktion auf
crawlen (Seiten-URL, API-Token)

Lassen Sie uns den obigen Codeausschnitt ausführen. Dazu müssen wir den folgenden Befehl ausführen:

1
Python Scraper.py

Ausgang:

Crawlen Sie die HTML-Daten von Crunchbase

Wir haben die HTML-Daten der Crunchbase-Webseite erfolgreich gecrawlt. Als Nächstes werden wir mit dem Scraping der Crunchbase-Daten fortfahren, indem wir das BeautifulSoup4-Paket in Python verwenden.

4. Scrape Crunchbase Firmentitel

Konzentrieren wir uns nun darauf, den Firmennamen aus dem gecrawlten HTML der Crunchbase-Webseite zu extrahieren. Wir verwenden das Paket BeautifulSoup4, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden.

Importieren Sie BeautifulSoup am Anfang Ihres Python-Skripts oder Ihrer Python-Funktion.

1
für bs4 importieren BeautifulSuppe

Identifizieren Sie das HTML-Element, das den Firmennamen enthält. Überprüfen Sie die Crunchbase-Webseite oder sehen Sie sich die HTML-Quelle an, um den entsprechenden Selektor zu ermitteln.

Identifizieren eines HTML-Elements - Selektor

Nutzen Sie BeautifulSoup-Selektoren, um die title Element innerhalb der Webseite. Dabei wird die entsprechende Klasse angegeben, die zum gewünschten Element passt.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie den Titel der Crunchbase-Seite
Titel = Suppe.find('h1', Klasse_='Profilname').get_text(Streifen=Wahre)

Rückkehr {
‚Titel‘: Titel,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Codeausschnitt findet das erste Vorkommen des <h1> Element mit der Klasse „Profilname“ im HTML-Inhalt, der in der Variablen soup gespeichert ist. Anschließend extrahiert es den Text innerhalb dieses Elements und entfernt alle zusätzlichen Leerzeichen oder Zeilenumbrüche mithilfe des get_text(strip=True) Methode. Schließlich weist es den bereinigten Text der Variablen zu title und geben Sie die title.

5. Scrape Crunchbase Firmenbeschreibung

In diesem Abschnitt konzentrieren wir uns auf das Extrahieren der Unternehmensbeschreibung aus dem gecrawlten HTML der Crunchbase-Webseite.

Scrape Crunchbase Firmenbeschreibung
1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie die Beschreibung der Crunchbase-Seite
Beschreibung = Suppe.find('Spanne', Klasse_='Bezeichnung').get_text(Streifen=Wahre)

Rückkehr {
'Bezeichnung': Beschreibung,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Code extrahiert die Beschreibung einer Crunchbase-Seite durch die Suche nach einem bestimmten <span> Tag mit dem Klassenattribut „Beschreibung“ im analysierten HTML-Inhalt. Anschließend wird dieser Beschreibungstext in einem Wörterbuchformat zurückgegeben.

6. Den Firmenstandort von Crunchbase abfragen

Der Unternehmensstandort liefert wertvolle Informationen über den Firmensitz eines Unternehmens, welche für verschiedene Analysen und Geschäftszwecke von entscheidender Bedeutung sein können.

Beim Scrapen des Firmenstandorts nutzen wir weiterhin das BeautifulSoup4-Paket, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden. Der Firmenstandort befindet sich normalerweise im Inhalt der Webseite, oft in einem bestimmten HTML-Element, wie unten gezeigt:

Standort des Cruchbase-Unternehmens abkratzen
1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie den Speicherort der Crunchbase-Seite
Standort = Suppe.Wählen Sie eine(„.Abschnitt-Inhaltswrapper li.ng-Star-eingefügt“).text.strip()

Rückkehr {
'Standort': Standort,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Codeausschnitt extrahiert die Standortinformationen aus einem bestimmten Element auf der Seite, insbesondere aus einem <li> Element innerhalb der .section-content-wrapper. Anschließend gibt es diese Informationen als Teil eines Wörterbuchs zurück, das andere extrahierte Daten enthält. Darüber hinaus behandelt es Ausnahmen, indem es eine Fehlermeldung ausgibt, wenn während des Scraping-Prozesses welche auftreten.

7. Mitarbeiter des Unternehmens Crunchbase ausspionieren

Die Mitarbeiterzahl ist eine wichtige Kennzahl, die Aufschluss über die Größe und den Umfang des Unternehmens gibt. Ähnlich wie in den vorherigen Abschnitten verwenden wir das Paket BeautifulSoup4, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden. Die Mitarbeiterzahl finden Sie normalerweise unter dem Standortabschnitt, wie unten dargestellt:

Mitarbeiter von Cruchbase-Unternehmen durchsuchen
1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie die Mitarbeiter der Crunchbase-Seite
Mitarbeiter = Suppe.select_one(„.section-content-wrapper li.ng-star-inserted:n-ter-vom-Typ(2)“).text.strip()

Rückkehr {
'Mitarbeiter': Mitarbeiter,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Der bereitgestellte Code definiert eine Funktion namens scrape_data ist für das Extrahieren von Daten aus dem HTML-Inhalt einer Webseite verantwortlich. Es verwendet BeautifulSoup zum Parsen des HTML und zielt speziell auf ein bestimmtes HTML-Element ab, das die Anzahl der Mitarbeiter eines Unternehmens auf einer Crunchbase-Webseite darstellt. Innerhalb eines Try-Except-Blocks versucht der Code, den Textinhalt dieses Elements mithilfe des CSS-Selektors zu extrahieren '.section-content-wrapper li.ng-star-inserted:nth-of-type(2)'.

Bei Erfolg wird die extrahierte Mitarbeiterzahl als Teil eines Wörterbuchs zurückgegeben. Falls während des Scraping-Vorgangs Ausnahmen auftreten, behandelt der Code diese, indem er eine Fehlermeldung ausgibt und ein leeres Wörterbuch zurückgibt, das das Fehlen extrahierter Daten anzeigt.

8. Scrapen Sie die URL der Unternehmenswebsite von Crunchbase

Die URL der Unternehmenswebsite ist eine grundlegende Information, die direkten Zugriff auf die Onlinepräsenz des Unternehmens bietet. Normalerweise befindet sich die URL der Unternehmenswebsite im Abschnitt „Info“, wie Sie unten sehen können:

Scrape Crunchbase Firmen-URL

Ähnlich wie in den vorherigen Abschnitten verwenden wir das BeautifulSoup4-Paket, um durch den HTML-Inhalt der Crunchbase-Webseite zu navigieren und die Daten mithilfe eines CSS-Selektors zu lokalisieren.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie die Firmen-URL der Crunchbase-Seite
Firmen-URL = soup.select_one('.section-content-wrapper li.ng-star-inserted:nth-of-type(5) a[role="link"]')['href']

Rückkehr {
'Firmen-URL': Firmen-URL,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Code definiert eine Funktion namens scrape_data das versucht, die URL der Unternehmenswebsite aus dem HTML-Inhalt einer Crunchbase-Webseite zu extrahieren. Wir haben den HTML-Inhalt analysiert und einen CSS-Selektor verwendet .section-content-wrapper li.ng-star-inserted:nth-of-type(5) a[role="link"] zur Lokalisierung des spezifischen <a> (Anker-)Element, das die Firmen-URL darstellt.

9. Scrape Crunchbases Unternehmensrang

Der Unternehmensrang gibt Aufschluss über die Stellung oder Position des Unternehmens innerhalb seiner Branche oder seines Sektors. Der Unternehmensrang ist im Abschnitt „Info“ zu finden und wird häufig als „Rang“ oder ähnlich bezeichnet.

Scrape Crunchbase Firmenrang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie den Rang der Crunchbase-Seite
Rang = Suppe.Wähle eine(„.section-content-wrapper li.ng-star-inserted:nth-of-type(6) span“).text.strip()

Rückkehr {
'Rang': Rang,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Codeausschnitt versucht, den Rang des Unternehmens aus dem HTML-Inhalt zu extrahieren. Er verwendet BeautifulSoups select_one() Methode zusammen mit einem CSS-Selektor .section-content-wrapper li.ng-star-inserted:nth-of-type(6) span um das spezifische HTML-Element zu finden, das den Rang darstellt.

10. Scrape die Firmengründer von Crunchbase

Normalerweise werden Informationen zu den Firmengründern im Abschnitt „Über uns“ auf der Website des Unternehmens aufgeführt und dort häufig mit der Bezeichnung oder Kennzeichnung „Gründer“ oder ähnlich versehen.

Scrape Crunchbase Firmengründer

Unten sehen Sie den Codeausschnitt, der zeigt, wie Sie mit BeautifulSoup die Informationen zu den Firmengründern extrahieren:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie die Seite „Gründer von Crunchbase“
Gründer = soup.select_one(„.mat-mdc-card.mdc-card .text_and_value li:nth-of-type(5) Feldformatierer“).text.strip()

Rückkehr {
„Gründer“: Gründer,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

Dieser Codeausschnitt extrahiert die Gründerinformationen aus dem HTML-Inhalt. Er verwendet BeautifulSoups select_one() Methode zusammen mit einem CSS-Selektor .mat-mdc-card.mdc-card .text_and_value li:nth-of-type(5) field-formatter um das spezifische HTML-Element zu finden, das die Informationen zu den Gründern anzeigt.

11. Vervollständigen Sie den Crunchbase Scraper-Code

Nachdem wir nun jede Komponente des Scraping-Prozesses untersucht und einzelne Funktionen zum Extrahieren spezifischer Datenpunkte aus einer Crunchbase-Webseite entwickelt haben, ist es an der Zeit, alles in einem zusammenhängenden Skript zusammenzufassen.

Der vollständige Code unten integriert Funktionen zum Crawlen und Scrapen von Daten und erleichtert so das Sammeln verschiedener Informationen über ein Unternehmen aus seinem Crunchbase-Profil.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
für Crawlbase importieren CrawlingAPI
für bs4 importieren BeautifulSuppe

def kriechen(Seiten-URL, API-Token):
# Initialisieren Sie das CrawlingAPI-Objekt mit Ihrem Token
api = CrawlingAPI({'Zeichen': api_token})

# Holen Sie sich den Seiteninhalt
Antwort = api.get(Seiten-URL)

# Überprüfen Sie, ob die Anfrage erfolgreich war
if Antwort['Statuscode'] == 200:
# Gescrapte Daten
scraped_data = scrape_data(Antwort)

drucken(f'{gescrapte_Daten}')
sonst:
drucken(f"Fehler: {Antwort}")

def Daten scrapen(Antwort):
versuchen:
# Analysieren Sie den HTML-Inhalt mit Beautiful Soup
Suppe = Schöne Suppe(Antwort['Körper'], 'html.parser')

# Extrahieren Sie den Titel der Crunchbase-Seite
Titel = Suppe.find('h1', Klasse_='Profilname').get_text(Streifen=Wahre)

# Extrahieren Sie die Beschreibung der Crunchbase-Seite
Beschreibung = Suppe.find('Spanne', Klasse_='Bezeichnung').get_text(Streifen=Wahre)

# Extrahieren Sie den Speicherort der Crunchbase-Seite
Standort = Suppe.Wählen Sie eine(„.Abschnitt-Inhaltswrapper li.ng-Star-eingefügt“).text.strip()

# Extrahieren Sie die Mitarbeiter der Crunchbase-Seite
Mitarbeiter = Suppe.select_one(„.section-content-wrapper li.ng-star-inserted:n-ter-vom-Typ(2)“).text.strip()

# Extrahieren Sie die Firmen-URL der Crunchbase-Seite
Firmen-URL = soup.select_one('.section-content-wrapper li.ng-star-inserted:nth-of-type(5) a[role="link"]')['href']

# Extrahieren Sie den Rang der Crunchbase-Seite
Rang = Suppe.Wähle eine(„.section-content-wrapper li.ng-star-inserted:nth-of-type(6) span“).text.strip()

# Extrahieren Sie das Gründungsdatum der Crunchbase-Seite
gegründet = soup.select_one(„.mat-mdc-card.mdc-card .text_and_value li:nth-of-type(4) Feldformatierer“).text.strip()

# Extrahieren Sie die Seite „Gründer von Crunchbase“
Gründer = soup.select_one(„.mat-mdc-card.mdc-card .text_and_value li:nth-of-type(5) Feldformatierer“).text.strip()

Rückkehr {
‚Titel‘: Titel,
'Bezeichnung': Beschreibung,
'Standort': Standort,
'Mitarbeiter': Mitarbeiter,
'Firmen-URL': Firmen-URL,
'Rang': Rang,
'gegründet': gegründet,
„Gründer“: Gründer,
}
ausgeschlossen Exception as e:
drucken(f"Ein Fehler ist aufgetreten: {e}")
Rückkehr {}

if __name__ == "__hauptsächlich__":
# Geben Sie die URL der Crunchbase-Seite an, die ausgelesen werden soll.
Seiten-URL = „https://www.crunchbase.com/organization/openai“

# Geben Sie Ihr Crawlbase-Token an. Verwenden Sie das JavaScript-Token für Crunchbase
api_token = 'Crawlbase_Token'

# Rufen Sie die Crawl-Funktion auf
crawlen (Seiten-URL, API-Token)

Ausführen des Codes mit dem Befehl python scraper.py sollte eine ähnliche Ausgabe wie unten gezeigt liefern:

Crunchbase-Schaber

Dieses Tutorial dient als umfassende Anleitung zum Erstellen eines Crunchbase Scrapers mit Python und der Crawlbase API. Es enthält Schritt-für-Schritt-Anleitungen zum einfachen Extrahieren wichtiger Informationen aus Crunchbase-Unternehmensprofilen.

Beachten Sie, dass dieses Tutorial kostenlos zur Verfügung steht und wir empfehlen Ihnen, es für Ihre Projekte zu verwenden. Dieses Tutorial dient als solider Ausgangspunkt für alle, egal ob Sie neu beim Web Scraping sind oder ein erfahrener Entwickler, der seine Fähigkeiten verbessern möchte.

Passen Sie den bereitgestellten Code nach Belieben an Ihre spezifischen Anforderungen an. Sie können ihn nicht nur zum Scrapen von Crunchbase-Daten verwenden, sondern auch als Leitfaden zum Scrapen anderer interessanter Websites. Mithilfe der in diesem Tutorial vermittelten Konzepte und Techniken sind Sie in der Lage, verschiedene Web-Scraping-Aufgaben sicher zu bewältigen.

Wenn Sie daran interessiert sind, weitere Projekte wie dieses zu erkunden, können Sie zur zusätzlichen Inspiration die folgenden Tutorials durchsehen:

So erstellen Sie einen Wayfair-Preistracker

So scrapen Sie Trulia

Wikipedia in Python scrapen – Ultimatives Tutorial

Weitere Anpassungsoptionen und Zugriff auf erweiterte Funktionen finden Sie in der Crawlbase Crawling API Dokumentation. Wenn Sie Fragen oder Feedback haben, wenden Sie sich bitte an unseren Support-Team.

Häufig gestellte Fragen

F. Soll ich die Crunchbase-API oder die Crawling API?

Wenn Sie offiziell und strukturiert auf Crunchbase-Daten zugreifen möchten, empfiehlt es sich, die offizielle Crunchbase-API zu verwenden. Beachten Sie jedoch, dass die über die Crunchbase-API zugänglichen Daten möglicherweise Einschränkungen unterliegen.

Wenn Sie jedoch mehr Freiheit und Flexibilität benötigen oder Ihre Daten über Crunchbase hinausgehen müssen, finden Sie möglicherweise die Crawling API von Crawlbase als geeignetere Option bereitgestellt.

F: Wie rufe ich Daten von Crunchbase ab?

  1. Melden Sie sich bei Crawlbase an und erhalten Sie Ihr JavaScript-Token
  2. Wählen Sie eine Zielwebsite oder -URL.
  3. Senden Sie eine HTTP/HTTPS-Anfrage an die API
  4. Integrieren Sie mit Python und BS4, um spezifische Daten zu scrapen
  5. Importieren Sie die Daten in JSON, CSV oder Excel

F: Kann Crunchbase gescrapt werden?

Das Scraping von Tausenden von Datenpunkten auf Crunchbase kann mit dem Crawlbase-Tool in nur wenigen Minuten durchgeführt werden. Crawling API.

Mit einem Crawlbase-Konto können Sie das JavaScript-Token verwenden, um den gesamten HTML-Code der Seite zu crawlen. Um dann bestimmte Inhalte zu extrahieren, können Sie mit Python BeautifulSoup oder einem anderen Drittanbieter-Parser Ihrer Wahl einen Scraper entwickeln.

F: Wofür wird Crunchbase verwendet?

Crunchbase ist eine weltweit genutzte Plattform zum Auffinden von Unternehmensinformationen. Sie ist bei Unternehmern, Investoren, Verkäufern und Forschern beliebt. Hier können Sie sich hervorragend über Unternehmen, Startups, Investoren, Finanzierungen, Übernahmen und Branchentrends informieren.

F: Was macht Crunchbase?

Crunchbase bietet eine Plattform zur Geschäftsakquise, die Unternehmensdaten in Echtzeit nutzt. Die Plattform wurde entwickelt, um Vertriebsmitarbeitern, CEOs und Einzelpersonen gleichermaßen zu helfen. Sie erleichtert das Auffinden, Verfolgen und Beobachten von Unternehmen. Dies ermöglicht eine effizientere Entdeckung und Akquisition von Geschäften.

F: Wie extrahiere ich automatisch Finanzdaten aus Crunchbase?

Finanzdaten sind hinter einer Anmeldesitzung auf Crunchbase verborgen. Um die Daten automatisch zu extrahieren, müssen Sie Folgendes tun:

  • Melden Sie sich manuell über einen echten Browser bei der Website an
  • Extrahieren der Session-Cookies aus dem Browser
  • Senden Sie die Cookies an die Crawling API Verwendung der Cookies-Parameter.

Sobald Sie sich angemeldet haben, können Sie mit Python dieselben Scraping-Techniken anwenden, die in diesem Tutorial gezeigt wurden, um die Finanzdaten abzurufen.