Dieser Blog ist eine Schritt-für-Schritt-Anleitung zum Scrapen von Crunchbase-Daten. Crunchbase ist einer der wichtigsten Anbieter von Prospektions- und Forschungslösungen für Privatunternehmen mit einer beeindruckenden Erfolgsbilanz bei der Bereitstellung von über 75 Millionen Menschen weltweit. Allein im Februar 2024 zog Crunchbase 7.7 Millionen Besucher auf der Suche nach Einblicken in die dynamische Welt der Startups und Geschäftsvorhaben.
Crunchbase ist zudem die Anlaufstelle für Unternehmer, Investoren, Vertriebsprofis und Marktforscher und verfügt über einen Datenbestand mit 3 Millionen börsennotierten Unternehmen.
Der Zugriff auf diese Daten und deren Extraktion zu Analyse- oder Forschungszwecken kann jedoch eine Herausforderung sein. In dieser Anleitung zeigen wir Ihnen einfache Schritte zum Scraping von Crunchbase.
Wir werden untersuchen, wie man einen Crunchbase Scraper mit Python, BeautifulSoup und anderen relevanten Bibliotheken erstellt. Wir werden auch die Crawling API von Crawlbase, einer leistungsstarken Crunchbase-API, die diese Hindernisse effektiv umgeht. Sehen wir uns die Projektdetails an.
2. Abhängigkeiten installieren
3. Crawlen der Crunchbase-Webseite
5. Beschreibung des Scraping-Unternehmens
6. Den Firmenstandort abkratzen
7. Mitarbeiter des Unternehmens streichen
8. Scraping der Website-URL des Unternehmens
9. Den Unternehmensrang streichen
10. Firmengründer aussortieren
11. Vervollständigen Sie den Crunchbase Scraper-Code
Dieses Projekt soll Ihnen helfen, einen Crunchbase Scraper mit Python und BeautifulSoup zum Scrapen zu erstellen. Es verwendet Crawlbases Crawling API zu Captchas umgehen und potenzielle Sperren und Seiteninhalte abrufen. Unser Ziel ist es, verschiedene Details über auf Crunchbase gelistete Unternehmen für Marktforschung, Investitionsanalyse, Wettbewerbsanalyse, Identifizierung von Partnerschaften, Personalbeschaffung und mehr zu extrahieren.
Zu diesem Zweck werden wir fehlen uns die Worte. bestimmte Crunchbase-URL als unser Beispiel.
Hier ist die Liste der Datenpunkte, die wir aus den Crunchbase-Unternehmensseiten extrahieren werden:
- Titel: Der Name des Unternehmens, zum Beispiel „OpenAI“.
- Beschreibung: Ein kurzer Überblick oder eine Zusammenfassung der Aktivitäten des Unternehmens, z. B. „Eine auf künstliche Intelligenz spezialisierte Forschungsorganisation“.
- Standort: Der geografische Standort, an dem das Unternehmen seinen Sitz hat, z. B. „San Francisco, Kalifornien, USA“.
- Angestellte: Die ungefähre Anzahl der im Unternehmen beschäftigten Personen, z. B. „Über 100 Mitarbeiter“.
- Firmen-URL: Die Webadresse der offiziellen Website des Unternehmens, zum Beispiel „https://www.openai.com/".
- Rang: Die Position oder der Rang des Unternehmens in der Crunchbase-Datenbank, z. B. „Platz 5 in Crunchbase“.
- Gründungsdatum: Das Datum der Unternehmensgründung, z. B. „Gegründet 2015“.
- Gründer: Die Namen der Personen, die das Unternehmen gegründet haben, zum Beispiel „Elon Musk und Sam Altman“.
Durch das Extrahieren von Crunchbase-Daten soll das Skript wertvolle Erkenntnisse zum Profil des auf Crunchbase gelisteten Unternehmens liefern. Diese Daten können es den Beteiligten auch ermöglichen, Einblicke in die Marktdynamik, das Wettbewerbsumfeld und Branchentrends zu gewinnen, was letztlich die strategische Entscheidungsfindung und fundiertes Handeln unterstützt.
Mit diesem Verständnis des Projektumfangs und des Datenextraktionsprozesses können wir nun mit der Einrichtung der erforderlichen Voraussetzungen und der Vorbereitung Ihrer Codierungsumgebung fortfahren.
1. Voraussetzungen zum Scrapen von Crunchbase-Daten
Bevor wir mit dem Scraping von Crunchbase mit Python fortfahren und die Leistungsfähigkeit der Crawlbase-API nutzen, ist es wichtig, sicherzustellen, dass Sie über die erforderlichen Voraussetzungen verfügen. Diese grundlegenden Elemente statten Sie mit dem Wissen, den Tools und dem Zugriff aus, die Sie benötigen, um Ihre Web-Scraping-Projekte effektiv zu starten.
Lassen Sie uns die wichtigsten Voraussetzungen besprechen, die für den Start Ihres Web-Scraping-Projekts erforderlich sind, wobei wir uns insbesondere auf das Extrahieren von Daten aus Crunchbase konzentrieren:
Grundlegende Python-Kenntnisse
Vertrautheit mit dem Python Programmiersprache ist unerlässlich. Dazu gehört das Verständnis, wie man Python-Code schreibt und ausführt.
Hier ist eine Empfehlung: Wenn Sie neu bei Python sind, stehen Ihnen zahlreiche Ressourcen zur Verfügung, die Ihnen beim Lernen helfen. Websites wie Codecademy, Coursera und Udemy bieten Einführungskurse in Python an, die für Anfänger geeignet sind. Darüber hinaus können Sie die Python-Dokumentation lesen und Programmierübungen auf Plattformen wie LeetCode or HackerRank kann Ihr Verständnis festigen.
Crawlbase API-Konto
So erstellen Sie ein Konto: Besuchen Sie die Crawlbase-Website und navigieren Sie zu Anmeldeseite. Füllen Sie die erforderlichen Informationen aus, um Ihr Konto zu erstellen. Sobald Sie registriert sind, erhalten Sie Ihre API-Anmeldeinformationen von der Kontodokumentation
Bedeutung der API-Anmeldeinformationen: Behandeln Sie Ihre API-Anmeldeinformationen als vertrauliche Informationen. Sie sind für den Zugriff auf die Dienste von Crawlbase und die Durchführung von Web Scraping-Aufgaben unerlässlich. Bewahren Sie sie sicher auf und geben Sie sie nicht an unbefugte Personen weiter.
Auswahl einer integrierten Entwicklungsumgebung (IDE)
Empfehlung: Zu den beliebten IDEs für die Python-Entwicklung gehören PyCharm, VSCode (Visual Studio Code) und Jupiter Notebook. Jede IDE hat ihre Vorteile, daher sollten Sie sie ausprobieren, um diejenige zu finden, die Ihren Anforderungen am besten entspricht.
IDE-Installation: Laden Sie einfach die gewünschte IDE von der jeweiligen Website herunter und installieren Sie sie. Folgen Sie den bereitgestellten Installationsanweisungen, und schon können Sie mit dem Programmieren in Python beginnen.
2. Abhängigkeiten installieren
Stellen Sie zunächst sicher, dass Python installiert ist. Besuchen Sie die offizielle Python-Website und laden Sie die neueste Version herunter, die mit Ihrem Betriebssystem kompatibel ist. Alternativ können Sie Paketmanager verwenden wie Anaconda, die eine umfassende Python-Distribution zusammen mit beliebten Paketen und Entwicklungsumgebungen bereitstellen.
Befolgen Sie die Installationsanweisungen auf der Python-Website oder im Anaconda-Installationsprogramm. Stellen Sie sicher, dass Python auf Ihrem System ordnungsgemäß installiert und konfiguriert ist.
Paketinstallation
Um Ihre Python-Umgebung für Web Scraping einzurichten, öffnen Sie nach der Installation von Python die Eingabeaufforderung oder das Terminal. Erstellen Sie dann ein Verzeichnis auf Ihrem System, um Ihren Python-Scraper-Code unterzubringen, entweder über den Befehl mkdir (unter macOS/Linux) oder über den Datei-Explorer (unter Windows).
Installieren Sie als Nächstes die erforderlichen Pakete mit pip, dem Paketmanager von Python, indem Sie bestimmte Befehle in Ihrer Eingabeaufforderung oder Ihrem Terminal ausführen.
1 | pip installieren crawlbase |
Diese Befehle laden die erforderlichen Bibliotheken herunter und installieren sie:
- Crawlbase Python-Bibliothek: Die Crawlbase-Bibliothek bietet eine praktische Python-Klasse, die als Wrapper für die Crawlbase-API konzipiert ist (Crawling API und mehr). Diese leichtgewichtige und abhängigkeitsfreie Klasse ermöglicht eine nahtlose Integration der Web-Scraping-Funktionen von Crawlbase in Python-Anwendungen.
- SchöneSuppe: Als eines der am häufigsten verwendeten Python-Frameworks für Web Scraping vereinfacht Beautiful Soup mit seinen intuitiven Funktionen die HTML-Analyse und erleichtert so das Extrahieren von Daten aus Webseiten.
3. Crawlen der Crunchbase-Webseite
Nachdem wir nun die wichtigen Abhängigkeiten installiert haben, beginnen wir mit dem Codierungsprozess.
Das Extrahieren von Crunchbase-Daten umfasst das Abrufen des HTML-Inhalts der gewünschten Seiten mithilfe der Crawling API. Nachfolgend finden Sie die Schritte zum Crawlen einer Crunchbase-Webseite mit Python und dem bereitgestellten Codeausschnitt:
Importieren Sie die CrawlingAPI-Klasse:
- Importieren Sie die
CrawlingAPI
Klasse aus dercrawlbase
Bibliothek. Diese Klasse ermöglicht die Interaktion mit der Crawling API.
Definiere das crawl
Funktion:
- Erstellen Sie eine Funktion mit dem Namen
crawl
das braucht zwei Parameter:page_url
(die URL der zu crawlenden Crunchbase-Webseite) undapi_token
(Ihr Crawlbase-API-Token).
Initialisieren Sie das CrawlingAPI-Objekt:
- Im Inneren der
crawl
Funktion initialisieren Sie dieCrawlingAPI
Objekt, indem Sie ein Wörterbuch mit Ihrem API-Token als Wert für das'token'
Taste halten.
Holen Sie sich den Seiteninhalt:
- Verwenden Sie das
get()
Methode derCrawlingAPI
Objekt zum Abrufen des HTML-Inhalts des angegebenenpage_url
. Speichern Sie die Antwort imresponse
variabel.
Überprüfen Sie den Antwortstatus:
- Überprüfen Sie, ob der Antwortstatuscode (aufgerufen über
response['status_code']
) ist gleich 200 und zeigt damit eine erfolgreiche Anforderung an.
Daten extrahieren oder Fehler behandeln:
- Wenn die Anfrage erfolgreich ist, extrahieren und drucken Sie den HTML-Inhalt der Seite (Zugriff über
response["body"]
). Andernfalls wird eine Fehlermeldung mit der Fehlerursache gedruckt.
Geben Sie die Seiten-URL und das API-Token an:
- Im
__main__
Geben Sie im Block Ihres Skripts die URL der zu crawlenden Crunchbase-Seite an (page_url
) und Ihr Crawlbase API JavaScript-Token (api_token
).
Rufen Sie die Crawl-Funktion auf:
- Rufen Sie abschließend die an
crawl
Funktion mit dem angegebenenpage_url
undapi_token
als Argumente, um den Crawling-Prozess zu starten.
Hier ist der Code, der diese Schritte implementiert. Sie können den Code kopieren, einfügen und als Python-Datei in Ihrem Verzeichnis speichern. zB scraper.py
1 | für Crawlbase importieren CrawlingAPI |
Lassen Sie uns den obigen Codeausschnitt ausführen. Dazu müssen wir den folgenden Befehl ausführen:
1 | Python Scraper.py |
Ausgang:
Wir haben die HTML-Daten der Crunchbase-Webseite erfolgreich gecrawlt. Als Nächstes werden wir mit dem Scraping der Crunchbase-Daten fortfahren, indem wir das BeautifulSoup4-Paket in Python verwenden.
4. Scrape Crunchbase Firmentitel
Konzentrieren wir uns nun darauf, den Firmennamen aus dem gecrawlten HTML der Crunchbase-Webseite zu extrahieren. Wir verwenden das Paket BeautifulSoup4, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden.
Importieren Sie BeautifulSoup am Anfang Ihres Python-Skripts oder Ihrer Python-Funktion.
1 | für bs4 importieren BeautifulSuppe |
Identifizieren Sie das HTML-Element, das den Firmennamen enthält. Überprüfen Sie die Crunchbase-Webseite oder sehen Sie sich die HTML-Quelle an, um den entsprechenden Selektor zu ermitteln.
Nutzen Sie BeautifulSoup-Selektoren, um die title
Element innerhalb der Webseite. Dabei wird die entsprechende Klasse angegeben, die zum gewünschten Element passt.
1 | def Daten scrapen(Antwort): |
Dieser Codeausschnitt findet das erste Vorkommen des <h1>
Element mit der Klasse „Profilname“ im HTML-Inhalt, der in der Variablen soup gespeichert ist. Anschließend extrahiert es den Text innerhalb dieses Elements und entfernt alle zusätzlichen Leerzeichen oder Zeilenumbrüche mithilfe des get_text(strip=True)
Methode. Schließlich weist es den bereinigten Text der Variablen zu title
und geben Sie die title
.
5. Scrape Crunchbase Firmenbeschreibung
In diesem Abschnitt konzentrieren wir uns auf das Extrahieren der Unternehmensbeschreibung aus dem gecrawlten HTML der Crunchbase-Webseite.
1 | def Daten scrapen(Antwort): |
Dieser Code extrahiert die Beschreibung einer Crunchbase-Seite durch die Suche nach einem bestimmten <span>
Tag mit dem Klassenattribut „Beschreibung“ im analysierten HTML-Inhalt. Anschließend wird dieser Beschreibungstext in einem Wörterbuchformat zurückgegeben.
6. Den Firmenstandort von Crunchbase abfragen
Der Unternehmensstandort liefert wertvolle Informationen über den Firmensitz eines Unternehmens, welche für verschiedene Analysen und Geschäftszwecke von entscheidender Bedeutung sein können.
Beim Scrapen des Firmenstandorts nutzen wir weiterhin das BeautifulSoup4-Paket, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden. Der Firmenstandort befindet sich normalerweise im Inhalt der Webseite, oft in einem bestimmten HTML-Element, wie unten gezeigt:
1 | def Daten scrapen(Antwort): |
Dieser Codeausschnitt extrahiert die Standortinformationen aus einem bestimmten Element auf der Seite, insbesondere aus einem <li>
Element innerhalb der .section-content-wrapper
. Anschließend gibt es diese Informationen als Teil eines Wörterbuchs zurück, das andere extrahierte Daten enthält. Darüber hinaus behandelt es Ausnahmen, indem es eine Fehlermeldung ausgibt, wenn während des Scraping-Prozesses welche auftreten.
7. Mitarbeiter des Unternehmens Crunchbase ausspionieren
Die Mitarbeiterzahl ist eine wichtige Kennzahl, die Aufschluss über die Größe und den Umfang des Unternehmens gibt. Ähnlich wie in den vorherigen Abschnitten verwenden wir das Paket BeautifulSoup4, um den HTML-Inhalt zu analysieren und die relevanten Informationen zu finden. Die Mitarbeiterzahl finden Sie normalerweise unter dem Standortabschnitt, wie unten dargestellt:
1 | def Daten scrapen(Antwort): |
Der bereitgestellte Code definiert eine Funktion namens scrape_data
ist für das Extrahieren von Daten aus dem HTML-Inhalt einer Webseite verantwortlich. Es verwendet BeautifulSoup zum Parsen des HTML und zielt speziell auf ein bestimmtes HTML-Element ab, das die Anzahl der Mitarbeiter eines Unternehmens auf einer Crunchbase-Webseite darstellt. Innerhalb eines Try-Except-Blocks versucht der Code, den Textinhalt dieses Elements mithilfe des CSS-Selektors zu extrahieren '.section-content-wrapper li.ng-star-inserted:nth-of-type(2)'
.
Bei Erfolg wird die extrahierte Mitarbeiterzahl als Teil eines Wörterbuchs zurückgegeben. Falls während des Scraping-Vorgangs Ausnahmen auftreten, behandelt der Code diese, indem er eine Fehlermeldung ausgibt und ein leeres Wörterbuch zurückgibt, das das Fehlen extrahierter Daten anzeigt.
8. Scrapen Sie die URL der Unternehmenswebsite von Crunchbase
Die URL der Unternehmenswebsite ist eine grundlegende Information, die direkten Zugriff auf die Onlinepräsenz des Unternehmens bietet. Normalerweise befindet sich die URL der Unternehmenswebsite im Abschnitt „Info“, wie Sie unten sehen können:
Ähnlich wie in den vorherigen Abschnitten verwenden wir das BeautifulSoup4-Paket, um durch den HTML-Inhalt der Crunchbase-Webseite zu navigieren und die Daten mithilfe eines CSS-Selektors zu lokalisieren.
1 | def Daten scrapen(Antwort): |
Dieser Code definiert eine Funktion namens scrape_data
das versucht, die URL der Unternehmenswebsite aus dem HTML-Inhalt einer Crunchbase-Webseite zu extrahieren. Wir haben den HTML-Inhalt analysiert und einen CSS-Selektor verwendet .section-content-wrapper li.ng-star-inserted:nth-of-type(5) a[role="link"]
zur Lokalisierung des spezifischen <a>
(Anker-)Element, das die Firmen-URL darstellt.
9. Scrape Crunchbases Unternehmensrang
Der Unternehmensrang gibt Aufschluss über die Stellung oder Position des Unternehmens innerhalb seiner Branche oder seines Sektors. Der Unternehmensrang ist im Abschnitt „Info“ zu finden und wird häufig als „Rang“ oder ähnlich bezeichnet.
1 | def Daten scrapen(Antwort): |
Dieser Codeausschnitt versucht, den Rang des Unternehmens aus dem HTML-Inhalt zu extrahieren. Er verwendet BeautifulSoups select_one()
Methode zusammen mit einem CSS-Selektor .section-content-wrapper li.ng-star-inserted:nth-of-type(6) span
um das spezifische HTML-Element zu finden, das den Rang darstellt.
10. Scrape die Firmengründer von Crunchbase
Normalerweise werden Informationen zu den Firmengründern im Abschnitt „Über uns“ auf der Website des Unternehmens aufgeführt und dort häufig mit der Bezeichnung oder Kennzeichnung „Gründer“ oder ähnlich versehen.
Unten sehen Sie den Codeausschnitt, der zeigt, wie Sie mit BeautifulSoup die Informationen zu den Firmengründern extrahieren:
1 | def Daten scrapen(Antwort): |
Dieser Codeausschnitt extrahiert die Gründerinformationen aus dem HTML-Inhalt. Er verwendet BeautifulSoups select_one()
Methode zusammen mit einem CSS-Selektor .mat-mdc-card.mdc-card .text_and_value li:nth-of-type(5) field-formatter
um das spezifische HTML-Element zu finden, das die Informationen zu den Gründern anzeigt.
11. Vervollständigen Sie den Crunchbase Scraper-Code
Nachdem wir nun jede Komponente des Scraping-Prozesses untersucht und einzelne Funktionen zum Extrahieren spezifischer Datenpunkte aus einer Crunchbase-Webseite entwickelt haben, ist es an der Zeit, alles in einem zusammenhängenden Skript zusammenzufassen.
Der vollständige Code unten integriert Funktionen zum Crawlen und Scrapen von Daten und erleichtert so das Sammeln verschiedener Informationen über ein Unternehmen aus seinem Crunchbase-Profil.
1 | für Crawlbase importieren CrawlingAPI |
Ausführen des Codes mit dem Befehl python scraper.py
sollte eine ähnliche Ausgabe wie unten gezeigt liefern:
Dieses Tutorial dient als umfassende Anleitung zum Erstellen eines Crunchbase Scrapers mit Python und der Crawlbase API. Es enthält Schritt-für-Schritt-Anleitungen zum einfachen Extrahieren wichtiger Informationen aus Crunchbase-Unternehmensprofilen.
Beachten Sie, dass dieses Tutorial kostenlos zur Verfügung steht und wir empfehlen Ihnen, es für Ihre Projekte zu verwenden. Dieses Tutorial dient als solider Ausgangspunkt für alle, egal ob Sie neu beim Web Scraping sind oder ein erfahrener Entwickler, der seine Fähigkeiten verbessern möchte.
Passen Sie den bereitgestellten Code nach Belieben an Ihre spezifischen Anforderungen an. Sie können ihn nicht nur zum Scrapen von Crunchbase-Daten verwenden, sondern auch als Leitfaden zum Scrapen anderer interessanter Websites. Mithilfe der in diesem Tutorial vermittelten Konzepte und Techniken sind Sie in der Lage, verschiedene Web-Scraping-Aufgaben sicher zu bewältigen.
Wenn Sie daran interessiert sind, weitere Projekte wie dieses zu erkunden, können Sie zur zusätzlichen Inspiration die folgenden Tutorials durchsehen:
So erstellen Sie einen Wayfair-Preistracker
Wikipedia in Python scrapen – Ultimatives Tutorial
Weitere Anpassungsoptionen und Zugriff auf erweiterte Funktionen finden Sie in der Crawlbase Crawling API Dokumentation. Wenn Sie Fragen oder Feedback haben, wenden Sie sich bitte an unseren Support-Team.
Häufig gestellte Fragen
F. Soll ich die Crunchbase-API oder die Crawling API?
Wenn Sie offiziell und strukturiert auf Crunchbase-Daten zugreifen möchten, empfiehlt es sich, die offizielle Crunchbase-API zu verwenden. Beachten Sie jedoch, dass die über die Crunchbase-API zugänglichen Daten möglicherweise Einschränkungen unterliegen.
Wenn Sie jedoch mehr Freiheit und Flexibilität benötigen oder Ihre Daten über Crunchbase hinausgehen müssen, finden Sie möglicherweise die Crawling API von Crawlbase als geeignetere Option bereitgestellt.
F: Wie rufe ich Daten von Crunchbase ab?
- Melden Sie sich bei Crawlbase an und erhalten Sie Ihr JavaScript-Token
- Wählen Sie eine Zielwebsite oder -URL.
- Senden Sie eine HTTP/HTTPS-Anfrage an die API
- Integrieren Sie mit Python und BS4, um spezifische Daten zu scrapen
- Importieren Sie die Daten in JSON, CSV oder Excel
F: Kann Crunchbase gescrapt werden?
Das Scraping von Tausenden von Datenpunkten auf Crunchbase kann mit dem Crawlbase-Tool in nur wenigen Minuten durchgeführt werden. Crawling API.
Mit einem Crawlbase-Konto können Sie das JavaScript-Token verwenden, um den gesamten HTML-Code der Seite zu crawlen. Um dann bestimmte Inhalte zu extrahieren, können Sie mit Python BeautifulSoup oder einem anderen Drittanbieter-Parser Ihrer Wahl einen Scraper entwickeln.
F: Wofür wird Crunchbase verwendet?
Crunchbase ist eine weltweit genutzte Plattform zum Auffinden von Unternehmensinformationen. Sie ist bei Unternehmern, Investoren, Verkäufern und Forschern beliebt. Hier können Sie sich hervorragend über Unternehmen, Startups, Investoren, Finanzierungen, Übernahmen und Branchentrends informieren.
F: Was macht Crunchbase?
Crunchbase bietet eine Plattform zur Geschäftsakquise, die Unternehmensdaten in Echtzeit nutzt. Die Plattform wurde entwickelt, um Vertriebsmitarbeitern, CEOs und Einzelpersonen gleichermaßen zu helfen. Sie erleichtert das Auffinden, Verfolgen und Beobachten von Unternehmen. Dies ermöglicht eine effizientere Entdeckung und Akquisition von Geschäften.
F: Wie extrahiere ich automatisch Finanzdaten aus Crunchbase?
Finanzdaten sind hinter einer Anmeldesitzung auf Crunchbase verborgen. Um die Daten automatisch zu extrahieren, müssen Sie Folgendes tun:
- Melden Sie sich manuell über einen echten Browser bei der Website an
- Extrahieren der Session-Cookies aus dem Browser
- Senden Sie die Cookies an die Crawling API Verwendung der Cookies-Parameter.
Sobald Sie sich angemeldet haben, können Sie mit Python dieselben Scraping-Techniken anwenden, die in diesem Tutorial gezeigt wurden, um die Finanzdaten abzurufen.