Forbes ist eine Wirtschafts- und Finanznachrichtenseite mit tollen Informationen zu Branchen, Unternehmen und Personen auf der ganzen Welt. Forbes wird jeden Monat von Millionen Menschen besucht. Sie bietet Milliardärs-Rankings, Geschäftstrends und Analysen. Forbes verwendet JavaScript, um seine Inhalte dynamisch zu laden, daher ist das Scraping mit herkömmlichen Tools etwas schwierig.
Dieses Tutorial zeigt Ihnen, wie Sie Forbes-Daten scrapen mit Puppenspieler, ein Headless-Browser. Sobald Sie die Grundlagen verstanden haben, erklären wir Ihnen, wie Sie den Crawlbase Crawling API um Ihre Datenextraktion zu optimieren. Mit diesen Tools können Sie Forbes-Daten für Forschung, Analyse oder persönliche Projekte sammeln.
Hier ist eine kurze Anleitung, wie man Forbes nach Milliardärsrankings durchsucht:
Inhaltsverzeichnis
- Warum Daten von Forbes scrapen?
- Wichtige Datenpunkte zum Scrapen von Forbes
- Einrichten Ihrer Scraping-Umgebung
- Puppeteer installieren
- Einrichten Ihres Projekts
- Erforderliche Bibliotheken installieren
- Überprüfen der HTML-Struktur
- Den Puppenspieler-Schaber schreiben
- Speichern von Daten in einer JSON-Datei
- Einführung in Crawlbase Crawling API
- So verwenden Sie Crawlbase mit Forbes
- Codebeispiel mit Crawlbase
Warum Daten von Forbes scrapen?
Es lässt sich nicht leugnen, dass Forbes eine Fülle von Informationen zu Wirtschaft, Finanzen und Lebensstil bietet. Durch das Scraping von Forbes-Daten können Sie verschiedene Aspekte verfolgen, beispielsweise die aktuellsten Geschäftstrends oder die Analyse des Vermögens der Milliardäre. Hier sind einige wichtige Gründe, Daten von Forbes zu scrapen:
- Milliardärs-Rangliste: Forbes ist ein Name, den jeder mit seinen weltweiten Milliardärsrankings kennt. Diese Daten können ausgelesen werden, um zu sehen, wie sich der Wohlstand im Laufe der Zeit entwickelt hat.
- Firmeninformation: Um zu sehen, wie es einem Unternehmen geht, bietet Forbes die besten Unternehmensprofile.
- Industry Insights: Forbes bietet Artikel zu verschiedenen Sektoren, darunter Technologie, Finanzen, Gesundheitswesen und mehr. Scrapen Sie Daten, um bestimmte Branchen und Trends zu verfolgen.
- Finanznachrichten: Forbes veröffentlicht Nachrichten und Updates zur Weltwirtschaft und den Märkten in Echtzeit. Nutzen Sie diese Daten, um wichtige Finanzereignisse im Auge zu behalten.
Wichtige Datenpunkte zum Scrapen von Forbes
Beim Scraping von Forbes möchten Sie möglicherweise viele Datenpunkte extrahieren. Einige der wesentlichen Datenpunkte, die Sie sich ansehen müssen, sind:
- Milliardärsprofile: Forbes bietet ausführliche Biografien der reichsten Menschen der Welt. Diese Profile enthalten Angaben zu Vermögensquelle, Branche, Nettovermögen und Herkunftsland.
- Firmenprofile: Forbes bietet umfassende Daten zu Unternehmen, wie Umsatz, Mitarbeiterzahl und Branche. Verwenden Sie diese Daten, um Unternehmen zu vergleichen oder bestimmte Branchen im Laufe der Zeit im Auge zu behalten.
- Top-Listen: Forbes ist bekannt für seine „Top“-Listen, die die 100 reichsten Milliardäre, die größten multinationalen Konzerne und die größten Start-ups umfassen.
- Artikel und News: Forbes bietet aktuelle Nachrichten und ausführliche Artikel zu den Themen Wirtschaft, Finanzen und Lifestyle. Um über die neuesten Nachrichten, Trends und Expertenmeinungen aus der Branche auf dem Laufenden zu bleiben, durchsuchen Sie die Forbes-Artikel.
- Marktdaten: Finanzinformationen wie Aktienkurse, Markttrends und Wirtschaftsprognosen sind auf der Website verfügbar. Um den Überblick über die Finanzmärkte zu behalten und Echtzeiteinblicke zu erhalten, nutzen Sie die Marktdaten von Forbes.
Einrichten Ihrer Scraping-Umgebung
Um Forbes-Daten zu scrapen, müssen wir eine Projektumgebung einrichten. Wir müssen Node.js, Puppeteer und andere erforderliche Bibliotheken installieren. Befolgen Sie die folgenden Schritte.
Puppeteer installieren
Puppeteer ist eine Node.js-Bibliothek, die eine hochrangige API zur Steuerung von Chrome oder Chromium bereitstellt und sich perfekt zum Scraping dynamischer Inhalte wie Forbes eignet. Um Puppeteer zu installieren, folgen Sie diesen Schritten:
- Stellen Sie sicher, dass Node.js auf Ihrem System installiert ist. Sie können es hier herunterladen: Offizielle Website von Node.j..
- Sobald Sie Node.js haben, öffnen Sie Ihr Terminal und führen Sie den folgenden Befehl aus, um Puppeteer zu installieren:
1 | npm Puppenspieler installieren |
Dieser Befehl installiert Puppeteer zusammen mit Chromium, das Puppeteer zum Ausführen eines Headless-Browsers zum Scraping von Websites verwendet.
Einrichten Ihres Projekts
Puppeteer ist installiert. Richten Sie nun Ihren Projektordner ein und initialisieren Sie Node.js. Folgen Sie diesen Schritten:
- Erstellen Sie ein neues Verzeichnis für Ihr Projekt:
1 | mkdir Forbes-Schaber |
- Initialisieren Sie ein neues Node.js-Projekt, indem Sie den folgenden Befehl ausführen:
1 | npm init -y |
Dieser Befehl erstellt eine package.json
Datei, die Ihre Projektabhängigkeiten verwaltet.
Damit ist die Einrichtung Ihrer Forbes-Scraping-Umgebung abgeschlossen. Als Nächstes beginnen wir mit dem Schreiben des Puppeteer-Scrapers.
Forbes mit Puppeteer scrapen
Nachdem wir unsere Umgebung eingerichtet haben, beginnen wir mit dem Scraping von Forbes mit Puppeteer. In diesem Abschnitt untersuchen wir das HTML, schreiben den Scraper, verarbeiten dynamische Inhalte und speichern die Scraping-Daten in einer JSON-Datei. Für dieses Beispiel scrapen wir die Forbes-Liste der weltweit größten Milliardäre 2024.
Überprüfen der HTML-Struktur
Bevor wir den Scraper schreiben, untersuchen wir das HTML der Forbes-Website. Dies hilft uns dabei, die Schlüsselelemente zu identifizieren, die die Daten enthalten.
Überprüfung der Seite mit der Milliardärsliste
- Besuchen Sie die Seite: Gehen Sie zur Forbes-Liste der weltweit größten Milliardäre.
- Öffnen Sie die Entwicklertools: Klicken Sie mit der rechten Maustaste irgendwo auf die Seite und wählen Sie „Untersuchen“ oder drücken Sie
Ctrl+Shift+I
um die Entwicklertools zu öffnen.
- Suchen Sie nach Schlüsselelementen:
- Namen/Links von Milliardären: Normalerweise enthalten in
<a>
Tags mit Klassen wiecolor-link
. Hier erhalten Sie den Link zum Profil jedes Milliardärs.
Das Profil jedes Milliardärs auswerten
- Zu einem Profil navigieren: Klicken Sie auf einen Link in der Liste, um die Profilseite des Milliardärs zu öffnen.
- Öffnen Sie die Entwicklertools: Klicken Sie mit der rechten Maustaste irgendwo auf die Seite und wählen Sie „Untersuchen“ oder drücken Sie
Ctrl+Shift+I
um die Entwicklertools zu öffnen.
- Wichtige Elemente, auf die Sie achten sollten:
- Rang: Suchen Sie nach dem Rang, normalerweise innerhalb eines
<div>
or<span>
mit einer Klasse wielistuser-item__list--rank
. - Name: Normalerweise innerhalb eines Header-Tags, wie
<h1>
mit einer Klasse wielistuser-header__name
. - Organisation: Gefunden in einem
<a>
or<span>
Element mit organisationsbezogenen Klassen. - Net Worth: Normalerweise innerhalb eines
<div>
mit Klassen wieprofile-info__item-value
. - Biografie: Oft in einer ungeordneten Liste zu finden (
<ul>
)-Element. - Zusätzliche Daten: Titel und Texte finden sich in Elementen mit Klassen wie
profile-stats__title
undprofile-stats__text
.
Den Puppenspieler-Schaber schreiben
Jetzt können wir den Puppeteer-Scraper schreiben. Der folgende Code zeigt, wie man Puppeteer startet, die Forbes-Seite öffnet und wichtige Datenpunkte scrapt.
Beispielcode:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Speichern von Daten in einer JSON-Datei
Sobald die Daten gescrapt sind, müssen wir sie für die spätere Verwendung in einem strukturierten Format wie JSON speichern.
Beispielcode:
1 | async Funktion DatenInDateispeichern(Daten, Dateiname = „forbes_billionaires.json“) { |
Dadurch werden alle gescrapten Artikel in einem forbes_billionaires.json
Datei, sodass die Daten in Zukunft leicht zugänglich und verwendbar sind.
Vollständiges Codebeispiel
Hier ist der vollständige Code, der alle Schritte kombiniert:
1 | const Puppenspieler = erfordern('Puppenspieler'); |
Beispielausgabe:
1 | [ |
Im nächsten Abschnitt besprechen wir, wie man Forbes Scraping mit Crawlbase optimieren kann. Crawling API.
Optimieren Sie Forbes Scraping mit Crawlbase Crawling API
Puppeteer eignet sich hervorragend zum Scrapen dynamischer Websites, ist jedoch langsam, wenn es um große Datenmengen oder JavaScript-lastige Seiten wie Forbes geht. Um Scraping und Leistung zu optimieren, können wir Folgendes verwenden: Crawlbase Crawling API, das die Handhabung von mit JavaScript gerenderten Inhalten vereinfacht und mehr Kontrolle und Effizienz bietet.
Einführung in Crawlbase Crawling API
Crawlbase Crawling API umgeht gängige Web Scraping-Herausforderungen wie CAPTCHAs, dynamisches Laden von Inhalten und komplexe HTML-Strukturen. Für das Scraping bietet Forbes Crawlbase eine optimierte Lösung, indem es die JavaScript-Darstellung direkt übernimmt, was es zu einer effizienteren Alternative zu Puppeteer für große Scraping-Projekte macht.
Warum Crawlbase für Forbes Scraping verwenden?
- Verarbeitet dynamische Inhalte: Optimiert für JavaScript-lastige Seiten wie Forbes.
- Verbesserte Geschwindigkeit und Skalierbarkeit: Keine Headless-Browser erforderlich, schnelleres Scraping.
- Vereinfacht den Prozess: Einfache API-Aufrufe zum Scraping von Daten, integrierte CAPTCHAs und Anti-Scraping-Mechanismen.
So verwenden Sie Crawlbase mit Forbes
Um Forbes mit Crawlbase zu scrapen, müssen Sie sich anmelden und Ihr API-Token erhalten. So können Sie loslegen:
- Melden Sie sich bei Crawlbase an: Erstellen Sie ein Konto auf Crawlbase und holen Sie sich Ihr API-Token. Sie benötigen ein JS-Token für Forbes.
- Crawlbase-Bibliothek installieren: Installieren Sie in Ihrer Node.js-Umgebung die Crawlbase Crawling API Bibliothek mit:
1 | npm installiere Crawlbase |
- Richten Sie Ihre Anfrage ein: Initialisieren Sie die Crawlbase-API mit Ihrem Token und führen Sie GET-Anfragen durch, um Forbes-Daten zu scrapen.
Codebeispiel mit Crawlbase
Hier ist ein Codebeispiel, das die Crawlbase-JavaScript-Bibliothek verwendet, um Forbes-Daten effizienter zu scrapen:
Beispielcode:
1 | const { CrawlingAPI } = erfordern(„Crawlbase“); |
Erklärung des Kodex:
- Crawlbase initialisieren:
CrawlingAPI
wird mit Ihrem Crawlbase-Token initialisiert, um auf die API zum Scraping zuzugreifen. - Anfrage erhalten: Wir gebrauchen
api.get()
um die Forbes-URL zu scrapen. Wir verwendenajax_wait
undpage_wait
um sicherzustellen, dass alle dynamischen Inhalte geladen werden. - HTML-Analyse: Wir gebrauchen
cheerio
um das HTML zu analysieren und wichtige Datenpunkte zu extrahieren. - Datenspeicher: Die extrahierten Daten werden in einer JSON-Datei gespeichert.
Auf diese Weise ist das Scraping von Forbes effizienter, Crawlbase übernimmt das JavaScript-Rendering und komplexe Inhaltsstrukturen.
Optimieren Sie Forbes Scraping mit Crawlbase
Ob Sie Geschäftstrends, Finanznachrichten oder Top-Unternehmensrankings analysieren, das Scraping von Daten aus Forbes kann sehr nützlich sein. Tools wie Puppeteer eignen sich zwar hervorragend für die Verarbeitung von JavaScript-gerenderten Seiten, sind jedoch zeitaufwändig und ressourcenintensiv. Mit Crawlbase Crawling API vereinfacht den Vorgang und beschleunigt das Scraping dynamischer Inhalte.
Folgen Sie dieser Anleitung, um Forbes-Daten zu scrapen und Ihre Projekte mit Crawlbase zu skalieren. Diese Methode ist eine zuverlässige und optimierte Methode, um Websites wie Forbes zu scrapen. Wenn Sie Ihre Web-Scraping-Fähigkeiten erweitern möchten, sollten Sie unsere folgenden Anleitungen zum Scrapen anderer wichtiger Websites lesen.
📜 So scrapen Sie Monster.com
📜 Wie man Groupon scrapt
📜 So scrapen Sie TechCrunch
📜 Wie man Clutch.co scrapt
Bei Fragen oder Anregungen steht Ihnen unser Support-Team steht Ihnen jederzeit zur Verfügung, um Sie bei Ihrem Web Scraping-Vorhaben zu unterstützen. Viel Spaß beim Scraping!
Häufig gestellte Fragen
F: Kann ich Daten aus Forbes extrahieren?
Ja, es ist möglich, Daten von Forbes zu extrahieren. Das Scraping jeder Website, einschließlich Forbes, sollte in Übereinstimmung mit deren Nutzungsbedingungen erfolgen. Überprüfen Sie immer die robots.txt
Datei und stellen Sie sicher, dass Sie keine Bedingungen bezüglich der Datenextraktion verletzen. Die Verwendung von APIs wie Crawlbase hilft Ihnen dabei, effizient zu scrapen und gleichzeitig Best Practices einzuhalten.
F. Warum sollte ich Crawlbase verwenden? Crawling API statt Puppeteer zum Scrapen von Forbes?
Puppeteer ist zwar ein leistungsstarkes Tool für die Verarbeitung von JavaScript-Rendering, kann jedoch langsam und ressourcenintensiv sein. Crawlbase Crawling API vereinfacht den Prozess, indem es vorkonfigurierte Optionen für die Handhabung dynamischer Inhalte anbietet, was das Scraping beschleunigt und den Aufwand für die manuelle Verwaltung von Browser-Sitzungen reduziert.
F: Wie kann ich beim Scraping mit dynamischen Inhalten auf Forbes umgehen?
Forbes verwendet JavaScript, um einen Großteil seiner Inhalte dynamisch zu laden. Mit Puppeteer oder Crawlbase Crawling API mit Optionen wie ajax_wait
und page_wait
können Sie sicherstellen, dass der Inhalt vor dem Scraping vollständig geladen ist. Dadurch wird sichergestellt, dass Sie alle relevanten Daten von der Seite erfassen.