Alles begann mit der Veröffentlichung der ersten Version von ChatGPT im Jahr 2022. Seitdem hat der Einsatz von KI exponentiell zugenommen, und immer mehr Menschen integrieren sie in ihre täglichen Aufgaben im Beruf und Privatleben. Wer diese Vorteile nicht nutzt, verpasst definitiv etwas.
In diesem Blog zeigen wir Ihnen einige der vielen Dinge, die Sie erreichen können, wenn Sie Crawlbase Scraping von Ergebnissen mit generativen KIs wie ChatGPT. Wir zeigen Ihnen, wie Sie die Funktionen nutzen, um Webdaten automatisch mit KI zusammenzufassen und Visualisierungen wie Kreis-, Balken- und Liniendiagramme für Ihren Datenberichtsworkflow zu erstellen.
Inhaltsverzeichnis
Generative KI und ihre Fähigkeiten
Eine generative KI analysiert und organisiert nicht nur Daten; sie kann auch weitaus komplexere Aufgaben übernehmen, beispielsweise die Erstellung neuer Inhalte in verschiedenen Formen, darunter Text, Bilder, Code, Audio und sogar Videos. Dies ist möglich, weil sie Strukturen und Muster aus den trainierten Daten lernt und erkennt. So kann sie Ergebnisse generieren, die denen einer realen Person ähneln.
Herkömmliche Web Scraper hingegen nutzen statische Regeln und Selektoren wie CSS-Klassen und IDs, um Daten von Websites zu extrahieren. Diese regelbasierten Tools haben oft Probleme mit dynamischen, JavaScript-lastigen Websites und erfordern häufige manuelle Anpassungen. Im Gegensatz dazu können sich generative KI und KI-gestützte Tools an veränderte Website-Strukturen anpassen und dynamische Inhalte effektiver verarbeiten, wodurch die Einschränkungen herkömmlicher Web Scraper überwunden werden.
Wenn es beispielsweise anhand großer Textmengen trainiert wird, kann es Blogbeiträge verfassen, Artikel zusammenfassen, Fragen beantworten oder sogar Geschichten und Gedichte erzählen. Wenn es anhand von Bildern trainiert wird, kann es Kunstwerke schaffen, die denen echter Künstler in nichts nachstehen. Es kann realistische Fotos von Personen oder Objekten erstellen, die gar nicht existieren.
Generative KI wird bereits in vielen Bereichen eingesetzt. Marketingfachleute nutzen sie zur Ideenfindung für Inhalte und Entwickler zum Schreiben und Verbessern von Code. Forscher nutzen sie, um komplexe Probleme zu untersuchen oder Daten zu simulieren, wenn keine realen Daten verfügbar sind.
Besonders spannend ist, wie einfach sich KI mittlerweile in Python und andere Programmiertools integrieren lässt. Mit nur wenigen Skriptzeilen können Sie die KI nicht nur Ihre Daten zusammenfassen lassen, sondern sie auch anweisen, Balkendiagramme zu zeichnen, Kreisdiagramme zu generieren oder Routineanalysen zu automatisieren. Dies verwandelt die KI von einem virtuellen Assistenten in einen vollwertigen Datenanalysten, insbesondere in Kombination mit Crawlbase.
Warum Webdaten mit KI zusammenfassen?
Wenn Sie nur eine kleine Menge an Webdaten betrachten, können Sie diese möglicherweise ohne großen Aufwand selbst zusammenfassen. Sobald die Daten jedoch größer oder komplexer werden und Sie mehr als nur ein paar Webseiten bearbeiten, wird die manuelle Bearbeitung mühsam, zeitaufwändig und es schleichen sich Fehler ein. Dank der Fortschritte in der generativen KI müssen Sie sich diesen Aufwand nicht mehr machen. Die Vorteile sind kaum zu übersehen.
- Geschwindigkeit und Maßstab: KI kann Tausende von Datenpunkten in nur wenigen Sekunden verarbeiten. Was Sie oder sogar ein ganzes Team Stunden oder einen ganzen Tag kosten würde, kann nahezu augenblicklich erledigt werden.
- Konsistenz: Menschen werden müde, machen Fehler und sehen dieselben Daten manchmal unterschiedlich. KI wendet auf jedes Dokument denselben Algorithmus und dieselben Kriterien an, sodass Ihre Ergebnisse unabhängig von der Häufigkeit der Analyse konsistent bleiben.
- Muster erkennen: KI-Modelle sind nicht nur schnell, sondern zeichnen sich auch durch hervorragende Mustererkennung aus. Sie können Trends, Muster oder Ausreißer in Ihren Daten finden, die Ihnen wahrscheinlich nicht sofort auffallen würden. So können sie beispielsweise eine leichte Veränderung der Kundenstimmung erkennen, bevor diese sich auf Ihr Produkt auswirkt.
- Automatische Berichterstattung: Einer der größten Vorteile besteht darin, dass KI klare Zusammenfassungen erstellen und leicht verständliche Visualisierungen wie Diagramme und Grafiken generieren kann. So sehen Sie sofort, was mit Ihren Daten passiert.
Unabhängig von Ihrem Fachgebiet: Wenn Sie wertvolle Erkenntnisse aus großen Webdatenmengen gewinnen möchten, ohne stundenlang in Tabellenkalkulationen zu arbeiten, ist die Datenzusammenfassung mithilfe von KI eine innovative Lösung. KI kann relevante Daten aus großen Datensätzen automatisch identifizieren und extrahieren, sodass Sie sich ausschließlich auf die wichtigsten Informationen konzentrieren können. Mit KI-generierten Zusammenfassungen und Visualisierungen können Sie Rohdaten schnell in umsetzbare Erkenntnisse umwandeln.
So kombinieren Sie Crawlbase mit Generativer KI
KI ist nur so gut wie die Daten, die ihr zur Verfügung gestellt werden. Deshalb Crawlbase und generative KI, wie ChatGPT, ergänzen sich perfekt. Crawlbase ermöglicht Ihnen das Scrapen von Webdaten in großem Umfang, egal ob es sich um Produktinformationen, Bewertungen oder öffentliche Online-Inhalte handelt. Web-Scraping-Tools, insbesondere KI-Web-Scraping-Tools wie Crawlbasesind darauf ausgelegt, Daten effizient von einer Vielzahl von Websites zu extrahieren. Stellen Sie sich ChatGPT als die Engine vor, die alle Informationen sammelt, während ChatGPT das Gehirn ist, das sie verarbeitet.
Wenn Sie beides kombinieren, erhalten Sie ein End-to-End-System, das einige ziemlich erstaunliche Dinge leisten kann:
- Crawlbase ruft die benötigten Daten sauber, strukturiert und schnell ab.
- Python-Skripte organisieren diese Daten in etwas Nutzbares, wie zum Beispiel ein Pandas DataFrame.
- ChatGPT (oder ein beliebiges LLM) liest dann alles durch und gibt Ihnen eine Zusammenfassung in natürlicher Sprache, eine Trendanalyse oder sogar formatierte Berichte.
- Schließlich können Sie mit nur wenigen weiteren Codezeilen Visualisierungen erstellen und Dateien (Diagramme, Grafiken, CSVs) exportieren.
KI-Web-Scraper können komplexe Website-Strukturen verarbeiten und den Datenextraktionsprozess automatisieren, wodurch die Datenextraktion von Websites, die dynamische Inhalte oder Anti-Scraping-Maßnahmen verwenden, vereinfacht wird.
Wenn Sie Python-Skripte schreiben können, können Sie beginnen mit Crawlbase und ChatGPT zusammen, um Erkenntnisse zu automatisieren, für die früher ein ganzes Team erforderlich war. So geht's.
Einrichten Crawlbase und ein OpenAI-Konto
Schritt 1. Beginnen Sie mit Erstellen eines kostenlosen Kontos on Crawlbase und melden Sie sich in Ihrem Dashboard an. Sobald Sie angemeldet sind, erhalten Sie automatisch 1,000 kostenlose API-Anfragen, sodass Sie sofort mit dem Testen beginnen können. Oder vor dem Testen: Fügen Sie Ihre Rechnungsdetails hinzu für zusätzliche 9,000 Gratis-Credits.
Schritt 2. Gehe zum Kontodokumentation und kopieren Sie Ihr normales Anforderungstoken, da Sie es später benötigen, wenn wir mit dem Schreiben des Codes beginnen.
Schritt 3. Registrieren Sie sich oder melden Sie sich an unter OpenAI. Sie bieten bei der ersten Anmeldung kostenlose Testguthaben an, dieses Angebot ist jedoch nicht garantiert und kann sich ändern.
Schritt 4. Klicken Sie unter Organisation auf der linken Seite Ihres Bildschirms auf API-Schlüssel und Sie sollten dort eine Option sehen, um „Neuen geheimen Schlüssel erstellen“.
Hinweis: Wenn Sie keine kostenlosen Credits erhalten haben, erkundigen Sie sich bei Ihrem Unternehmen oder Ihrer Organisation, ob dort ein kostenpflichtiges OpenAI-Konto vorhanden ist und Sie einen API-Schlüssel erhalten können.
Bereiten Sie Ihre Python-Umgebung vor
Mit Ihrer Crawlbase Sobald Ihre Anmeldeinformationen bereit sind, können wir uns auf die Einrichtung Ihrer Programmierumgebung konzentrieren. Folgen Sie den unten stehenden Schritten.
Schritt 1. Laden Sie Python 3 herunter und installieren Sie es von python.org.
Schritt 2. Wählen Sie einen Speicherort auf Ihrem Computer aus und erstellen Sie einen neuen Ordner, um alle Dateien für dieses Projekt zu speichern.
Schritt 3. Richten Sie Ihre Abhängigkeiten ein. Erstellen Sie in Ihrem Projektordner eine Datei mit dem Namen requirements.txt
und füge folgende Zeilen hinzu:
1 | Zugriffe |
Schritt 4. Öffnen Sie ein Terminal oder eine Eingabeaufforderung, navigieren Sie zu Ihrem Projektordner und führen Sie Folgendes aus:
1 | python -m pip install -r requirements.txt |
Dadurch werden die erforderlichen Bibliotheken für die Datenerfassung, -analyse, -visualisierung und die Arbeit mit ChatGPT installiert.
Abrufen von Daten mit Crawlbase
In diesem Beispiel verwenden wir Crawlbase um eine Liste der meistverkauften Elektronikprodukte von Amazon zu extrahieren.
Wir werden das benutzen Amazon Bestseller Scraper, der sauberes, strukturiertes JSON zurückgibt, sodass Sie sich keine Gedanken über chaotisches HTML-Parsing machen müssen.
Schritt 1. Erstellen Sie eine neue Datei mit dem Namen web_data.py
. Dieses Skript ist für das Abrufen der Produktdaten und die Handhabung der Seitennummerierung verantwortlich.
Schritt 2. Speichern Sie den folgenden Code darin web_data.py
:
1 | von Anfragen.Ausnahmen importieren RequestException |
Schritt 3. Um das Skript auszuführen, öffnen Sie einfach ein Terminal, navigieren Sie zu Ihrem Projektordner und führen Sie Folgendes aus:
1 | python web_data.py |
In wenigen Sekunden wird ein JSON-Array mit Produkten auf Ihrem Terminal angezeigt. Hier ist ein verkürztes Beispiel:
1 | [ |
Diese Daten können nun an einen Pandas DataFrame übergeben, mit ChatGPT zusammengefasst und mithilfe von Diagrammen visualisiert werden. Wie das geht, zeigen wir Ihnen im nächsten Abschnitt.
Verwenden von ChatGPT mit Python-Bibliotheken
Unser nächstes Ziel ist die Bereinigung und Organisation der von uns gesammelten Rohproduktdaten mithilfe von Crawlbase. Um dies zu erreichen, verwenden wir die Pandas-Bibliothek, die die Organisation von Daten in einem strukturierten Format erleichtert, sodass wir Daten mit ChatGPT effizient filtern, sortieren, Werte extrahieren und analysieren können.
Schritt 1. Nehmen Sie das von zurückgegebene Produkt-JSON Crawlbase und laden Sie es in einen Pandas DataFrame. Erstellen Sie eine neue Datei mit dem Namen data_frame.py
und fügen Sie den folgenden Code hinzu:
1 | von Crawl_Webdaten importieren crawl_amazon_bestsellers_products |
Dieses Skript extrahiert Produktdaten aus Crawlbase, analysiert die Bewertung und den Preis in numerische Werte und fügt eine einfache Kategoriespalte hinzu (die Sie später ändern können).
Schritt 2. Öffnen Sie Ihr Terminal und führen Sie aus:
1 | python data_frame.py |
Sie sehen eine strukturierte Tabelle auf der Konsole. Hier ist ein Beispielausschnitt der Ausgabe:

Schritt 3. Verwenden Sie das GPT-Modell von OpenAI, um die Trends Ihrer Daten zu analysieren und zusammenzufassen. Erstellen Sie eine neue Datei mit dem Namen summary.py
und fügen Sie den folgenden Code ein:
1 | von öffnen importieren OpenAI, OpenAIError, APIStatusError, RateLimitError, BadRequestError, APIConnectionError, Timeout |
Stellen Sie sicher, zu ersetzen <OpenAI API Key>
mit Ihrem aktuellen API-Schlüssel von OpenAI.
Schritt 4. Führen Sie in Ihrem Terminal Folgendes aus:
1 | Python-Zusammenfassung.py |
Die Ausgabe sieht ungefähr so aus:
1 | KI-generierte Trendzusammenfassung: |
So generieren Sie Visualisierungen aus KI-Webdaten
Nachdem wir unsere Produktdaten in einem Pandas DataFrame strukturiert haben, können wir noch einen Schritt weiter gehen, indem wir Visualisierungen erstellen, die Trends, Muster und Ausreißer auf verständlichere Weise hervorheben.
Für unser nächstes Ziel verwenden wir Matplotlib Python-Bibliothek um Datenvisualisierungsdiagramme aus den Amazon-Bestsellerdaten zu erstellen, die wir zuvor extrahiert haben.
Schritt 1. Erstellen Sie eine neue Datei und benennen Sie sie visualization.py
, und fügen Sie dann den folgenden Code hinzu:
1 | von Datenrahmen importieren Datenrahmen generieren |
Der Code in visualization.py
besteht aus drei Teilen:
- Es lädt die Produktdaten in einen Pandas DataFrame.
- Erstellt zwei Diagramme: ein Balkendiagramm, das die Anzahl der Bewertungen pro Produkt anzeigt, und ein Streudiagramm, das die Beziehung zwischen Bewertungen, Bewertungsvolumen und Preis zeigt.
- Speichert die Daten als CSV-Datei zur späteren Verwendung oder Berichterstellung.
Schritt 2. Führen Sie das Skript aus.
1 | Python-Visualisierung.py |
Dadurch werden drei Ausgaben generiert:
- Bewertungen_Balkendiagramm.png

- Bewertung_vs_Bewertungen.png

- amazon_best_sellers_summary.csv

Herzlichen Glückwunsch! Sie haben erfolgreich Zusammenfassungen und Diagramme erstellt, mit denen Sie Trends leichter erkennen, Leistungen vergleichen und Ihre Analysen mit klaren, datenbasierten Visualisierungen untermauern können.
Hinweis: Sie können auf die gesamte Codebasis zugreifen unter GitHub.
Zusätzliche Tipps zur Automatisierung der Datenberichterstattung
Planen Sie die automatisierte Datenerfassung
Verwenden Sie ein Tool wie Cron (unter Mac oder Linux) oder den Taskplaner (unter Windows). So kann Ihr Code täglich, wöchentlich oder wann immer es Ihnen passt, automatisch ausgeführt werden, ohne dass Sie etwas tun müssen. Ideal, wenn Sie sich für Trends interessieren oder jeden Morgen aktuelle Daten sehen möchten.
Verwenden Sie vorab bereitgestellte KI-Anweisungen
Anstatt jedes Mal eine neue Eingabeaufforderung einzugeben, speichern Sie wiederverwendbare KI-Eingabeaufforderungen in Ihrem Skript. So erstellen Sie konsistente Zusammenfassungen, Trendberichte oder sogar Erklärungen in einfachem Englisch, die auch von nicht-technischen Teammitgliedern gelesen werden können.
Datenqualitätsprüfungen hinzufügen
Führen Sie vor dem Speichern oder Visualisieren der Daten immer einige Sicherheitsüberprüfungen durch.
- Wurde Ihre Produktliste tatsächlich geladen oder ist sie leer?
- Fehlen wichtige Zahlen, wie Preise oder Bewertungen?
- Sind die Daten kleiner als normal?
Webseiten ändern ihr Layout oft ohne Vorwarnung. Diese Überprüfungen können Ihnen stundenlange Verwirrung ersparen.
Nutzen Sie alle Vorteile aus Crawlbase Eigenschaften
Der Crawling API von Crawlbase ist ein zuverlässiges Tool zur Datenextraktion und sorgt für zuverlässige und präzise Ergebnisse für Ihre Projekte. Nutzen Sie die folgenden Vorteile:
- Normale und JavaScript-Anfragen - Sie können zwei Arten von Token verwenden. Verwenden Sie das normale Token für Websites, die zum Rendern von Inhalten nicht auf JavaScript angewiesen sind. Verwenden Sie das JavaScript-Token, wenn der benötigte Inhalt über JavaScript generiert wird, entweder weil er mit Frameworks wie React oder Angular erstellt wurde oder weil die Daten erst angezeigt werden, nachdem die Seite vollständig im Browser geladen wurde. Crawlbase kann JavaScript-lastige Websites verarbeiten und eignet sich daher zum Extrahieren von Daten aus dynamischen, JavaScript-reichen Seiten.
- Daten-Scraper - In diesem Blog haben wir „amazon-bestsellers“ verwendet. Aber Crawlbase bietet viele weitere Scraper, die auf bestimmte Websites und Datentypen zugeschnitten sind. Wenn Sie dieses Projekt auf andere Plattformen ausweiten möchten, sehen Sie sich die vollständige Liste der verfügbaren Scraper an. Daten-Scraper auf Ihrem Crawlbase Instrumententafel.
- Holen Sie sich zusätzliche kostenlose Credits - Wie bereits erwähnt, können Sie insgesamt 10,000 Credits kostenlos erhalten, indem Sie sich anmelden und sofort Hinzufügen Ihrer RechnungsdetailsDies ist eine großartige Möglichkeit, zu erkunden CrawlbaseDas volle Potenzial von schöpfen und umfangreiche Tests durchführen, bevor Sie eine langfristige Verpflichtung eingehen.
Für unternehmensweite oder komplexe Scraping-Anforderungen steht dedizierter Support zur Verfügung, der bei der Einrichtung, benutzerdefinierten Lösungen und laufenden Wartung hilft. Registrieren Sie sich bei Crawlbase jetzt an!
Häufig gestellte Fragen
F: Benötige ich eine kostenpflichtige OpenAI- oder Crawlbase Konto?
A: Beide Plattformen bieten eine kostenlose Testversion an. Für höhere Limits, unbegrenzte Seiten oder erweiterte Funktionen können Sie auf kostenpflichtige Tarife upgraden, die individuelle Preisoptionen für Ihre Unternehmensanforderungen beinhalten.
F: Kann ich andere Websites als Amazon scrapen?
A: Ja. Crawlbase Unterstützt das Scraping jeder öffentlichen Webseite. Sie können den URL-Parameter ändern und Ihre Scraping-Strategie je nach Struktur der Website sogar anpassen.
F: Was ist, wenn ich nicht produktbezogene Daten wie Blogbeiträge oder Rezensionen zusammenfassen möchte?
A: Das funktioniert auch. Solange Sie den Text extrahieren können, können Sie ihn in ChatGPT eingeben und Zusammenfassungen, Hervorhebungen oder Kategorievorschläge erhalten.
F: Kann ich dies in einem geschäftlichen Umfeld verwenden?
A: Ja, dieses Setup eignet sich ideal für verschiedene Geschäftsanwendungen wie Marktforschung, Wettbewerbsanalyse, Preisüberwachung, Verfolgung von Wettbewerbspreisen, Analyse von Preisstrategien, Überwachung von Stellenausschreibungen und Datenextraktion aus der Google-Suche und Google Maps. Web Scraper und Datenanalysten nutzen diese Web Scraping-Tools, um komplexe Workflows zu automatisieren, komplexe Websites zu navigieren und umfangreiche Daten-Scraping-Projekte zu verwalten.
F: Welche technischen Funktionen und Technologien werden für AI Web Scraping unterstützt?
A: Diese Plattformen nutzen KI-Webtechnologien, darunter maschinelles Lernen, umfangreiche Sprachmodelle und natürliche Sprachverarbeitung, um den Extraktionsprozess zu automatisieren und sich an Website-Änderungen anzupassen. Sie können Daten scrapen, menschliches Verhalten emulieren, um IP-Blockierungen zu umgehen, und die automatisierte Datenextraktion aus mehreren URLs unterstützen. Crawlbase ist für das Scraping von Daten von komplexen Websites, die Verwaltung komplexer Arbeitsabläufe und die Ausgabe strukturierter Formate zur weiteren Analyse konzipiert.