Wenn Sie nach tollen Angeboten für Produkte, Erlebnisse und Coupons suchen, ist Groupon eine Top-Plattform. Mit Millionen aktiver Benutzer und Tausenden von täglichen Angeboten hilft Groupon Menschen, Geld zu sparen, während sie Aktivitäten wie Essen, Reisen und Einkaufen genießen. Durch das Scraping von Groupon können Sie auf wertvolle Daten zu diesen Angeboten zugreifen, sodass Sie über die neuesten Angebote auf dem Laufenden bleiben oder sogar Ihre eigene Anwendung zur Angebotsverfolgung erstellen können.
In diesem Blog werden wir untersuchen, wie man einen leistungsstarken Groupon Scraper in Python erstellt, um die heißesten Angebote und Coupons zu finden. Da Groupon JavaScript verwendet, um seinen Inhalt dynamisch darzustellen, funktionieren einfache Scraping-Methoden nicht effizient. Um dies zu bewältigen, nutzen wir die Crawlbase Crawling API, das nahtlos mit JavaScript-Rendering und anderen Herausforderungen meistert.
Lassen Sie uns eintauchen und Schritt für Schritt lernen, wie Sie bei Groupon nach Angeboten und Coupons suchen.
Inhaltsverzeichnis
- Warum Groupon-Angebote und -Coupons scrapen?
- Wichtige Datenpunkte zum Extrahieren aus Groupon
- Crawlbase Crawling API für Groupon Scraping
- Warum Crawlbase verwenden? Crawling API?
- Crawlbase Python-Bibliothek
- Python installieren
- Einrichten einer virtuellen Umgebung
- Erforderliche Bibliotheken installieren
- Auswahl der richtigen IDE
- Die Website-Struktur von Groupon verstehen
- Den Groupon Scraper schreiben
- Umgang mit Paginierung
- Speichern von Daten in einer JSON-Datei
- Vollständiges Codebeispiel
- Überprüfen der HTML-Struktur
- Den Groupon Coupon Scraper schreiben
- Speichern von Daten in einer JSON-Datei
- Vollständiges Codebeispiel
Warum Groupon-Angebote und -Coupons scrapen?
Durch das Scraping von Groupon-Angeboten und -Coupons behalten Sie den Überblick über die neuesten Rabatte und Angebote. Groupon veröffentlicht täglich viele Angebote, sodass es schwierig ist, sie alle manuell zu überprüfen. Ein guter Groupon Scraper übernimmt diese Aufgabe für Sie, indem er Angebote aus Bereichen wie Lebensmittel, Reisen, Elektronik und mehr sammelt und untersucht.
Durch Groupon Scraping können Sie wichtige Informationen abrufen, z. B. was das Angebot ist, wie viel es kostet, wie hoch der Rabatt ist und wann es endet. Dies bietet Vorteile für Unternehmen, die beobachten möchten, was ihre Konkurrenten anbieten, für Entwickler, die eine Website erstellen, auf der Angebote aufgelistet werden, oder für alle, die einfach nur die besten Schnäppchen finden möchten.
Unser Ziel ist es, Groupon-Angebote und -Coupons produktiv zu scrapen, alle wichtigen Informationen herauszuholen und gleichzeitig Probleme wie Inhalte zu lösen, die von selbst geladen werden. Da Groupon auf JavaScript angewiesen ist, um seine Inhalte anzuzeigen, benötigen herkömmliche Scraping-Methoden Hilfe beim Abrufen der Daten. Hier kommt unsere Lösung ins Spiel, die von Crawlbase unterstützt wird. Crawling API, ist praktisch. Es ermöglicht uns, ohne große Anstrengung Geschäfte abzuschließen, indem wir diese üblichen Hindernisse umgehen.
In den folgenden Abschnitten sehen wir uns die wichtigsten Informationen an, die wir von Groupon abrufen können, und bereiten unser Setup für einen reibungslosen Datenerfassungsprozess vor.
Wichtige Datenpunkte zum Extrahieren aus Groupon
Wenn Sie einen Groupon Scraper verwenden, müssen Sie die kritischen Daten ermitteln, die Ihre Scraping-Arbeit ausmachen. Groupon bietet unzählige Angebote in verschiedenen Kategorien, und das Herausziehen der richtigen Informationen kann Ihnen helfen, das Beste aus Ihrem Scraping-Projekt herauszuholen. Hier ist, worauf Sie sich beim Scraping von Groupon konzentrieren sollten:
- Deal-Titel: Der Name oder Titel eines Deals fällt zuerst auf. Er gibt einen schnellen Überblick über das Angebot.
- Beschreibungen der Angebote: Ausführliche Beschreibungen bieten mehr Details zum Produkt oder zur Dienstleistung und helfen den Leuten zu verstehen, was das Angebot beinhaltet.
- Originalpreise und reduzierte Preise: Diese spielen eine entscheidende Rolle beim Verständnis der verfügbaren Einsparungen. Indem Sie sowohl den ursprünglichen Preis als auch den ermäßigten Preis erhalten, können Sie den Prozentsatz der Ersparnis berechnen.
- Rabattprozentsatz: Bei vielen Groupon-Angeboten wird der prozentuale Rabatt sofort angezeigt. Wenn Sie diesen Datenpunkt erhalten, sparen Sie Zeit, die Ersparnis selbst zu ermitteln.
- Ablaufdatum des Deals: Wenn Sie wissen, wann ein Angebot endet, können Sie alte Angebote herausfiltern. Wenn Sie das Ablaufdatum kennen, können Sie sicherstellen, dass Sie aktive Angebote sehen.
- Deal-Standort: Bestimmte Angebote gelten für bestimmte Gebiete. Wenn Sie Standortinformationen abrufen, können Sie die Angebote nach Region sortieren, was bei lokalen Marketingbemühungen sehr hilfreich ist.
- Angebotskategorie: Groupon ordnet die Angebote in Gruppen wie Lebensmittel, Reisen, Elektronik usw. ein. Durch das Erfassen von Kategoriedetails können die Angebote einfach zu Studien- oder Anzeigezwecken aufgeschlüsselt werden.
- Bewertungen und Rezensionen: Die Aussagen und Bewertungen der Kunden zeigen, wie beliebt und vertrauenswürdig ein Angebot ist. Diese Informationen sind hilfreich bei der Beurteilung der Qualität von Angeboten.
Indem Sie sich auf diese Schlüsseldaten konzentrieren, können Sie sicherstellen, dass Ihr Groupon Scraping Ihnen nützliche und wichtige Informationen liefert. In den nächsten Teilen erfahren Sie, wie Sie Ihre Tools einrichten und einen Scraper erstellen, der auf gute Weise Angebote von Groupon abrufen kann.
Crawlbase Crawling API für Groupon Scraping
Die Arbeit an einem Groupon Scraper-Projekt kann schwierig sein, wenn Sie mit sich ändernden Inhalten und JavaScript arbeiten müssen, das Dinge lädt. Die Website von Groupon verwendet viel JavaScript, um Angebote und Deals anzuzeigen. Sie müssen also mehr als nur einfache Anfragen stellen, um die gewünschten Daten zu erhalten. Hier kommt der Crawlbase Crawling API ist praktisch. Die Crawlbase Crawling API hilft Ihnen, diese Probleme zu vermeiden und Daten aus Groupon zu extrahieren, ohne auf Probleme mit dem Laden von JavaScript, CAPTCHA oder der IP-Blockierung zu stoßen.
Warum Crawlbase verwenden? Crawling API?
- Behandeln Sie das JavaScript-Rendering: Die größte Hürde beim Abrufen von Angeboten von Groupon ist die Handhabung von Inhalten, die JavaScript erstellt. Die API von Crawlbase kümmert sich um JavaScript, sodass Sie Daten abrufen können.
- Vermeiden Sie IP-Blockierungen und CAPTCHAs: Wenn Sie zu viel Daten sammeln, blockiert Groupon möglicherweise Ihre IP-Adresse oder wirft CAPTCHAs aus. Crawlbase ändert IP-Adressen selbstständig und überwindet CAPTCHAs, sodass Sie Groupon-Daten ohne Unterbrechung abrufen können.
- Einfache Integration: Sie können die Crawlbase hinzufügen Crawling API in Ihren Python-Code ohne großen Aufwand. So können Sie sich auf das Abrufen der benötigten Daten konzentrieren, während die API im Hintergrund die kniffligen Dinge erledigt.
- Skalierbares Scraping: Crawlbase bietet flexible Optionen für die Handhabung von Groupon-Scraping-Projekten jeder Größe. Sie können es verwenden, um kleine Datensätze zu sammeln oder um groß angelegte Datenerfassungsaktionen durchzuführen.
Crawlbase Python-Bibliothek
Crawlbase bietet eine eigene Python-Bibliothek um seinen Kunden zu helfen. Sie benötigen ein Zugriffstoken zur Authentifizierung, wenn Sie es verwenden. Sie können dieses Token erhalten, nachdem Sie Konto erstellen.
Hier ist eine Beispielfunktion, die zeigt, wie man die Crawling API aus der Crawlbase-Bibliothek, um Anfragen zu senden.
1 | für Crawlbase importieren CrawlingAPI |
Note: Crawlbase bietet zwei Token-Typen: ein normales Token für statische Websites und ein JavaScript (JS)-Token für dynamische oder browserbasierte Anfragen. Für Groupon benötigen Sie ein JS-Token. Sie können mit 1,000 kostenlosen Anfragen beginnen, eine Kreditkarte ist nicht erforderlich. Schauen Sie sich die Crawlbase an Crawling API docs HIER.
Als nächstes führen wir Sie durch die Einrichtung von Python und den Aufbau von Groupon-Scrapern, die die Crawlbase verwenden Crawling API um JavaScript und andere Scraping-Herausforderungen zu bewältigen. Lassen Sie uns mit dem Einrichtungsprozess beginnen.
Einrichten Ihrer Python-Umgebung
Bevor wir mit dem Schreiben des Groupon Scraper beginnen, müssen wir ein solides Python-Setup erstellen. Befolgen Sie die folgenden Schritte.
Python installieren
Zunächst benötigen Sie Python auf Ihrem Computer, um Groupon zu scrapen. Die neueste Version von Python erhalten Sie von python.org.
Einrichten einer virtuellen Umgebung
Wir empfehlen die Verwendung einer virtuellen Umgebung, um Konflikte zwischen verschiedenen Projekten zu vermeiden. Führen Sie die folgenden Befehle aus, um eine virtuelle Umgebung zu erstellen:
1 | # Erstellen Sie eine virtuelle Umgebung |
Dadurch bleiben die Abhängigkeiten Ihres Projekts getrennt und können leichter verwaltet werden.
Erforderliche Bibliotheken installieren
Installieren Sie nun die erforderlichen Bibliotheken in der virtuellen Umgebung:
1 | pip installieren crawlbase beautifulsoup4 |
Hier ist ein kurzer Überblick über jede Bibliothek:
- Crawlbase: Die Hauptbibliothek zum Senden von Anfragen mithilfe der Crawlbase Crawling API, das das zum Scrapen von Groupon erforderliche JavaScript-Rendering übernimmt.
- Pandas: Zum Speichern und Verwalten der Scraped-Daten.
- schönesuppe4: Zum Analysieren und Navigieren durch die HTML-Struktur von Groupon-Seiten.
Auswahl der richtigen IDE
Sie können Ihren Code in jedem Texteditor schreiben, aber die Verwendung einer integrierten Entwicklungsumgebung (IDE) kann das Codieren erleichtern. Einige beliebte IDEs sind VS-Code, PyCharm und Jupyter Notizbuch. Diese Tools verfügen über Funktionen, die Ihnen beim Coden helfen, z. B. Hervorheben der Syntax, Vervollständigen von Code und Auffinden von Fehlern. Diese Funktionen sind praktisch, wenn Sie einen Groupon Scraper erstellen.
Nachdem Sie nun Ihre Umgebung eingerichtet und Ihre Tools bereit haben, können Sie mit dem Schreiben des Scrapers beginnen. Im nächsten Abschnitt erstellen wir einen Scraper für Groupon-Angebote.
Groupon-Angebote aussortieren
In diesem Teil erklären wir, wie man mit Python und der Crawlbase Angebote von Groupon erhält Crawling API. Groupon verwendet JavaScript-Rendering und scrollbasierte Paginierung, sodass einfache Scraping-Methoden nicht funktionieren. Wir verwenden Crawlbases Crawling API, das JavaScript und Scroll-Paginierung problemlos verarbeitet.
Die URL, die wir scrapen, ist: https://www.groupon.com/local/washington-dc
Überprüfen der HTML-Struktur
Bevor Sie den Code schreiben, müssen Sie unbedingt die HTML-Struktur der Groupon-Angebotsseite überprüfen. So können Sie die richtigen CSS-Selektoren ermitteln, die zum Extrahieren der Daten erforderlich sind.
Besuchen Sie die URL: Öffne das URL in Ihrem Browser.
Öffnen Sie die Entwicklertools: Klicken Sie mit der rechten Maustaste und wählen Sie „Untersuchen“, um die Entwicklertools zu öffnen.
Identifizieren Sie Schlüsselelemente: Groupon-Deal-Angebote finden Sie in der Regel innerhalb <div>
Elemente mit der Klasse cui-content
. Jeder Deal hat die folgenden Details:
- Kaufmann: Gefunden im 2
div
Kind vona
Element. - Titel : Gefunden in einem
<h2>
tag mit der klassetext-dealCardTitle
. - Link: Der Link befindet sich im href-Attribut des
<a>
-Tag. - Neupreis: Wird angezeigt in
<div>
mit dem Attributdata-testid="strike-through-price"
. - Reduzierter Preis: Wird angezeigt in
<div>
mit dem Attributdata-testid="green-price"
- Standort: Optional, normalerweise in einem
<span>
, das sich innerhalb einesdiv
das steht neben dem Titelh2
Element.
Den Groupon Scraper schreiben
Wir beginnen mit dem Coden einer einfachen Funktion, um die Deal-Informationen von der Seite abzurufen. Wir verwenden die Crawlbase Crawling API um das dynamische Laden von Inhalten zu handhaben, da Groupon für die Darstellung auf JavaScript angewiesen ist.
Hier ist der Code:
1 | für Crawlbase importieren CrawlingAPI |
Die options
Parameter umfasst Einstellungen wie ajax_wait
zur Handhabung des asynchronen Ladens von Inhalten und page_wait
5 Sekunden zu warten, bevor Sie scrapen, damit alle Elemente richtig geladen werden. Sie können über Crawlbase lesen Crawling API Parameter HIER.
Umgang mit Paginierung
Groupon verwendet eine schaltflächenbasierte Paginierung, um zusätzliche Angebote dynamisch zu laden. Um alle Angebote zu erfassen, nutzen wir die css_click_selector
Parameter in der Crawlbase Crawling API. Wir müssen einen gültigen CSS-Selektor der Schaltfläche „Mehr laden“ als Wert für diesen Parameter übergeben. Lesen Sie mehr über diesen Parameter HIER.
So können Sie es integrieren:
1 | def scrape_groupon_with_pagination(URL): |
In dieser Funktion haben wir eine scrollbasierte Paginierungsbehandlung mithilfe der Optionen von Crawlbase hinzugefügt, um sicherzustellen, dass die maximal verfügbaren Angebote erfasst werden.
Speichern von Daten in einer JSON-Datei
Sobald Sie die Daten erfasst haben, können Sie sie ganz einfach in einer JSON-Datei speichern:
1 | importieren JSON |
Vollständiges Codebeispiel
Hier ist der vollständige Code, der alles Besprochene kombiniert:
1 | für Crawlbase importieren CrawlingAPI |
Testen Sie den Scraper:
Erstellen Sie eine neue Datei mit dem Namen groupon_deals_scraper.py
, kopieren Sie den bereitgestellten Code in diese Datei und speichern Sie sie. Führen Sie das Skript mit dem folgenden Befehl aus:
1 | Python groupon_deals_scraper.py |
Sie sollten in der JSON-Datei eine Ausgabe ähnlich dem folgenden Beispiel sehen.
1 | [ |
Groupon-Gutscheine auslesen
In diesem Teil erfahren Sie, wie Sie mit Python und Crawlbase Gutscheine von Groupon erhalten Crawling API. Die Couponseite von Groupon sieht etwas anders aus als die Angebotsseite, daher müssen wir uns die HTML-Struktur ansehen. Wir verwenden die Crawlbase-API, um Beschreibungen der Coupontitel abzurufen, wenn sie ablaufen, sowie deren Links.
Wir werden diese URL scrapen: https://www.groupon.com/coupons/amazon
Überprüfen der HTML-Struktur
Um Groupon-Coupons effektiv zu scrapen, ist es wichtig, die wichtigsten HTML-Elemente zu identifizieren, die die Daten enthalten:
Besuchen Sie die URL: Öffne das URL in Ihrem Browser.
Öffnen Sie die Entwicklertools: Klicken Sie mit der rechten Maustaste auf die Webseite und wählen Sie „Untersuchen“, um die Entwicklertools zu öffnen.
Suchen Sie die Coupon-Container: Die Coupon-Angebote von Groupon liegen in der Regel innerhalb <div>
Tags mit der Klasse coupon-offer-tile
Jeder Gutscheinblock enthält:
- Titel : Gefunden in einem
<h2>
Element mit der Klassecoupon-tile-title
. - Callout: Das Callout befindet sich innerhalb der
<div>
Element mit der Klassecoupon-tile-callout
. - Beschreibung: Normalerweise zu finden in einem
<p>
mit der Klassecoupon-tile-description
. - Coupon-Typ: Gefunden in einem
<span>
tag mit der klassecoupon-tile-type
.
Den Groupon Coupon Scraper schreiben
Wir schreiben eine Funktion, die die Crawlbase verwendet Crawling API um die dynamische Inhaltsdarstellung und Paginierung zu handhaben, während die Coupondaten ausgelesen werden. Hier ist die Implementierung:
1 | für Crawlbase importieren CrawlingAPI |
Speichern von Daten in einer JSON-Datei
Sobald Sie die Coupondaten haben, können Sie sie für den einfachen Zugriff und die Analyse in einer JSON-Datei speichern:
1 | def Gutscheine in JSON speichern(Daten, Dateiname='groupon_coupons.json'): |
Vollständiges Codebeispiel
Hier ist der vollständige Code zum Scrapen von Groupon-Coupons:
1 | für Crawlbase importieren CrawlingAPI |
Testen Sie den Scraper:
Speichern Sie den Code in einer Datei namens groupon_coupons_scraper.py
. Führen Sie das Skript mit dem folgenden Befehl aus:
1 | Python groupon_coupons_scraper.py |
Nach dem Ausführen des Skripts sollten Sie die Coupondaten in einer JSON-Datei mit dem Namen finden. groupon_coupons.json
.
1 | [ |
Abschließende Überlegungen
Mit einem Groupon Scraper bleiben Sie über die besten Angebote auf dem Laufenden. Promo-Codes und Gutscheine. Python und die Crawlbase Crawling API ermöglicht Ihnen das Scrapen von Groupon-Seiten ohne großen Aufwand. Sie können dynamische Inhalte verarbeiten und nützliche Daten extrahieren.
In dieser Anleitung erfahren Sie, wie Sie Ihre Umgebung einrichten, den Groupon-Deals- und Coupon-Scraper schreiben, die Paginierung durchführen und Ihre Daten speichern. Ein gut konzipierter Groupon-Scraper kann den Prozess automatisieren, wenn Sie Deals an einem bestimmten Ort verfolgen oder die neuesten Coupons finden möchten.
Wenn Sie Ihre Web-Scraping-Fähigkeiten erweitern möchten, sehen Sie sich unsere folgenden Anleitungen zum Scraping anderer wichtiger Websites an.
📜 So scrapen Sie Google Finance
📜 So scrapen Sie Google News
📜 So scrapen Sie Google Scholar-Ergebnisse
📜 So kratzen Sie die Google-Suchergebnisse
📜 So scrapen Sie Google Maps
📜 So scrapen Sie Yahoo Finance
📜 So scrapen Sie Zillow
Bei Fragen oder Anregungen steht Ihnen unser Support-Team steht Ihnen jederzeit zur Verfügung, um Sie bei Ihrem Web Scraping-Vorhaben zu unterstützen. Viel Spaß beim Scraping!
Häufig gestellte Fragen
F: Ist das Scraping von Groupon legal?
Das Scraping von Groupon verstößt nicht gegen die Regeln, wenn Sie es für sich selbst tun und sich an das halten, was die Website erlaubt. Lesen Sie sich aber unbedingt die Regeln von Groupon durch, um zu prüfen, ob das, was Sie tun, in Ordnung ist. Wenn Sie Groupon-Daten für kommerzielle Zwecke scrapen möchten, sollten Sie zuerst die Website fragen, damit Sie nicht in Schwierigkeiten geraten.
F. Warum Crawlbase verwenden? Crawling API anstelle einfacherer Methoden?
Groupon ist stark auf JavaScript angewiesen, um Inhalte anzuzeigen. Herkömmliche Scraping-Tools wie requests und BeautifulSoup können damit nicht umgehen. Crawlbase Crawling API hilft, diese Probleme zu umgehen. Sie können Angebote und Coupons auch dann erhalten, wenn JavaScript vorhanden ist und Sie scrollen müssen, um weitere Artikel anzuzeigen.
F: Wie kann ich ausgelesene Groupon-Daten speichern?
Sie haben die Möglichkeit, die von Ihnen gesammelten Groupon-Daten in verschiedenen Formaten wie JSON, CSV oder sogar einer Datenbank zu speichern. In diesem Handbuch haben wir uns auf das Speichern von Daten in einer JSON-Datei konzentriert, da dies einfach zu handhaben ist und für die meisten Projekte gut funktioniert. JSON behält auch die Struktur der Daten bei, was eine spätere Analyse vereinfacht.