Web Scraping ist eine leistungsstarke Methode zum Extrahieren von Daten aus Websites. Die Umwandlung von unübersichtlichem HTML in saubere, strukturierte Informationen stellt jedoch eine große Herausforderung dar. Hier kommt Perplexity AI ins Spiel. Mit KI extrahieren Sie Daten schneller und präziser.

In diesem Blog zeigen wir Ihnen, wie Sie Perplexity AI für Web Scraping in Python nutzen. Sie lernen, wie Sie HTML-Inhalte abrufen, sie für bessere Lesbarkeit in Markdown konvertieren und mithilfe von KI die benötigten Daten extrahieren. Wir zeigen Ihnen außerdem, wie Crawlbase Smart Proxy Hilft Ihnen, Blockaden und Captchas beim Scraping geschützter Websites zu vermeiden. Melden Sie sich jetzt an und erhalten Sie 5,000 Gratis-Credits.

Dieses Blog richtet sich an Entwickler, Analysten und alle, die das Web intelligenter durchsuchen möchten.

📚 Inhaltsverzeichnis

  1. Warum Perplexity AI für Web Scraping verwenden?
  2. Einrichten Ihrer Python-Umgebung
  • Installieren Sie Python
  • Erstellen Sie eine virtuelle Umgebung
  • Erforderliche Bibliotheken installieren
  • Perplexity-API-Zugriff einrichten
  1. Schritt-für-Schritt-Anleitung zur Verwendung von Perplexity AI für Web Scraping
  • Senden von Anfragen und Analysieren von HTML
  • Konvertieren Sie HTML in Markdown für die KI-Verarbeitung
  • So formatieren Sie Eingabeaufforderungen
  • Wichtige Details aus Markdown extrahieren
  • Code vervollständigen
  1. Herausforderungen und Grenzen der Perplexity AI beim Web Scraping
  2. Blockierungen vermeiden: Nutzen Sie Crawlbase Smart Proxy
  3. Abschließende Überlegungen
  4. Häufig gestellte Fragen

Warum Perplexity AI für Web Scraping verwenden?

Traditionelles Web Scraping nutzt Python-Bibliotheken wie Requests und BeautifulSoup, um Daten aus dem HTML einer Website zu extrahieren. Funktioniert gut für einfache Websites, wird aber bei unübersichtlichem oder komplexem HTML schwierig.

Hier kommt Perplexity AI ins Spiel.

Perplexity AI ist ein intelligentes Tool, das natürliche Sprache versteht und strukturierte Daten in HTML-Rohinhalten findet. In Kombination mit Web Scraping lassen sich einfacher saubere, hilfreiche und strukturierte Daten extrahieren.

Vorteile von Perplexity AI für Scraping:

  • Extrahieren Sie Daten aus komplexen Webseiten
  • Reduziert den Zeitaufwand für das Schreiben benutzerdefinierter Analyselogik
  • Funktioniert mit Markdown-formatiertem HTML, wodurch die Datenextraktion genauer wird
  • Gibt strukturierte Ausgabe wie JSON zurück

Durch die Verwendung von Perplexity AI für das Web Scraping in Python scrapen Sie schneller, intelligenter und effizienter.

Einrichten Ihrer Python-Umgebung

Bevor wir Perplexity AI für Web Scraping verwenden, müssen wir unsere Python-Umgebung vorbereiten. Dieses Setup stellt einen reibungslosen Ablauf sicher und hilft, spätere Fehler zu vermeiden.

✅ Python installieren

Falls Sie es noch nicht getan haben, installieren Sie Python vom offiziellen Website. Python ist die primäre Sprache, die wir zum Senden von Anfragen, Verarbeiten von Webdaten und zur Kommunikation mit der Perplexity-API verwenden.

✅ Erstellen Sie eine virtuelle Umgebung

Eine virtuelle Umgebung hält Ihre Projektabhängigkeiten organisiert und vermeidet Konflikte mit anderen Python-Projekten.

Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und führen Sie Folgendes aus:

1
python -m venv perplexity_env

Aktivieren Sie dann die Umgebung:

  • Windows:
1
perplexity_env\Scripts\activate
  • macOS/Linux:
1
Quelle perplexity_env/bin/activate

✅ Installieren Sie die erforderlichen Bibliotheken

Installieren wir nun die benötigten Python-Pakete:

1
Pip-Installationsanforderungen Beautifulsoup4 Markdownify OpenAI
  • requests: zum Senden von HTTP-Anfragen
  • beautifulsoup4: zum Parsen von HTML
  • markdownify: um HTML in Markdown zu konvertieren
  • openai: zur Verbindung mit der Perplexity-API (verwendet OpenAI-kompatibles Format)

✅ Perplexity API-Zugriff einrichten

Um Perplexity für Web Scraping zu verwenden, benötigen Sie einen API-Schlüssel. Perplexity bietet eine OpenAI-kompatible API, sodass Sie dasselbe Codeformat wie die GPT-Modelle von OpenAI verwenden können.

So richten Sie es ein:

  1. Holen Sie sich Ihren API-Schlüssel von Ihrem Perplexity-Konto-Dashboard.
  2. Legen Sie Ihren API-Schlüssel in Ihrem Code fest so was:
1
2
3
4
5
6
von öffnen importieren OpenAI

Kunde = OpenAI(
API-Schlüssel ="IHR_PERPLEXITY_API_KEY",
base_url="https://api.perplexity.ai"
)

Stellen Sie sicher, dass Sie Ihren API-Schlüssel sicher aufbewahren und ihn niemals öffentlich im Code weitergeben.

Schritt-für-Schritt-Anleitung zur Verwendung von Perplexity AI für Web Scraping

In diesem Abschnitt zeigen wir Ihnen, wie Sie mit Perplexity AI einen Python-Web-Scraper erstellen. Sie lernen, wie Sie eine Webseite scrapen, den Inhalt bereinigen, in Markdown konvertieren und die Daten mit Perplexity AI extrahieren. Wir verwenden BeautifulSoup, um nur den benötigten Teil der Seite auszuwählen und so zusätzliches HTML zu vermeiden, das durch die Verwendung weiterer Token die Kosten erhöhen könnte.

Wir verwenden die folgende URL als Beispiel:

1
https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html

🔹 Anfragen senden und HTML analysieren

Zuerst müssen wir eine HTTP-Anfrage an die Website senden und den HTML-Inhalt laden. So geht's mit Python:

1
2
3
4
5
6
importieren Zugriffe
von bs4 importieren BeautifulSuppe

URL = „https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html“
Antwort = Anfragen.get(URL)
Suppe = Schöne Suppe(Antwort.Text, "html.parser")

Dieser Code sendet eine Anfrage an die Webseite eines Buches mit requests, ruft den HTML-Inhalt ab und verwendet dann BeautifulSoup um das HTML zu analysieren, damit Sie problemlos Informationen daraus extrahieren können

🔹 HTML in Markdown für die KI-Verarbeitung konvertieren

Perplexity AI arbeitet besser, wenn wir sauberen, vereinfachten Text anstelle von reinem HTML senden. Um dies zu erreichen, verwenden wir die markdownify Bibliothek zum Konvertieren von HTML in das Markdown-Format. Das Senden nur des relevanten Abschnitts reduziert den Token-Verbrauch und verbessert die Qualität der KI-Antworten.

1
2
3
4
5
von Markdownify - Deutsch Übersetzung importieren Markdownify - Deutsch Übersetzung as md

# Wählen Sie nur den Abschnitt mit Produktdetails aus
Produktabschnitt = Suppe.Wählen Sie eine("div.inhalt")
markdown_content = md(str(Produktabschnitt))

Das Markdown-Format ist sauber und für Perplexity AI einfach zu verarbeiten, sodass es sich auf die wichtigen Inhalte konzentrieren kann.

🔹 So formatieren Sie Eingabeaufforderungen

Um mit Perplexity AI optimale Ergebnisse zu erzielen, geben Sie klare Anweisungen (Eingabeaufforderungen). Diese Eingabeaufforderungen helfen der KI zu verstehen, was Sie extrahieren möchten.

Hier ist eine Beispielaufforderung:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Eingabeaufforderung = [
{
"Rolle": "System",
"Inhalt": „Sie sind ein hilfreicher Assistent, der strukturierte Daten aus Webinhalten extrahiert.“
},
{
"Rolle": "Nutzer",
"Inhalt": (
"Extrahieren Sie die folgenden Details aus dem Markdown:\n"
"- Buchtitel\n"
"- Preis\n"
"- Verfügbarkeit\n\n"
f"Markdown:\n{markdown_content}\n\n"
„Antworten Sie im JSON-Format.“
),
},
]

Diese Eingabeaufforderung weist die KI genau an, was aus dem Inhalt extrahiert werden soll.

🔹 Wichtige Details aus Markdown extrahieren

Senden wir nun diese Eingabeaufforderung mithilfe der OpenAI-kompatiblen API an Perplexity AI:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
von öffnen importieren OpenAI
importieren JSON

API-Schlüssel = "IHR_PERPLEXITY_API_KEY"
Client = OpenAI(API-Schlüssel=API-Schlüssel, Basis-URL="https://api.perplexity.ai")

# Anfrage zum Chatabschluss senden
Antwort = Client.Chat.Completions.create(
Modell ="Sonar-Pro",
Nachrichten=Eingabeaufforderung,
)

# Exportieren Sie das Ergebnis im JSON-Format
scraped_data = json.loads(response.choices[0].message.content)

# Strukturiertes Ergebnis drucken
drucken(json.dumps(scraped_data, Einzug=2))

🔹 Vollständiger Code

Hier ist das vollständige funktionierende Beispiel, das alles kombiniert:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
importieren Zugriffe
von bs4 importieren BeautifulSuppe
von öffnen importieren OpenAI
von Markdownify - Deutsch Übersetzung importieren Markdownify - Deutsch Übersetzung as md
importieren JSON

URL = „https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html“
Antwort = Anfragen.get(URL)
Suppe = Schöne Suppe(Antwort.Text, "html.parser")

# Wählen Sie nur den Abschnitt mit Produktdetails aus
Produktabschnitt = Suppe.Wählen Sie eine("div.inhalt")
markdown_content = md(str(Produktabschnitt))

drucken(Markdown-Inhalt)

Eingabeaufforderung = [
{
"Rolle": "System",
"Inhalt": „Sie sind ein hilfreicher Assistent, der strukturierte Daten aus Webinhalten extrahiert.“
},
{
"Rolle": "Nutzer",
"Inhalt": (
"Extrahieren Sie die folgenden Details aus dem Markdown:\n"
"- Buchtitel\n"
"- Preis\n"
"- Verfügbarkeit\n\n"
f"Markdown:\n{markdown_content}\n\n"
„Antworten Sie nur mit extrahierten Daten im JSON-Format.“
),
},
]

API-Schlüssel = "IHR_PERPLEXITY_API_KEY"
Client = OpenAI(API-Schlüssel=API-Schlüssel, Basis-URL="https://api.perplexity.ai")

# Anfrage zum Chatabschluss senden
Antwort = Client.Chat.Completions.create(
Modell ="Sonar-Pro",
Nachrichten=Eingabeaufforderung,
)

# Exportieren Sie das Ergebnis im JSON-Format
scraped_data = json.loads(response.choices[0].message.content)

# Strukturiertes Ergebnis drucken
drucken(json.dumps(scraped_data, Einzug=2))

Beispielausgabe:

1
2
3
4
5
{
"Buchtitel": „Ein Licht auf dem Dachboden“,
"Preis": "51.77 £",
"Verfügbarkeit": "Auf Lager"
}

Herausforderungen und Grenzen der Perplexity AI beim Web Scraping

Perplexity AI bietet zwar leistungsstarke Funktionen für das Web Scraping, bringt aber auch einige Herausforderungen mit sich:

Bilder, die die Herausforderungen und Grenzen von Perplexity AI beim Web Scraping zeigen

Wenn Sie diese Einschränkungen verstehen, können Sie die Vorteile von Perplexity AI für das Web Scraping maximieren und gleichzeitig potenzielle Probleme minimieren.

Blockierungen vermeiden: Nutzen Sie Crawlbase Smart Proxy

Beim Scraping mit Perplexity AI blockieren Websites häufig Bots, was den Datenabruf erschwert. Crawlbase Smart Proxy löst dieses Problem durch die Rotation von IP-Adressen und die Umgehung von CAPTCHAs, sodass Sie Websites scrapen können, ohne blockiert zu werden.

Warum Crawlbase verwenden? Smart Proxy mit Perplexity AI?

  1. IP-Sperren umgehen: Rotiert IP-Adressen, um eine Erkennung zu vermeiden.
  2. CAPTCHAs lösen: Behandelt CAPTCHAs automatisch, sodass Sie dies nicht tun müssen.
  3. Sparen Sie Zeit: Sie müssen keine Proxyserver verwalten – Crawlbase erledigt das alles.
  4. Bereinigen Sie HTML: Gibt gebrauchsfertiges HTML für Perplexity AI zurück.

Beispielcode:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
importieren Zugriffe
importieren Zeit

# Crawlbase Smart Proxy -Setup
Proxy-URL = "http://[E-Mail geschützt] :8012"
Proxys = {"http": Proxy-URL, "https": Proxy-URL}

# Ziel-URL
URL = „https://example.com/protected-page“

# Warten Sie, bevor Sie die Anfrage stellen
Zeit.Schlaf(2)

# Anfrage senden über Smart Proxy
Antwort = Anfragen.Get(URL, Proxys=Proxys, Überprüfen=falsch)

# Antwort drucken
drucken(Antwort.text)

Mit Crawlbase Smart Proxykönnen Sie Websites sicher scrapen, Sperren umgehen und saubere Daten zur Verarbeitung mit Perplexity AI erhalten.

Abschließende Überlegungen

Der Einsatz von Perplexity AI für Web Scraping in Python verbessert Ihre Scraping-Aufgaben, indem er sie schneller, intelligenter und präziser macht. Durch die Konvertierung von reinem HTML in Markdown und die Nutzung von KI zum Extrahieren strukturierter Daten können Sie Ihren Prozess optimieren und Zeit sparen.

Das Scraping von Websites kann jedoch eine Herausforderung sein, insbesondere wenn es zu Blockaden und CAPTCHAs kommt. Hier Crawlbase Smart Proxy kommt ins Spiel. Es hilft Ihnen, IP-Sperren zu vermeiden und CAPTCHAs zu lösen, sodass Sie Websites ohne Unterbrechungen durchsuchen können. Diese Kombination aus Perplexity AI und Crawlbase Smart Proxy macht Web Scraping effizienter und skalierbarer und ermöglicht Ihnen den Zugriff auf die benötigten Daten, ohne blockiert zu werden.

Häufig gestellte Fragen

F: Was ist Perplexity AI und wie hilft es beim Web Scraping?

Perplexity AI ist ein Tool, das natürliche Sprachverarbeitung nutzt, um strukturierte Daten aus HTML-Rohinhalten zu extrahieren. Es vereinfacht das Scraping, indem es unübersichtliches HTML in lesbares Markdown konvertiert und wichtige Details mithilfe von KI extrahiert. Das spart Zeit und verbessert die Genauigkeit der Datenextraktion.

F. Wie funktioniert Crawlbase Smart Proxy verhindern, dass mein Schaber verstopft?

Crawlbase Smart Proxy Rotiert IP-Adressen und löst CAPTCHAs, sodass es so aussieht, als würde ein echter Benutzer die Website durchsuchen. Es hilft, IP-Sperren zu vermeiden und ermöglicht Ihnen das Scraping von Websites, ohne als Bot erkannt zu werden. Ein zuverlässiges Tool für Ihre Scraping-Aufgaben.

F: Kann ich Perplexity AI und Crawlbase verwenden? Smart Proxy zusammen?

Ja! Perplexity AI für Datenextraktion und Crawlbase Smart Proxy zum Umgehen von Sperren und CAPTCHAs ist eine Killer-Kombination. Crawlbase ermöglicht einen nahtlosen Zugriff auf die Website und Perplexity AI erleichtert die Bereinigung und Verarbeitung von Daten.