Generic Extractors
Zwei universelle Extraktoren für Websites ohne dedizierten Scraper. Definieren Sie Ihre eigenen Felder und Selektoren - wir kümmern uns um Request, Anti-Bot und Parsing.
Übersicht
Generic Extractors schließen die Lücken zwischen den dedizierten Scrapern. Wenn die Website, die Sie benötigen, noch nicht im Katalog enthalten ist - Nischen-Marktplätze, regionale Händler, interne Portale - können Sie mit diesen beiden Scrapern die Seite selbst beschreiben und wir führen die Extraktion aus.
generic-extractor nimmt ein CSS-Selektor-Schema (oder unsere automatische Erkennung) entgegen und gibt die geparsten Werte zurück. email-extractor ist speziell für eine häufige Aufgabe konzipiert: das Auslesen jeder auf einer Seite sichtbaren E-Mail-Adresse, unabhängig davon, wie die Seite sie verbirgt (mailto-Links, Klartext, leicht verschleierte Muster wie name [at] domain.com).
Typische Anwendungsfälle:
- Long-Tail-Katalog-Ingestion: Hinterlegen Sie ein Schema für einen regionalen Händler und führen Sie nächtliche Importe durch, ohne dass wir einen eigenen Scraper dafür ausliefern müssen.
- Lead-Generierung: Gehen Sie eine Liste von Firmenwebsites durch, führen Sie
email-extractoraus und erstellen Sie eine Liste kontaktierbarer Interessenten (vorbehaltlich der in Ihrer Jurisdiktion geltenden Regeln für ausgehende E-Mails). - Forschungs-Pipelines: Extrahieren Sie strukturierte Felder (Titel, Überschriften, Meta-Daten) aus beliebigen Seiten für nachgelagertes NLP - nützlich, wenn Sie normalisierte Eingaben aus heterogenen Quellen benötigen.
- Website-Monitoring: Definieren Sie einmal ein Schema und überwachen Sie Preis- oder Textänderungen eines Wettbewerbers, indem Sie das geparste JSON über die Zeit hinweg vergleichen.
Beide Scraper nutzen denselben Anti-Bot-, Residential-Routing- und JS-Rendering-Stack wie die dedizierten Scraper - die automatische Erkennung funktioniert also auch auf JS-lastigen SPAs, ohne dass Sie einen separaten Browser anbinden müssen. Wenn ein Ziel irgendwann einen dedizierten Parser benötigt, ist das von Ihnen geschriebene Schema eine gute Übergabe-Dokumentation für unser Scraper-Team.
Generic Extractors
Zwei universelle Bausteine - einer für beliebige strukturierte Extraktion, einer für die immer wieder benötigte Aufgabe, E-Mail-Adressen auszulesen. Verwenden Sie diese, wenn es für die gewünschte Website keinen dedizierten Scraper gibt.
- Generic Extractor - schemagesteuerter HTML-Extraktor. Übergeben Sie Selektoren und erhalten Sie strukturiertes JSON zurück.
- Email Extractor - extrahiert jede auf einer Seite sichtbare E-Mail-Adresse.
Beispielaufruf
Unten: ein generic-extractor-Aufruf auf die Startseite von Stack Overflow. Ohne angegebenes Schema gibt der Scraper automatisch erkannte Metadaten zurück - Seitentitel, Sprache und nach Ebene gruppierte Überschriften. Übergeben Sie ein benutzerdefiniertes selectors-Objekt (siehe vollständige Referenz), um spezifische Felder zu extrahieren.
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
--data-urlencode 'url=https://stackoverflow.com/' \
--data-urlencode 'scraper=generic-extractor' -GBeispielantwort
{
"url": "https://stackoverflow.com/",
"title": "Stack Overflow - Where Developers Learn...",
"language": "en",
"headings": {
"h1": ["Where developers grow together"],
"h2": ["Hot Network Questions"]
}
}Vollständige Referenz (Parameter, alle 4 SDK-Sprachen, Sonderfälle):Generic Extractor - vollständige Referenz