Generic Extractors

Übersicht

Generic Extractors schließen die Lücken zwischen den dedizierten Scrapern. Wenn die Website, die Sie benötigen, noch nicht im Katalog enthalten ist - Nischen-Marktplätze, regionale Händler, interne Portale - können Sie mit diesen beiden Scrapern die Seite selbst beschreiben und wir führen die Extraktion aus.

generic-extractor nimmt ein CSS-Selektor-Schema (oder unsere automatische Erkennung) entgegen und gibt die geparsten Werte zurück. email-extractor ist speziell für eine häufige Aufgabe konzipiert: das Auslesen jeder auf einer Seite sichtbaren E-Mail-Adresse, unabhängig davon, wie die Seite sie verbirgt (mailto-Links, Klartext, leicht verschleierte Muster wie name [at] domain.com).

Typische Anwendungsfälle:

Long-Tail-Katalog-Ingestion: Hinterlegen Sie ein Schema für einen regionalen Händler und führen Sie nächtliche Importe durch, ohne dass wir einen eigenen Scraper dafür ausliefern müssen.
Lead-Generierung: Gehen Sie eine Liste von Firmenwebsites durch, führen Sie email-extractor aus und erstellen Sie eine Liste kontaktierbarer Interessenten (vorbehaltlich der in Ihrer Jurisdiktion geltenden Regeln für ausgehende E-Mails).
Forschungs-Pipelines: Extrahieren Sie strukturierte Felder (Titel, Überschriften, Meta-Daten) aus beliebigen Seiten für nachgelagertes NLP - nützlich, wenn Sie normalisierte Eingaben aus heterogenen Quellen benötigen.
Website-Monitoring: Definieren Sie einmal ein Schema und überwachen Sie Preis- oder Textänderungen eines Wettbewerbers, indem Sie das geparste JSON über die Zeit hinweg vergleichen.

Beide Scraper nutzen denselben Anti-Bot-, Residential-Routing- und JS-Rendering-Stack wie die dedizierten Scraper - die automatische Erkennung funktioniert also auch auf JS-lastigen SPAs, ohne dass Sie einen separaten Browser anbinden müssen. Wenn ein Ziel irgendwann einen dedizierten Parser benötigt, ist das von Ihnen geschriebene Schema eine gute Übergabe-Dokumentation für unser Scraper-Team.

Zwei universelle Bausteine - einer für beliebige strukturierte Extraktion, einer für die immer wieder benötigte Aufgabe, E-Mail-Adressen auszulesen. Verwenden Sie diese, wenn es für die gewünschte Website keinen dedizierten Scraper gibt.

Generic Extractor - schemagesteuerter HTML-Extraktor. Übergeben Sie Selektoren und erhalten Sie strukturiertes JSON zurück.
Email Extractor - extrahiert jede auf einer Seite sichtbare E-Mail-Adresse.

Beispielaufruf

Unten: ein generic-extractor-Aufruf auf die Startseite von Stack Overflow. Ohne angegebenes Schema gibt der Scraper automatisch erkannte Metadaten zurück - Seitentitel, Sprache und nach Ebene gruppierte Überschriften. Übergeben Sie ein benutzerdefiniertes selectors-Objekt (siehe vollständige Referenz), um spezifische Felder zu extrahieren.

      curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G
    

Beispielantwort

      {
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}
    

Vollständige Referenz (Parameter, alle 4 SDK-Sprachen, Sonderfälle): Generic Extractor - vollständige Referenz