Generic Extractor · Crawlbase Documentation

API-Nutzung

Fügen Sie &scraper=generic-extractor zu einem Crawling API-Request hinzu. URL-kodieren Sie die Ziel-URL im Parameter url.

curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get(
    'https://stackoverflow.com/',
    {'scraper': 'generic-extractor'}
)

import json
data = json.loads(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get(
  'https://stackoverflow.com/',
  { scraper: 'generic-extractor' }
);
const data = JSON.parse(res.body);
require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')

res = api.get('https://stackoverflow.com/', scraper: 'generic-extractor')
data = JSON.parse(res.body)

Beispiel-Eingabe-URL

Die im Parameter url übergebene URL (zur besseren Lesbarkeit URL-dekodiert):

https://stackoverflow.com/

Response-Struktur

JSON-Response-Body. Feldtypen können null sein, wenn die Quellseite den Wert nicht enthält.

url

string

Finale URL.

title

string

Title-Tag der Seite.

meta_description

string | null

Meta-Description.

canonical_url

string | null

Canonical-Link.

language

string | null

Erkannte Sprache.

headings

object

h1/h2/h3-Arrays mit dem Text der Überschriften.

links

array

Ausgehende Links mit href, text, rel.

images

array

Bild-URLs mit Alt-Text.

main_content

string

Extrahierter lesbarer Body-Text.

Beispiel-Response

{
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}