# 参数

Wie man eine API-Verbindung aufbaut, 只有 token 和 url 是强制性的其余的都是可选的.

# 象征

  • andere Vorraussetzungen
  • 类型 string

所有调用都需要此参数

这是您的身份验证令牌. 你有两个令牌; 一个用于普通请求,另一个用于 JavaScript 请求。

当您需要抓取的内容是通过 JavaScript 生成时使用 JavaScript 令牌,因为它是 JavaScript 构建的页面(React、Angular等),或者因为内容是在浏览器上动态生成的.

普通令牌

_USER_TOKEN_

JavaScript-Administrator

_JS_TOKEN_

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • andere Vorraussetzungen
  • 类型 string

所有调用都需要此参数

您将需要一个 url 来抓取。 确保它以 http 或 https 开头,并且 完全编码.

例如, 在以下网址中: https://github.com/crawlbase?tab=repositories API-Suche nach URL-Adresse: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Format

  • Optional
  • 类型 string

指示响应格式,oder者 json or html. 默认为 html.

如果格式 html 使用时,Crawlbase 会在标头中向您返回响应参数(请参阅 [HTML-Sprache]/zh-cn/crawling-api/response/#html-response) 下文)。

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# 漂亮

  • Optional
  • 类型 boolean

如果您期待 json 响应,您可以通过使用来优化其可读性 &pretty=true.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# USER-AGENT

  • Optional
  • 类型 string

如果您想使用自定义用户代理发出请求,您可以在此处传递它, 我们的服务器会将其转发到请求的URL.

我们建议 Ist nicht 使用这个参数,让我们的人工智能来处理它.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 页面等待

  • Optional
  • 类型 number

如果您使用的是 JavaScript 令牌,则可以选择传递 page_wait 参数等待一定量 毫秒 在浏览器捕获生成的 html 代码之前.

的情况下很有用.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_verknüpfung

  • Optional
  • 类型 boolean

如果您使用的是 JavaScript 令牌,则可以选择传递 ajax_wait 在获取 html 响应之前等待 ajax 请求完成的参数.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# CSS-Klickselektor

  • Optional
  • 类型 string

# Erstellen Sie eine CSS-Datei

如果您使用 JavaScript 令牌,您可以选择传递 css_click_selector 参数以在浏览器捕获生成的 HTML 代码之前单击页面上的元素.

此参数接受完全指定且有效的 CSS-Zertifikate #some-button,Verbesserte Leistung der elektrischen Leitungsanlage .some-other-button或属性选择器,例如 [data-tab-item="tab1"]Diese CSS-Datei ist für die Erstellung von CSS-Dateien geeignet.

请注意, 如果页面上找不到选择器, 请求将失败并显示 pc_status 595。即使找不到选择器, 也要接收响应, 您可以附加一个通用找到的选择器, 例如 body, das ist der Hauptgrund. Beispiele: #some-button,body.

# Andere CSS-Befehle

为了适应在捕获页面内容之前可能需要顺序单击多个元素的场景, css_click_selector 参数现在可以接受多个 CSS 选择器.用管道分隔每个选择器 (|) 特点.确保整个值(包括分隔符)都经过 URL 编码,以避免出现任何解析问题。

假设你想点击一个带有 ID 的按钮 start-button Vernetzte elektrische Leitungen next-page-link。Neueste Nachrichten css_click_selector Weitere Informationen:

  • Wichtige Informationen: #start-button|.next-page-link
  • URL-Adresse: %23start-button%7C.next-page-link

Wenn Sie die API-Funktion nutzen, können Sie sich die API-Funktion nicht entziehen.

请确保提供的所有选择器均有效并出现在页面上,以避免错误.如果未找到任何选择器,请求将遵循上面指定的错误处理,失败并显示 pc_status 595 除非包含后备选择器.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 设备

  • Optional
  • 类型 string

可选地, 如果您不想指定 user_agent 但您希望获得来自特定设备的请求, 则可以使用此参数.

Nächster Beitrag: desktopmobile.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Cookies-Cookies

  • Optional
  • 类型 boolean

或者,如果您需要获取原始网站在响应中设置的 Cookie,您可以使用 &get_cookies=true Nein.

Cookie 将在标头中返回(如果您使用,则在 json 响应中返回) &format=json)als original_set_cookie.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取标题

  • Optional
  • 类型 boolean

或者,如果您需要获取原始网站在响应中设置的标头,您可以使用 &get_headers=true Nein.

标头将在响应中返回为 original_header_name 默认情况下. 什么时候 &format=json 已通过,标题将返回为 original_headers.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 请求标头

  • Optional
  • 类型 string

或者,如果您需要将请求标头发送到原始网站,您可以使用 &request_headers=EncodedRequestHeaders Nein.

Beispiel für eine objektive Bewertung: 接受语言:en-GB|接受编码:gzip

Beispiele für kompatible Geräte: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip

Die API ist nicht verfügbar

如果您需要发送一些 API不允许的附加标头,请告诉我们标头名称,我们将为您的令牌授权它们.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Cookies-Verwendung

  • Optional
  • 类型 string

或者,如果您需要将 Cookie 发送到原始网站,您可以使用 &cookies=EncodedCookies Nein.

Beispiel für Cookies: key1=value1; key2=value2; key3=value3

Beispiele für kompatible Geräte: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

我们建议您使用此测试网址测试发送的 Cookie: https://postman-echo.com/cookies

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_sitzung

  • Optional
  • 类型 string

如果您需要将每个请求返回的 Cookie 发送到所有后续调用,您可以使用 &cookies_session= Nein.

Dies &cookies_session= Kekse会话(这将允许您将后续调用返回的 cookie 发送到具有该 cookie 会话值的下一个 API 调用).该值最多可包含 32 个字符, 会话在最后一次 API Mehr als 300 Mal pro Jahr.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Screenshot

  • Optional
  • 类型 boolean

wenn Sie verwenden JavaScript-Administrator, 你可以选择通过 &screenshot=true 获取屏幕截图的参数 JPEG 整个爬取页面的格式.

Crawlbase-Verzeichnis screenshot_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json)。 这 screenshot_url Nicht mehr verfügbar.

请 注意 : Hauptartikel: screenshot=true 参数,您可以使用这些附加参数自定义��幕截图输出:

  • mode: Gut viewport 仅捕获视口而不是整个页面.默认为 fullpage.
  • width:指定最大宽度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕宽度。
  • height:指定最大高度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕高度。

Beispiel: &screenshot=true&mode=viewport&width=1200&height=800

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 商店

  • Optional
  • 类型 boolean

可选择通过 &store=true 参数以将 API 响应的副本存储在 Crawlbase 云存储 (打开新窗口) (öffnet neues Fenster).

Crawlbase-Verzeichnis storage_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json).

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 刮刀

  • Optional
  • 类型 string

返回根据指定刮板解析的信息. 检查 所有可用数据抓取工具的列表 (打开新窗口) (öffnet neues Fenster) 所有可用数据抓取工具的列表, 以查看选择哪一个.

Die Verwendung von JSON ist nicht möglich.

请 注意 : Scraper.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 异步

  • Optional
  • 类型 boolean
  • 目前仅支持使用此参数的 LinkedIn.com.

可选择通过 &async=true 参数异步抓取请求的 URL.Crawlbase 会将结果页面存储在 Crawlbase 云存储 (打开新窗口) (öffnet neues Fenster).

锱于与 async=true,Crawlbase 将返回请求标识符 rid 在 json 响应中. 您将需要存储 RID 云存储 API (打开新窗口) (öffnet neues Fenster) 检索结果页面.

您 可以 使用 async=true 参数与其他 API 参数相结合,例如 &async=true&autoparse=true.

Beispiele für die Spracherkennung async=true Hinweis:

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Beispiele für die Verwendung von Zigaretten async=true Hinweis:

{ "rid": "1e92e8bff32c31c2728714d4" }

# 自动解析

  • Optional
  • 类型 boolean

可选地, 如果您需要获取您请求的页面的抓取数据, 您可以通过 &autoparse=true Nein.

响应将以以 JSON 形式返回. 响应的结构因您发送的 URL 而异。

请 注意 : &autoparse=true 是一个可选参数. 如果您不使用它, 您将收到页面的完整 HTML, 以便您可以自由地抓取它.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Land

  • Optional
  • 类型 string

如果您希望从特定国家/地区定位您的请求,您可以使用 &country= 参数,如 &country=US (两个字符的国家代码)

请注意,指定国家/地区可以减少您返回的成功请求数量,因此请明智地使用它, 并且仅在需要进行地理定位爬网时使用.

另请注意,像亚马逊这样的些网站是通过不同的特殊代理路由的,无论是否在列表中,都允许所有国家/地区.

您可以访问以下��家

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_kunst

  • Optional
  • 类型 boolean

如果你想通过 Tor 网络爬取洋葱网站, 你可以通过 &tor_network=true Nein.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# Mehr

  • Optional
  • 类型 boolean

wenn Sie verwenden JavaScript-Administrator, 你可以选择通过 &scroll=true Die API benötigt 10 Sekunden scroll_interval.

如果您想滚动超过 10 秒,请发送 &scroll=true&scroll_interval=20. 20 秒, 60 秒, 60 秒, XNUMX秒后, 系统会捕获数据并将其返回给您.

Mindestens 10 Sekunden und 5 Minuten Crawling API Die JS-Version hat die Funktion scroll_interval 20 und die JS-Version 20 10 Sekunden, 2 Sekunden, 4 Minuten.

请 注意 : Mindestens 90 Seiten, Gesamtlänge 60 Seiten.

  • curl
  • Rubin
  • Knoten
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"