Anonym bleiben beim Crawlen

Wenn Menschen sagen, sie wollen beim Crawlen anonym bleiben, meinen sie in der Regel etwas Praktischeres, als es klingt: Sie möchten, dass ihr Crawler sich wie ein rücksichtsvoller Gast verhält, damit er die Website nicht überlastet, nicht alle Anfragen aus ihrem Netzwerk markiert werden und die IP-Adressen, auf die sie angewiesen sind, nicht verbraucht werden. Anonymität bedeutet hier, innerhalb der Grenzen einer Website zu operieren und die eigene Infrastruktur zu schützen, nicht schlechtes Verhalten zu verschleiern oder Regeln zu umgehen, denen man zugestimmt hat.

Dieser Leitfaden behandelt die wichtigsten Techniken: IP- und Proxy-Rotation, das Drosseln von Anfragen und das Einhalten von Rate-Limits, die Verwaltung von User-Agents und Headern, den Umgang mit Cookies und Sessions sowie das Auslagern der schwierigen Teile an einen verwalteten Proxy. Jede dieser Maßnahmen reduziert die Wahrscheinlichkeit, dass ein normaler, gut gemeinter Crawl auf eine automatisierte Abwehr trifft. Am Ende sollten Sie wissen, wie Sie öffentliche Daten zuverlässig erfassen können, ohne die eigenen IPs oder den Zielserver unnötig zu belasten.

Was Anonymität beim Crawlen wirklich bedeutet

Ein Webserver kann Ihre Absicht nicht erkennen. Er sieht nur einen Strom von Anfragen und entscheidet anhand von Signalen, wie er sie behandelt: wie oft sie eintreffen, von welcher IP sie kommen, was User-Agent und Header aussagen und ob das Muster wie eine browsende Person oder ein Skript aussieht, das einen Endpunkt bombardiert. Wenn diese Signale abnormal erscheinen, kann der Server Sie verlangsamen, ein CAPTCHA servieren oder die Adresse komplett blockieren, in der Regel als automatisierte Reaktion und nicht als persönliches Urteil.

Anonym zu bleiben bedeutet also hauptsächlich, nicht aus den falschen Gründen aufzufallen. Ein Crawl, der seine Last auf mehrere Adressen verteilt, sich sinnvoll drosselt und konsistente, ehrliche Client-Informationen präsentiert, sieht wie normaler Traffic aus. Das ist genau das, was Sie wollen, wenn Sie öffentliche Daten in beliebigem Umfang erfassen. Es hält auch Ihr eigenes Netzwerk gesund: Eine einzelne IP, die rate-limitiert oder auf eine Blockliste gesetzt wird, kann nicht verwandte Arbeit auf derselben Adresse stören. Daher schützt das Verteilen und Drosseln von Anfragen Ihre Infrastruktur ebenso sehr wie den Crawl selbst.

Schichten zwischen Ihnen und der Website. Rotierende IPs, realistische Header und gedrosselte Anfragen stehen zwischen Ihrem Bot und dem Ziel, sodass die Website normalen Traffic sieht, nicht eine einzelne Maschine, die sie bombardiert.

Tipps, um beim Crawlen anonym zu bleiben

Die folgenden Tipps bauen aufeinander auf. Keiner ist ein Allheilmittel, aber zusammen machen sie den Unterschied zwischen einem Crawl, der stundenlang sauber läuft, und einem, der bei der ersten Abwehr ins Stocken gerät. Arbeiten Sie sie der Reihe nach durch, wenn Sie einen neuen Crawler einrichten.

1. IPs und Proxys rotieren

Das klarste Signal, das ein Server liest, ist die Quell-IP. Wenn in kurzer Zeit Hunderte von Anfragen von einer Adresse eintreffen, wird diese Adresse markiert, gedrosselt oder blockiert, und jede spätere Anfrage von ihr zahlt den Preis. Das Verteilen von Anfragen auf einen Pool von Adressen hält jede einzelne weit unter dem Schwellenwert und bedeutet, dass ein einzelner Block nicht den gesamten Job stoppt.

Sie können Datacenter-Proxys, Residential-Proxys oder eine Mischung rotieren, je nach Website und Budget. Das Wichtige ist, dass keine einzelne IP ein Volumen an Traffic trägt, das kein Mensch plausibel generieren könnte. Rotation schützt auch Ihr eigenes primäres Netzwerk: Wenn Sie direkt von Ihrer Büro- oder Server-IP crawlen und diese auf eine Blockliste gesetzt wird, kann das normales Surfen und Dienste beeinträchtigen, die die Adresse teilen. Unser Leitfaden zu Rotating Proxys behandelt die Muster im Detail, und die umfassendere Checkliste in Websites scrapen ohne blockiert zu werden zeigt, wo Rotation unter den anderen Abwehrmaßnahmen passt.

2. Anfragen drosseln und Rate-Limits einhalten

Geschwindigkeit ist das zweite verräterische Merkmal. Ein Skript kann Anfragen viel schneller abfeuern, als ein Mensch klicken könnte, und diese Burst-Rate ist eines der einfachsten Dinge, die ein Server erkennen kann. Die Lösung ist einfach und rücksichtsvoll: langsamer werden. Fügen Sie eine Verzögerung zwischen Anfragen ein, halten Sie die Parallelität bescheiden und lassen Sie Ihren Crawler zwischen den Seiten atmen, anstatt so schnell zu holen, wie das Netzwerk es erlaubt.

Eine Verzögerung von mehreren Sekunden zwischen Anfragen, mit etwas Zufälligkeit, damit die Abstände nicht gleichmäßig sind, bringt viel. Viele Websites veröffentlichen oder erzwingen auch ein Rate-Limit, manchmal signalisiert durch eine 429 Too Many Requests-Antwort oder einen Retry-After-Header. Behandeln Sie diese als Anweisungen, nicht als Hindernisse: Reduzieren Sie die Anfragen, wenn Sie diese sehen. Das Drosseln schützt den Zielserver vor unnötiger Last und schützt Sie vor Blockierungen, die übermäßige Last einlädt. Je schneller Sie crawlen, desto schlimmer ist es für alle, einschließlich der nächsten Person, die diese Daten benötigt.

3. User-Agents und Header verwalten

Jede HTTP-Anfrage enthält Header, die den anfragenden Client beschreiben, und der User-Agent-String ist derjenige, den Server am meisten prüfen. Ein Standard-Bibliotheks-User-Agent wie python-requests/2.x kündigt sofort einen Bot an. Das Setzen eines realistischen, aktuellen Browser-User-Agents lässt eine Anfrage wie das aussehen, was sie vorgibt zu sein, und das Rotieren unter einem kleinen Satz plausibler Werte vermeidet das Muster von Tausenden identischer Fingerabdrücke von einer Quelle.

Header sollten auch konsistent und vollständig sein. Ein echter Browser sendet Accept, Accept-Language, Accept-Encoding und ähnliche Header zusammen; eine Anfrage mit einem Browser-User-Agent, aber ohne andere Header wirkt nicht stimmig. Ein kleines Beispiel für das Setzen ehrlicher, konsistenter Header in Python:

python

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/120.0 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept": "text/html,application/xhtml+xml",
}

Halten Sie den User-Agent aktuell. Browser werden häufig aktualisiert, und ein String, der auf eine jahrelang veraltete Version fixiert ist, ist selbst ein Hinweis. Wenn Sie tiefer in die Gestaltung von Anfragen einsteigen möchten, zeigt unser Leitfaden zum Senden von HTTP-Headern mit curl die Mechanik auf der Kommandozeile.

4. Cookies und Sessions sorgfältig handhaben

Cookies und Sessions sind die Art, wie eine Website einen wiederkehrenden Besucher erkennt, und sie wirken in beide Richtungen. Das Weiterführen von Cookies kann eine Folge von Anfragen wie eine kohärente Browser-Session aussehen lassen, was Sie wollen, wenn die Website Kontinuität erwartet. Falsches Handling schafft jedoch neue Probleme. Manche Websites kodieren eine Session-ID in die URL, wenn Cookies fehlen, sodass ein Crawler, der Cookies ignoriert, bei jedem Besuch eine neue Session und damit eine neue Menge von URLs generieren kann und der Crawl in eine Schleife nahezu doppelter Seiten ausartet.

Die praktischen Regeln sind einfach. Führen Sie Cookies innerhalb einer logischen Session fort, damit die Website einen konsistenten Zustand sieht, aber verwenden Sie eine Session nicht unbegrenzt wieder, da das den gesamten Traffic hinter einer einzigen Identität konzentriert. Wenn Sie IPs rotieren, rotieren oder setzen Sie Sessions daneben zurück, damit Session und Adresse dieselbe Geschichte erzählen. Seien Sie vorsichtig mit allem hinter einem Login: Authentifiziertes Crawlen bindet jede Anfrage an ein Konto, was einen Großteil der angestrebten Anonymität beseitigt und oft gegen die Nutzungsbedingungen der Website verstößt.

5. Einen verwalteten Proxy oder Crawling-Dienst nutzen

Rotation, Drosselung, Header, Sessions und CAPTCHA-Behandlung sind jeweils für sich handhabbar, aber alle zusammen im großen Maßstab zu pflegen, über viele Websites hinweg, die sich jeweils anders schützen, wird selbst zum Projekt. Ein verwalteter Proxy oder Crawling-Dienst bündelt diese Anliegen in einem einzigen Endpunkt: Sie senden eine URL, und der Dienst übernimmt IP-Rotation, Header-Verwaltung, Wiederholungsversuche und CAPTCHA-Lösung im Hintergrund, und gibt die Seite zurück, als hätte ein normaler Browser sie abgerufen.

Hier lohnt sich das Auslagern. Anstatt Proxy-Pools zu pflegen und Verzögerungen site-by-site zu justieren, überlassen Sie der Infrastruktur, die für diese Aufgabe gebaut und gewartet wird, diese Last, was Ihre eigenen Adressen aus der Schusslinie hält und Ihren Code auf die Daten statt auf die Technik fokussiert.

Crawlbase Crawling API

Wenn es sich nach zu viel anfühlt, Proxy-Pools, Header-Rotation und CAPTCHA-Behandlung selbst zu pflegen, bündelt die Crawlbase Crawling API alles in einer einzigen Anfrage. Sie rotiert IPs, verwaltet Header, wiederholt fehlgeschlagene Abrufe und behandelt CAPTCHAs automatisch, sodass Sie öffentliche Daten innerhalb der Grenzen einer Website erfassen, ohne Ihr eigenes Netzwerk zu exponieren. Sie erhalten bis zu 20.000 kostenlose Anfragen zum Start und zahlen nur für erfolgreiche Anfragen.

Start free

Weitere Verhaltensweisen, die einen Crawl sauber halten

Über die fünf Kerntipps hinaus runden ein paar Gewohnheiten einen gut verhaltenen Crawler ab. Sie sind einzeln kleiner, wirken aber zusammen, damit Ihr Traffic normal aussieht.

robots.txt beachten

Die Datei robots.txt im Stammverzeichnis einer Website gibt an, welche Pfade der Eigentümer automatisierten Clients besuchen darf und wie oft. Sie zu beachten ist die Grundlage von rücksichtsvollem Crawlen: Sie sagt Ihnen, wo Sie willkommen sind, hält Sie von Bereichen fern, die der Eigentümer Bots aufgefordert hat zu meiden, und hilft Ihnen, Bereiche zu umgehen, die hauptsächlich dazu dienen, Crawler zu fangen, die die Regeln ignorieren. Sie zu lesen und zu befolgen ist der einfachste Weg, auf der richtigen Seite der erklärten Grenzen einer Website zu bleiben.

Auf Honigtopf-Fallen achten

Manche Websites platzieren Links, die für menschliche Besucher unsichtbar sind, versteckt mit CSS wie display: none oder in einer Farbe, die im Hintergrund aufgeht. Eine Person sieht sie nie und klickt nie darauf, aber ein naiver Crawler, der jedem Link folgt, wird es tun, und dies markiert den Client als automatisiert. Die Seite soweit zu parsen, dass Links übersprungen werden, die ein echter Browser nie rendern würde, hält Sie aus diesen Fallen heraus und macht Ihr Verhalten von einem normalen Besucher ununterscheidbar.

Crawling-Muster variieren

Ein Crawler, der Seiten in einem starren, identischen Rhythmus trifft, ist leicht zu erkennen, weil er nie abweicht. Das Einführen bescheidener Variation, leicht unterschiedliche Verzögerungen, eine weniger mechanische Reihenfolge der Seiten, die gelegentliche Pause, lässt den Traffic eher einer echten Person beim Surfen als einem Skript auf Schienen ähneln. Das Ziel ist nicht Täuschung; es liegt einfach daran, dass menschlicher Traffic unregelmäßig ist, und diese Unregelmäßigkeit anzupassen verhindert, dass ein gewöhnlicher Crawl anomal aussieht.

Erkennen, wenn man blockiert wurde

Die Anzeichen einer Blockierung zu kennen, ermöglicht es Ihnen, zurückzurudern, bevor Sie die Lage verschlimmern. Achten Sie auf Status-Codes wie 403 Forbidden, 429 Too Many Requests, 503 Service Unavailable und eine plötzliche Serie von 404- oder Redirect-Antworten, zusammen mit CAPTCHA-Seiten, die erscheinen, wo früher Inhalte waren, oder ungewöhnlichen Verzögerungen bei der Zustellung. Wenn diese auftauchen, ist die richtige Reaktion, zu verlangsamen, Adressen zu rotieren und die Drosselung zu überdenken, anstatt stärker zu drücken. Für den CAPTCHA-Teil im Speziellen behandelt unser Leitfaden zum Umgang mit CAPTCHAs beim Scrapen die Optionen.

Verantwortungsvoll scrapen

Anonymität ist eine Möglichkeit, ein guter Gast zu sein, keine Lizenz zum Ignorieren der Regeln. Halten Sie sich an öffentliche Daten, lesen und beachten Sie die Nutzungsbedingungen jeder Website und ihre robots.txt, und halten Sie Ihre Anfragerate angemessen, damit Sie den Dienst für echte Nutzer nie beeinträchtigen. Vermeiden Sie urheberrechtlich geschützte Medien und alles hinter einem Login oder einer Bezahlschranke, sofern Sie keine ausdrückliche Genehmigung haben, und wenn die Daten personenbezogene Informationen umfassen, behandeln Sie sie im Einklang mit Regelungen wie der DSGVO und dem CCPA. Rotierende IPs und das Drosseln von Anfragen sind Werkzeuge, um innerhalb der Grenzen einer Website zu bleiben und Ihre eigene Infrastruktur zu schützen, nicht um Beschränkungen zu umgehen, denen Sie zugestimmt haben. Auf diese Weise eingesetzt, halten sie Ihren Crawl nachhaltig und Ihre Datenerfassung vertretbar. Für ein umfassenderes Bild, wie Crawling in das breitere Werkzeugset passt, sehen Sie sich unseren Überblick zu Web-Crawling-Techniken und Frameworks an.

Zusammenfassung

Wichtigste Erkenntnisse

Anonymität bedeutet Unauffälligkeit, nicht Regelumgehung. Ein gut verhaltener Crawl, der Last verteilt und sich drosselt, sieht wie normaler Traffic aus und bleibt innerhalb der Grenzen einer Website.
IPs und Proxys rotieren. Das Verteilen von Anfragen auf einen Pool hält jede einzelne Adresse unter dem Schwellenwert und schützt Ihr eigenes Netzwerk vor Blockierungen.
Anfragen drosseln und Rate-Limits einhalten. Fügen Sie zufällige Verzögerungen hinzu, halten Sie die Parallelität bescheiden und reduzieren Sie Anfragen bei 429- oder Retry-After-Signalen, um den Server nicht zu überlasten.
Ehrliche, konsistente Client-Informationen präsentieren. Verwenden Sie einen aktuellen Browser-User-Agent mit einem vollständigen Satz passender Header und handhaben Sie Cookies und Sessions, damit Anfragen eine kohärente Geschichte erzählen.
Die schwierigen Teile an einen verwalteten Proxy auslagern. Ein Crawling-Dienst bündelt Rotation, Header, Wiederholungsversuche und CAPTCHA-Behandlung in einem Endpunkt und hält Ihre Adressen aus der Schusslinie.

Häufig gestellte Fragen

Ist es legal, anonym zu crawlen?

Das Crawlen öffentlicher Daten ist generell rechtmäßig, wenn Sie die Nutzungsbedingungen jeder Website und ihre robots.txt beachten und eingeschränkte oder urheberrechtlich geschützte Inhalte meiden. Das Verwenden rotierender Proxys und das Drosseln von Anfragen ist an sich nicht illegal; es sind Standardwerkzeuge zur Lastverteilung und zum Schutz der eigenen Infrastruktur. Die Rechtmäßigkeit hängt davon ab, was Sie erfassen und wie, nicht davon, ob Ihr Traffic auf mehrere Adressen verteilt ist. Wenn personenbezogene Daten beteiligt sind, befolgen Sie Regelungen wie die DSGVO und den CCPA.

Warum werden meine Anfragen blockiert, obwohl ich langsam crawle?

Geschwindigkeit ist nur ein Signal. Ein Server schaut auch auf die Quell-IP, den User-Agent und die Header, das Cookie- und Session-Verhalten und ob Ihr Zugriffsmuster verdächtig regelmäßig ist. Wenn alle Ihre Anfragen von einer Adresse mit einem Standard-Bibliotheks-User-Agent kommen, können Sie auch bei gemächlichem Tempo markiert werden. Kombinieren Sie langsame Drosselung mit IP-Rotation und ehrlichen, konsistenten Headern, anstatt sich auf eine einzelne Maßnahme zu verlassen.

Wie viele IPs oder Proxys benötige ich?

Das hängt von Ihrem Anfragevolumen und davon ab, wie streng die Zielwebsite ist. Das Prinzip lautet: Keine einzelne Adresse sollte ein Volumen an Traffic tragen, das kein Mensch plausibel generieren könnte. Daher sollten Sie Ihren Pool so dimensionieren, dass jede IP komfortabel unter dieser Linie liegt. Ein kleiner, reger Crawl benötigt möglicherweise nur eine Handvoll Adressen, während ein großer Job auf einer defensiven Website viele benötigt. Ein verwalteter Dienst übernimmt diese Dimensionierung für Sie.

Welchen User-Agent sollte ich verwenden?

Verwenden Sie einen realistischen, aktuellen Browser-User-Agent statt eines Standard-Bibliotheks-Strings und senden Sie die unterstützenden Header, die ein echter Browser einschließt, wie Accept und Accept-Language, damit die Anfrage intern konsistent ist. Das Rotieren unter einem kleinen Satz plausibler, aktueller Werte vermeidet das Muster von Tausenden identischer Fingerabdrücke. Halten Sie die Strings aktuell, da ein User-Agent, der auf einen veralteten Browser-Version fixiert ist, selbst ein Hinweis ist.

Im Allgemeinen nein. Authentifiziertes Crawlen bindet jede Anfrage an ein Konto, was die angestrebte Anonymität beseitigt und häufig gegen die Nutzungsbedingungen der Website verstößt, was das Konto selbst gefährdet. Bevorzugen Sie öffentlich zugängliche Seiten. Wenn ein Projekt wirklich authentifizierten Zugang erfordert, stellen Sie sicher, dass Sie ausdrückliche Genehmigung haben, und verstehen Sie, dass Sie unter der Identität dieses Kontos operieren, nicht als anonymer Traffic.

Macht ein verwalteter Proxy meinen Crawl anonym?

Ein verwalteter Proxy oder Crawling-Dienst übernimmt IP-Rotation, Header-Verwaltung, Wiederholungsversuche und CAPTCHA-Lösung für Sie, sodass Ihr Traffic sich einpasst und Ihre eigenen Adressen aus der Schusslinie bleiben. Das verhindert, dass ein legitimer Crawl markiert wird, und schützt Ihre Infrastruktur, ist aber kein Weg, die Regeln einer Website zu umgehen. Sie sind weiterhin dafür verantwortlich, Nutzungsbedingungen, robots.txt und vernünftige Rate-Limits zu respektieren, unabhängig davon, wer die Anfragen weiterleitet.

Farah Qadeer

Content-Visualisierung · Crawlbase

Spezialistin für Content-Visualisierung bei Crawlbase, die dichte Themen rund um Proxys und Web Scraping in klare Grafiken und Schritt-für-Schritt-Anleitungen verwandelt.

Jetzt loslegen

Crawlen Sie jede Website im großen Maßstab, ohne gegen die Infrastruktur zu kämpfen.

Crawlbase übernimmt Proxys, Fingerprints und CAPTCHAs, damit Ihr Team Datenpipelines ausliefert, statt Crawl-Infrastruktur zu pflegen. 1.000 Anfragen kostenlos, keine Karte erforderlich.

Kostenlosen API-Schlüssel erhalten →Dokumentation lesen

Self-Service · Kein Verkaufsgespräch erforderlich · Enterprise-Crawl-Volumen verfügbar