13.04.2026 | Lesezeit: ca. 6 Minuten

Web-Crawler erklärt — wer Deine Webseite besucht

Wer da klopft, was er will

Roboter klopft an leuchtende Haustür neben Ordnern, Kette und Lupe

Vor zwei Jahren bestand die Bot-Liste in Deinen Server-Logs aus zwei, drei Namen, etwa Googlebot, Bingbot, vielleicht ein YandexBot. Heute scrollst Du durch dieselbe Datei und findest GPTBot, ClaudeBot, PerplexityBot, dazu eine Handvoll Tool-Bots, von denen Du noch nie gehört hast.

Du musst erfreulicherweise nicht jeden einzelnen kennen, um zu verstehen, was da passiert. Crawler lassen sich in drei Familien einteilen, und sobald Du die kennst, ordnest Du jeden neuen Bot in Sekunden ein. Du entscheidest dann auch, wer Zugang behält und wer nicht.

Welche Crawler heute typischerweise vorbeischauen, lässt sich im Logfile gut auseinanderhalten, vom Suchmaschinen-Bot bis zum KI-Bot, den Du gezielt vom Training Deiner Inhalte ausschließen kannst. Die Crawl-Daten verraten Dir nebenbei einiges über den Zustand Deiner Webseite.

Wer da klopft — die drei Crawler-Familien

Egal welcher Bot bei Dir vorbeischaut, er gehört mit hoher Wahrscheinlichkeit zu einer dieser drei Gruppen. Die Trennung ist nicht akademisch, sie hilft Dir zu entscheiden, welche Crawler Du willkommen heißt und welche Du regulieren möchtest.

Such-Bots sind die klassischen Indexer: Googlebot, Bingbot, DuckDuckBot, YandexBot, Baiduspider. Sie lesen Deine Seiten, um sie in den Suchergebnissen einer Suchmaschine sichtbar zu machen. Diese Crawler willst Du in der Regel auf der Webseite haben, weil sie der Grund sind, warum Du in Google überhaupt gefunden wirst. Wie genau diese Familie arbeitet, ist im Beitrag wie Suchmaschinen Inhalte erfassen ausführlich beschrieben.

KI-Bots sind die neue Familie seit 2023. GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended, PerplexityBot, CCBot (Common Crawl), Bytespider (ByteDance), Applebot-Extended, Amazonbot. Sie zerfallen intern in zwei Untergruppen. Training-Crawler sammeln Inhalte für das Training neuer Sprachmodelle ein. Antwort-Crawler holen in Echtzeit Quellen für KI-Antworten, wenn jemand eine Frage stellt. Beide nutzen denselben Stoff (Deine Inhalte), aber für unterschiedliche Zwecke.

SEO-Tools-Bots sind die kommerzielle Wettbewerbs-Analyse: AhrefsBot, SemrushBot, MJ12bot, DotBot, Screaming Frog. Sie crawlen Deine Webseite, damit ihre Kunden (meist andere Webseitenbetreiber) sehen können, welche Backlinks Du hast und auf welche Keywords Du rankst. Für Dich selbst bringen diese Bots keinen direkten Mehrwert, kosten aber Server-Ressourcen.

Wie Du Crawler im Logfile identifizierst

Das wichtigste Erkennungsmerkmal eines Bots ist sein User-Agent. Das ist eine Zeichenkette, die jeder Browser und jeder Crawler bei jedem Seitenaufruf mitschickt. Eine typische Zeile aus Deinem Apache- oder nginx-Log sieht so aus:

66.249.66.1 - - [01/May/2026:08:14:22 +0200] "GET /sitemaps-mit-stil/ HTTP/2.0" 200 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Der Teil in den Anführungszeichen am Ende ist der User-Agent. Daran erkennst Du den Bot mit bloßem Auge.

Aber Vorsicht: User-Agents lassen sich beliebig fälschen. Jeder dahergelaufene Scraper kann sich als Googlebot ausgeben. Wenn Du Dir bei einem verdächtigen Treffer wirklich sicher sein willst, hilft die Reverse-DNS-Verifikation. Du nimmst die IP-Adresse aus dem Logeintrag und prüfst, ob sie wirklich zu googlebot.com, openai.com oder dem entsprechenden Anbieter zurückführt. Auf der Kommandozeile geht das mit host <ip>, im Browser über öffentliche Reverse-DNS-Tools. Nur die offiziellen IP-Bereiche der Anbieter geben dabei den passenden Hostnamen zurück.

Auch das Frequenz-Muster verrät den Bot-Typ: Googlebot kommt regelmäßig und gleichmäßig, weil er Deine Seite kontinuierlich aktuell hält. AhrefsBot kommt stoßweise, oft hunderte Aufrufe in wenigen Minuten, dann tagelang nichts. Wenn Dir ein Bot durch hohe Frequenz negativ auffällt, ist das fast immer ein SEO-Tool-Bot oder ein Scraper.

KI-Bots per robots.txt blockieren

Wenn Du nicht möchtest, dass Deine Inhalte zum Training neuer KI-Modelle verwendet werden, ist die robots.txt Dein primäres Werkzeug. Es ist eine schlichte Textdatei im Wurzelverzeichnis Deiner Webseite, erreichbar unter deine-domain.de/robots.txt. Sie sagt jedem Crawler beim ersten Besuch, welche Bereiche er lesen darf und welche nicht.

Für einen klaren Opt-Out gegenüber den verbreitetsten KI-Bots reicht ein Block wie dieser:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Dieser Block hält Deine Inhalte aus dem Trainings-Material zuverlässiger Anbieter wie OpenAI, Google, Anthropic und Apple heraus, lässt die normale Auffindbarkeit über die Suche aber unberührt. Aggressivere Crawler ignorieren die Datei mitunter, dann hilft erst ein Block per .htaccess oder in der nginx-Konfiguration.

Die robots.txt-Datei selbst macht im Zusammenspiel mit Sitemaps und allgemeinen Crawl-Regeln noch mehr. Wie sich robots.txt und Sitemap in der Aufgaben-Trennung ergänzen, warum Disallow nicht mit noindex zu verwechseln ist und welche Praxis-Fehler immer wieder passieren, ist Thema eines eigenen Beitrags. Hier liegt der Fokus auf dem technischen KI-Opt-Out.

Was Crawler-Daten Dir verraten

Crawler-Aktivität ist nicht nur ein Sicherheits- oder Aussperr-Thema. Wer regelmäßig in seine Logfiles oder in die Search Console schaut, bekommt nebenbei wertvolle Hinweise auf den Zustand der eigenen Webseite.

Die Google Search Console stellt unter „Crawling-Statistik" Daten bereit, die ohne Logfile-Analyse zugänglich sind. Sichtbar wird, wie oft Googlebot kommt, wie viele URLs er findet und welche Antwort-Codes er zurückbekommt. Drei Muster lohnen sich besonders:

404-Häufungen: Wenn Googlebot regelmäßig auf nicht existierende Seiten stößt, sind das fast immer tote interne Links oder alte URLs, die noch in Backlinks verlinkt sind. Beide gehören aufgeräumt.
Plötzlicher Crawl-Rückgang: Wenn die Crawl-Frequenz spürbar einbricht, deutet das auf ein Indexierungsproblem hin, etwa eine fehlerhaft gesetzte noindex-Direktive oder ein Server-Timeout, der Googlebot abschreckt.
5xx-Häufungen: Server-Fehler im Crawl-Bericht heißen, dass Deine Seite zeitweise nicht erreichbar ist. Wenn das Muster hat, ist es ein Hosting-Problem, kein Inhalts-Problem.

Eine saubere Sitemap macht diesen Blick noch ergiebiger, weil sie Googlebot eine vollständige Liste aller relevanten URLs vorlegt. Du siehst in der Search Console direkt, welche davon tatsächlich aufgerufen und indexiert wurden.

Praktischer Mini-Plan für Dich

Du brauchst keine Logfile-Analyse-Software und keinen wöchentlichen Termin im Kalender. Eine fünfminütige Routine alle drei Monate genügt, um Bot-Verkehr im Griff zu behalten.

Logfile öffnen oder die Crawl-Statistik der Search Console aufrufen.
User-Agent-Top-10 anschauen: Wer kommt am häufigsten? Sind das die erwartbaren Such-Bots, oder mischen sich auffällige Tool-Bots dazwischen?
Unbekannten Bot kurz recherchieren: Name in die Suche eingeben oder Reverse-DNS prüfen. Meistens reichen zwei Minuten, um zu wissen, ob Du den Crawler tolerieren willst.
robots.txt jährlich abgleichen: Die KI-Bot-Liste wächst, neue User-Agents kommen monatlich dazu. Einmal pro Jahr Deine Disallow-Blöcke gegen aktuelle Listen prüfen reicht für die meisten Webseiten.
Auffälligkeiten dokumentieren: Wenn ein Bot hartnäckig die robots.txt ignoriert oder ungewöhnlich aggressiv crawlt, notier ihn. Beim nächsten Hoster-Gespräch oder beim Server-Update wird die Notiz nützlich.

Diese Routine macht aus den unsichtbaren Logfile-Zeilen ein verständliches Bild davon, wer Deine Webseite besucht und warum.

Fazit — Sichtbarkeit steuern statt erleiden

Crawler verstehen ist der unspektakuläre Unterbau dessen, was wir auf der Oberfläche „Online-Sichtbarkeit" nennen. Solange Du nicht weißt, wer Deine Webseite besucht und mit welcher Absicht, ist jede SEO-Maßnahme ein Schuss ins Dunkle.

Mit der Drei-Familien-Einteilung im Kopf, einer durchdachten robots.txt und dem regelmäßigen Blick in die Crawl-Statistik bekommst Du genau diesen Unterbau in den Griff. Du entscheidest, welche Suchmaschinen Dich indexieren, welche KI-Modelle aus Deinen Inhalten lernen dürfen und welche kommerziellen Tools-Bots Du am Server-Eingang abweist. Strategisch ist das wenig, aber praktisch macht es den Unterschied zwischen jemandem, der seine Webseite betreibt, und jemandem, der sie nur hat.

Ob Du die KI-Crawler unter ihnen zulässt oder aussperrst, klärt der Beitrag KI-Crawler steuern.

Zurück