27.03.2026 | Lesezeit: ca. 6 Minuten

robots.txt und Sitemap — was wofür da ist

Schild an der Tür, Karte im Inneren

Roboter am Stoppschild vor offenem Haus mit Karte auf der Staffelei

Wenn Du Deine Webseite bei Google anmeldest oder Dich fragst, warum bestimmte Seiten nicht in den Suchergebnissen auftauchen, stolperst Du fast zwangsläufig über zwei Begriffe: robots.txt und Sitemap. Beide werden gerne in einem Atemzug genannt. Und genau das ist die Quelle der häufigsten Verwechslung.

Sie tun nämlich nicht dasselbe. Die robots.txt ist das Schild an der Tür, das Suchmaschinen sagt, wohin sie dürfen. Die Sitemap ist der Stadtplan, der ihnen zeigt, was es überhaupt zu sehen gibt. Beide arbeiten zusammen, lösen aber unterschiedliche Probleme. Nur wenn Du den Unterschied sauber im Kopf hast, vermeidest Du die teuren Anfänger-Fehler. Eine Grundlage dazu, wie Suchmaschinen Deine Inhalte überhaupt finden, hilft, das Folgende einzuordnen.

robots.txt — das Schild an der Tür

Die robots.txt ist eine schlichte Textdatei im Wurzelverzeichnis Deiner Domain, also unter deine-domain.de/robots.txt. Sie folgt dem Robots Exclusion Protocol, einem inoffiziellen Standard. Daran halten sich seriöse Suchmaschinen wie Google, Bing, DuckDuckGo, aber auch AI-Crawler wie GPTBot oder Google-Extended.

Der Aufbau ist kompakt. Du sagst pro Crawler-Typ (User-agent), welche Pfade er nicht abrufen darf. Ein Minimal-Beispiel:

User-agent: *
Disallow: /intern/
Disallow: /admin/
Allow: /

Sitemap: deine-domain.de/sitemap.xml

Die Direktiven sind schnell erklärt. User-agent adressiert einen bestimmten Crawler, oder mit Stern alle, die überhaupt vorbeikommen. Disallow sperrt einen Pfad, Allow hebt eine Sperre punktuell wieder auf. Die Sitemap-Zeile am Ende verweist auf den Stadtplan. Dazu gleich mehr.

Die wichtigste Erkenntnis steckt aber in einem Detail, das fast alle übersehen: Disallow verhindert nur das Crawling, nicht die Indexierung. Wenn eine gesperrte Seite anderswo verlinkt ist, kann Google sie trotzdem in den Suchergebnissen anzeigen. Sie erscheint dann ohne Inhalt, mit dem Hinweis, dass die Beschreibung wegen robots.txt nicht verfügbar sei. Wer eine Seite wirklich aus dem Index halten will, braucht einen anderen Hebel.

Sitemap — der Stadtplan Deiner Webseite

Die Sitemap ist eine XML-Datei, die alle wichtigen URLs Deiner Webseite auflistet, typischerweise unter deine-domain.de/sitemap.xml. Pro Eintrag stehen mindestens die URL und das Datum der letzten Änderung. Die optionalen Felder changefreq und priority werden von modernen Crawlern weitgehend ignoriert, lastmod ist das einzige Signal, das wirklich noch verarbeitet wird.

So sieht ein Eintrag aus:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://deine-domain.de/</loc>
    <lastmod>2026-04-30</lastmod>
  </url>
  <url>
    <loc>https://deine-domain.de/leistungen/</loc>
    <lastmod>2026-04-12</lastmod>
  </url>
</urlset>

Die Spezifikation begrenzt eine Sitemap auf 50 000 URLs oder 50 MB unkomprimiert. Wer mehr braucht, splittet auf mehrere Dateien und referenziert sie über eine Sitemap-Index-Datei. Für die meisten Webseiten ist das aber irrelevant. Eine Visitenkarte mit fünfzig Seiten passt locker in eine einzige Sitemap.

Neben dem klassischen XML-Format existieren Varianten für Spezialfälle. News-Sitemaps mit eigenem Namespace dienen Verlagen, Image- und Video-Sitemaps decken Mediengalerien ab, schlichte Text-Sitemaps führen eine URL pro Zeile. Wenn Du der Sitemap zusätzlich ein eigenes Gesicht geben möchtest, verlinkt Dir der Beitrag Sitemaps mit Stil einen Weg über XSLT. Die XML-Datei bekommt dann auch im Browser eine lesbare Darstellung.

Wie beide zusammenarbeiten

Die robots.txt und die Sitemap sind kein Entweder-Oder. Sie ergänzen sich. Die robots.txt regelt das Wohin, die Sitemap das Was. Und sie sprechen miteinander: die Sitemap:-Zeile in der robots.txt sagt jedem Crawler, der vorbeikommt, wo er den Stadtplan findet.

Praktisch ruft ein Crawler als allererstes Deine robots.txt ab. Er liest die Sperrliste und merkt sich gleichzeitig, dass Du eine Sitemap unter Adresse X anbietest. Dann holt er sich die Sitemap, kennt nun alle URLs, die Dir wichtig sind, und arbeitet sie nacheinander ab. Die in robots.txt gesperrten Pfade lässt er dabei aus.

Die Search Console schließt den Kreis. Dort reichst Du die Sitemap-URL einmal manuell ein, und Google bestätigt Dir die erfolgreiche Verarbeitung sowie die Anzahl der gefundenen URLs. Beide Wege solltest Du nutzen, also die Referenz in der robots.txt und die Anmeldung in der Search Console, weil sie unabhängig voneinander funktionieren.

Wann brauchst Du was

Nicht jede Webseite braucht beides in voller Pracht. Drei Fälle, an denen Du Dich orientieren kannst:

Mini-Site mit fünf bis zehn Seiten: Eine robots.txt ist sinnvoll, schon allein um den Sitemap-Verweis zu setzen oder einen Admin-Pfad auszuschließen. Eine eigene Sitemap ist optional. Google findet so wenige Seiten auch ohne.
Online-Shop mit hunderten Produkten: Beides ist Pflicht. Die Sitemap stellt sicher, dass auch verschachtelte Produktseiten und Filter-Kategorien gefunden werden. Die robots.txt sperrt Warenkorb-, Login- und Filter-Parameter aus, die sonst den Crawl-Etat verbrennen.
News-Blog oder redaktionelle Seite: Eine reguläre Sitemap plus eine separate News-Sitemap mit dem speziellen news-Namespace, damit Google News neue Artikel innerhalb von Minuten erfassen kann. Ein paralleler RSS-Feed schadet nicht, ersetzt die Sitemap aber nicht.

Faustregel: sobald Deine Seite mehr als zwanzig Unterseiten hat oder sich regelmäßig ändert, gehört eine Sitemap dazu. Die robots.txt ist immer gut, wenigstens als Verweis-Datei für die Sitemap.

Die häufigsten Fehler

Vier Stolperfallen, die in der Praxis immer wieder auftauchen:

Versehentliches Disallow: /: Ein einziger Schrägstrich an der falschen Stelle sperrt die gesamte Webseite für alle Crawler. Das passiert oft beim Migrieren von einer Staging-Umgebung. Dort ist die Komplettsperre richtig, in Produktion eine Katastrophe. Innerhalb weniger Tage verschwindet die Seite aus den Suchergebnissen.
Sitemap nicht in robots.txt referenziert: Ohne den Sitemap:-Eintrag muss jeder Crawler raten oder Du musst die URL überall manuell einreichen. Eine einzige Zeile spart Dir das.
CSS und JavaScript blockiert: Wer aus alter Gewohnheit /wp-includes/, /typo3temp/ oder ähnliche technische Pfade sperrt, riskiert eine Mobile-Friendly-Warnung in der Search Console. Google kann die Seite ohne CSS nicht korrekt rendern und stuft sie als nicht responsiv ein.
Glaube, Disallow verhindere Indexierung: Tut es nicht. Wer eine Seite wirklich aus dem Index halten will, setzt einen noindex-Meta-Tag im HTML oder den Header X-Robots-Tag: noindex auf Server-Seite. Wichtig dabei: die Seite darf nicht via robots.txt gesperrt sein, sonst kann Google den noindex-Hinweis gar nicht lesen.

Punkt vier ist der teuerste Irrtum, weil er die Logik beider Mechanismen verdreht. Merke Dir die einfache Regel: robots.txt steuert das Crawling, noindex steuert die Indexierung. Zwei Hebel, zwei Ebenen.

Praxis — prüfen, einreichen, kontrollieren

Drei Schritte gehören zur sauberen Inbetriebnahme:

Erstens: ruf Deine eigene robots.txt direkt im Browser auf, um zu prüfen, dass sie überhaupt erreichbar ist und plausibel aussieht. Die Search Console hat zusätzlich einen robots.txt-Bericht, der Dir Syntaxfehler und blockierte URLs anzeigt. Das ist der Sicherheitsgurt, bevor Du eine geänderte Datei live schaltest.

Zweitens: trag die Sitemap-URL in der Search Console unter dem Tab Sitemaps ein, damit Google sie verarbeitet und die gefundenen URLs zurückmeldet.

Drittens: kontrolliere regelmäßig in der Index-Abdeckung der Search Console, welche URLs tatsächlich indexiert sind und welche ausgelassen wurden. Wie Du die Sitemap einreichst und den Status liest, zeigt Sitemaps mit Stil im Detail.

Fazit — zwei Dateien, klare Aufgaben

Wenn Du nur eine Sache aus diesem Beitrag mitnehmen willst, dann diese: robots.txt regelt den Zugang, die Sitemap zeigt den Bestand. Beide arbeiten zusammen, aber sie ersetzen sich nicht. Disallow ist kein Synonym für „aus dem Index nehmen".

Mit einer durchdachten robots.txt sperrst Du die Pfade, die Crawler nicht zu sehen brauchen, und führst sie über die Sitemap-Zeile zum Stadtplan. Mit einer aktuellen Sitemap stellst Du sicher, dass auch versteckte Unterseiten gefunden werden. Und mit einem regelmäßigen Blick in die Search Console kontrollierst Du, dass beide Dateien tun, was Du beabsichtigt hast. Das ist die kleine, disziplinierte Routine, die für Deine Sichtbarkeit im Suchmaschinen-Ergebnis mehr leistet als die meisten kompliziert klingenden SEO-Tricks.

Wie der neue KI-Wegweiser llms.txt dazukommt, erklärt der Beitrag llms.txt erklärt.

Zurück