Alles, was du über SEO wissen musst: Robots.txt
Table of Contents:
- 🤖 Was ist eine robots.txt-Datei?
- 📄 Aufbau einer robots.txt-Datei
- 2.1 Die Direktiven
- 2.2 Die User-Agents
- 2.3 XML-Sitemap-URL
- ⚙️ Wichtige Regeln für die robots.txt
- 3.1 Disallow
- 3.2 Allow
- 3.3 Crawl-Delay
- 3.4 No-Index
- 3.5 No-Follow
- 🔍 Wie interpretiert Google die robots.txt-Direktiven?
- 🕵️♂️ Best Practices für die robots.txt
- 5.1 Verwendung von Wildcards
- 5.2 Jeden User-Agent nur einmal erwähnen
- 5.3 Spezifische Direktiven verwenden
- 🔒 Beispiele für robots.txt-Regeln
- 6.1 Verhindern des Crawlings eines bestimmten Verzeichnisses
- 6.2 Blockieren eines bestimmten User-Agents
- 6.3 Verhindern des Crawlings einer einzelnen Seite
- 6.4 Blockieren von Google-Bildern
- 6.5 Blockieren bestimmter Dateitypen
- 💡 Best Practices für die Verwendung der robots.txt-Datei
- 7.1 Verwendung von Disallows zur Vereinfachung der Direktiven
- 7.2 Jeden User-Agent nur einmal erwähnen
- 7.3 Seien Sie spezifisch bei den Direktiven
- 💻 Verbessern Sie Ihre Suchmaschinenoptimierung mit SEO Testing
- ❓ Häufig gestellte Fragen (FAQs)
- 9.1 Was passiert, wenn die robots.txt-Datei nicht vorhanden ist?
- 9.2 Können Bots die Anweisungen in der robots.txt-Datei ignorieren?
- 9.3 Wie behandelt Google ungültige Linien, Kommentare und Direktiven ohne Pfad?
- 9.4 Kann ich mehrere XML-Sitemaps in der robots.txt-Datei angeben?
- 9.5 Was sollte ich tun, wenn ich Konflikte zwischen Regeln in der robots.txt habe?
🤖 Was ist eine robots.txt-Datei?
Eine robots.txt
-Datei ist eine Textdatei, die Suchmaschinen-Bots wie Google-Crawler darüber informiert, welche Seiten oder Abschnitte einer Website gecrawlt werden dürfen und welche nicht. Sie ist eine der wichtigsten Dateien auf Ihrer Website, da sie dazu beiträgt, eine Überlastung Ihrer Server durch das Crawlen von Bots zu vermeiden.
📄 Aufbau einer robots.txt-Datei
Eine gültige robots.txt
-Datei sollte drei Dinge enthalten: die Direktiven, die User-Agents und die XML-Sitemap-URL (optional). Die Direktiven sind Anweisungen, die jeder User-Agent (Crawler) innerhalb derselben Gruppe befolgen muss. Die User-Agents identifizieren die Crawler (z.B. der Google-Crawler wird als "Googlebot" bezeichnet), und die Gruppen benennen die User-Agents und die zugehörigen Direktiven. Die XML-Sitemap-URL kann auch in der robots.txt
-Datei erwähnt werden, ist aber nicht erforderlich.
⚙️ Wichtige Regeln für die robots.txt
3.1 Disallow
Die Disallow
-Direktive teilt den Crawlern mit, dass sie eine bestimmte URL oder einen bestimmten Abschnitt der Website nicht besuchen dürfen. Diese Regel wird am häufigsten in der robots.txt
-Datei verwendet, da standardmäßig keine Einschränkungen für das Crawling von Seiten durch Bots bestehen.
3.2 Allow
Die Allow
-Direktive teilt den Crawlern mit, dass sie eine bestimmte URL oder einen bestimmten Abschnitt der Website besuchen und crawlen dürfen. Diese Regel wird hauptsächlich verwendet, um eine Disallow
-Direktive zu überschreiben, wenn Sie möchten, dass ein bestimmter Abschnitt sowohl von Bots als auch von Crawlern durchsucht wird.
3.3 Crawl-Delay
Die Crawl-Delay
-Direktive begrenzt die Häufigkeit, mit der Crawler URLs besuchen, um eine Überlastung der Server zu vermeiden. Nicht alle Crawler unterstützen diese Direktive, und sie interpretieren die Wartezeit möglicherweise unterschiedlich.
3.4 No-Index
Die No-Index
-Direktive in der robots.txt
verhindert, dass URLs indexiert werden. Google hat jedoch 2019 die Unterstützung für diese Direktive eingestellt, da sie nie dokumentiert wurde.
3.5 No-Follow
Die No-Follow
-Direktive teilt den Crawlern mit, dass sie Links in einer URL nicht verfolgen sollen. Dies ähnelt der Verwendung des NoFollow
-Tags, gilt jedoch für alle URLs auf der Seite. Google unterstützt diese Direktive ebenfalls nicht.
🔍 Wie interpretiert Google die robots.txt-Direktiven?
Google interpretiert die robots.txt
-Direktiven auf verschiedene Weisen. In einigen Szenarien ignoriert Googlebot ungültige Linien, Kommentare und Direktiven ohne Pfad. Bei Fehlern meldet Google normalerweise einen 429-Statuscode. Wenn Google 4xx- und 429-Statuscodes erhält, interpretiert es dies als keine Crawling-Beschränkungen.
🕵️♂️ Best Practices für die robots.txt
- 5.1 Verwendung von Wildcards: Verwenden Sie Wildcards (Platzhalter) in den Direktiven, um umfangreichere Regeln zu erstellen.
- 5.2 Jeden User-Agent nur einmal erwähnen: Jeder User-Agent sollte nur einmal erwähnt werden, um Verwirrung zu vermeiden.
- 5.3 Seien Sie spezifisch bei den Direktiven: Geben Sie spezifische URLs und Verzeichnisse an, um unbeabsichtigte Auswirkungen zu vermeiden.
💡 Best Practices für die Verwendung der robots.txt-Datei
- 7.1 Verwendung von Disallows zur Vereinfachung der Direktiven: Verwenden Sie Disallows, um die Direktiven in der Datei zu vereinfachen und die Anweisungen in einer einzigen Ausdrucksweise zu gruppieren.
- 7.2 Jeden User-Agent nur einmal erwähnen: Jeder Crawler sollte nur einmal erwähnt werden, um mögliche Verwirrung zu vermeiden.
- 7.3 Seien Sie spezifisch bei den Direktiven: Seien Sie spezifisch bei den Direktiven, um unbeabsichtigte Konsequenzen bei der Indexierung wichtiger Abschnitte Ihrer Website zu vermeiden.
💻 Verbessern Sie Ihre Suchmaschinenoptimierung mit SEO Testing
Verwenden Sie SEO Testing, um Ihre Google Search Console-Daten optimal zu nutzen. Durch die Einrichtung von SEO-Tests können Sie herausfinden, welche Änderungen auf Ihrer Website zu einem Anstieg des Traffics führen. Mit unserem 14-tägigen kostenlosen Test können Sie unsere Tools ausprobieren und herausfinden, wie Sie Ihren Website-Traffic steigern können.
❓ Häufig gestellte Fragen (FAQs)
9.1 Was passiert, wenn die robots.txt-Datei nicht vorhanden ist?
Bots verhalten sich so, als gäbe es keine Einschränkungen auf der Website. Sie können alle Seiten crawlen, indexieren und ranken.
9.2 Können Bots die Anweisungen in der robots.txt-Datei ignorieren?
Ja, Bots haben die Möglichkeit, die Anweisungen in der robots.txt-Datei zu ignorieren, obwohl die meisten sich an die Anweisungen halten.
9.3 Wie behandelt Google ungültige Linien, Kommentare und Direktiven ohne Pfad?
Google ignoriert ungültige Linien, Kommentare und Direktiven ohne Pfad in der robots.txt-Datei.
9.4 Kann ich mehrere XML-Sitemaps in der robots.txt-Datei angeben?
Ja, es ist möglich, mehrere XML-Sitemaps in der robots.txt-Datei anzugeben.
9.5 Was sollte ich tun, wenn ich Konflikte zwischen Regeln in der robots.txt habe?
Wenn es Konflikte zwischen Regeln in der robots.txt gibt, verwendet Google die weniger restriktiven Direktiven. Achten Sie darauf, klare und konfliktfreie Regeln zu erstellen.
Resources: