Ist eine robots.txt Datei erforderlich?
Bei der robots.txt handelt es sich um eine kleine Textdatei, welche im Hauptverzeichnis (root) einer Domain abgelegt wird. In den Anfangszeiten der Suchmaschinenoptimierung war sie hauptverantwortlich für die Steuerung von Suchmaschinen sowie für die Indexierung von Inhalten. Sie legt also fest, was Bots auf einer Website tun dürfen. Mittlerweile ist SEO jedoch ein sehr komplexes Thema, sodass sich die Frage stellt, inwiefern die robots.txt überhaupt noch notwendig ist.
Zwingend erforderlich ist die robots.txt tatsächlich nicht mehr. Fehlt sie, setzen die Bots die Erlaubnis für das Crawlen von Protokoll-, Subdomain oder Domain-Kombination voraus. Wer die Bots allerdings aktiv steuern will, muss eine robots.txt anlegen. Hier genügt in den meisten Fällen der Standardeintrag, also beispielsweise:
User-Agent: *
Disallow:
Sitemap: https://yourdomain.ch/sitemap.xml
Weitere Einträge in die robots.txt
Es besteht die Möglichkeit, weitere Einträge in der robots.txt vorzunehmen. Wenn sich Suchmaschinen regelmässig auf einer Website „verlaufen“ und etwa wichtige Bereiche ignorieren, während unwichtigen Bereichen zu viel Aufmerksamkeit geschenkt wird, kann die robots.txt eine Lösung des Problems bieten – zumindest dann, wenn alle anderen Lösungsmöglichkeiten fehlschlugen. Auch wenn eine schnelle Lösung gefragt ist, ist ein Eintrag in der robots.txt eine gute Übergangslösung. Vielleicht erzeugt das Crawlen auch eine zu grosse Last. In diesem Fall können einzelne Seitenbereiche über die robots.txt gesperrt werden.
Unklug ist es, über Disallow eine De-Indexierung erreichen zu wollen, denn hierdurch wird die Aufmerksamkeit innerhalb der robots.txt auf Inhalte gezogen, die doch eigentlich verborgen werden sollen.
Besonderheiten der robots.txt
Das bedeutet also, dass die robots.txt den Bots zwar das Crawlen der Website verbieten kann, nicht aber ihre Indexierung. Wenn also beispielsweise viele Links zu einer URL gefunden werden, die über robots.txt gesperrt ist, wird sie trotzdem in der Suche erscheinen. Verwendet wird in der Regel der häufigste Link-Text gemeinsam mit der Info, dass für die betreffende Website keine Informationen verfügbar sind. Die De-Indexierung bestimmter Seitenbereiche lässt sich über „noindex“ im Bereich des HTMLs der jeweiligen Seiten erreichen. Damit diese Info ausgelesen werden kann, muss der Bereich allerdings für das Crawling zugelassen sein.
Auch bei Links müssen die Besonderheiten der robots.txt bedacht werden. Ist eine Datei auf der robots.txt gesperrt, ist ihre Indexierung zwar möglich, aber sie ist in Hinblick auf die Suchmaschinenoptimierung wertlos. Gleiches gilt für externe Links von für Suchmaschinen gesperrten Websites.
Funktioniert die robots.txt?
Bei der robots.txt gibt es einige Fehler, die immer wieder auftauchen. Zum einen werden oft Leerzeichen falsch gesetzt, was eine fehlerhafte Konfiguration zur Folge hat. Die Pfadangaben sind ebenfalls eine häufige Fehlerquelle, weil sie oft widersprüchlich oder zu weitreichend sind. Auch immer wieder zu finden ist der Versuch einer De-Indexierung von Dateien über Disallow.
Um zu überprüfen, ob die eigene robots.txt-Datei funktioniert, stellt die Google Search Console einen Robots.txt Tester bereit. Wenn Sie sich noch unsicher sind, ob Sie eine robots.txt für Ihre Website benötigen, oder nicht wissen, ob Ihre robots.txt Ihren Wünschen entsprechend funktioniert, können Sie gern mit uns Kontakt aufnehmen. Wir beraten Sie ausführlich!
Sind Sie interessiert an einer individuellen Web-Applikation? Gerne beraten wir Sie auf unserer kostenlosen Hotline 044 534 6666 oder über unser Kontaktformular.