Es gibt Dateien die selbst für Suchmaschinen oder sogar insbesondere für sie relevant sind, die aber nichts im Such-Index zu suchen haben. So ist darauf zu achten, dass auch nur Dateien in den Such-Index geraten, die dort hin gehören also z.B. nicht die folgende Dateien:
- robots.txt
- sitemap.xml
- rss.rdf
- atom.xml
Beispiele wie Sie diese Dateien finden wenn Sie sich nicht sicher sind:
site:[your domain] robots
site:[your domain] sitemap
Für den Apache Webserver sollten in der .htaccess die folgenden Passagen eingefügt werden, damit die sitemap.xml und die robots.txt nicht im Google Index erscheinen:
Falls Sie direkt alle XML-, RDF- und TXT-Dateien aus dem Google Index verbannen wollen:
Sicherlich macht es Sinn bei dynamisch generiertem Inhalt, der nicht indiziert werden soll, im Header diese Werte direkt bei der Erzeugung zu setzen!