Robots txt Datei

Robots txt Datei

Die Robots txt Datei (oder auch Robots-Exlusion-Standard-Protokoll) wird im Hauptverzeichnis einer Webseite platziert (www.domain.de/robots.txt) und gibt dem Crawler einer Suchmaschine die Anweisung, welche Verzeichnisse gecrawlt und welche nicht gecrawlt werden dürfen.

Eine Robot txt Datei ist wie folgt aufgebaut:

# robots.txt zu http://www.ihre-webseite.de/

User-agent: *

Disallow: /login/

Disallow: /temp/

Disallow: /bestimmter-pfad-der-nicht-indexiert-werden-soll/

In die erste Zeile der Robots txt Datei, steht die Domain der entsprechenden Webseite. Die zweite Zeile (User-agent: *) gibt an, welche Crawler auf der jeweiligen Webseite zugelassen sind. Ein * Zeichen bedeutet, dass alle Suchmaschinen-Crawler die Seite untersuchen dürfen. Mit dem Befehl Disallow können bestimmte Pfade für Webcrawler ausgeschlossen werden. Diese Pfade landen dann nicht im Index von beispielsweise Google. Eine exemplarische Robots txt Datei kann hier heruntergeladen werden.

Robots txt Datei
Robots txt Datei
Die Robots txt Datei wird im Hauptverzeichnis einer Webseite platziert und erlaubt Suchmaschinen Verzeichnisse zu crawlen oder nicht zu crawlen.
perfecttraffic