Robots Exclusion Standard
Ook wel: Robots Exclusion Protocol of robots.txt
Het Robots Exclusion Protocol omvat enkele mogelijkheden om zoekmachines aanwijzingen te geven welke pagina’s binnen een website wel en niet geïndexeerd mogen worden. Deze mogelijkheden kunnen worden gebruikt wanneer het onwenselijk is dat bepaalde pagina’s worden opgenomen in zoekresultaten.
De ‘robots’ zijn meestal de spiders van zoekmachines, programma’s die voor zoekmachines continu het web afspeuren naar nieuwe informatie. Er zijn ook web robots voor andere doeleinden. Of de aanwijzingen volgens de standaard worden opgevolgd is afhankelijk van het betreffende robot. Het protocol biedt dus geen garanties. De crawlers van de meeste grote zoekmachines (zoals Google en Bing) respecteren deze standaarden.
Een protocol dat dient om pagina’s juist wél te laten opnemen in zoekmachines is de XML Sitemap.
Robots.txt
Robots.txt is een bestand dat wordt opgeslagen binnen de hoofdmap van een domein (domeinnaam.nl/robots.txt) en zoekmachines vertelt welke locaties binnen de website ze wel of juist niet mogen opvragen.
Voorbeeld van een robots.txt-bestand:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
In dit voorbeeld krijgen alle robots de opdracht om geen locaties binnen de mappen /cgi-bin/ en /admin/ te crawlen. In dit voorbeeld wordt meteen een nadeel van robots.txt duidelijk: de openheid van het bestand kan locaties die we liever niet onder de aandacht brengen ook juist blootleggen.
Er kunnen meerdere voorwaarden en regels onder elkaar worden geplaatst. Een gedeelte dat zich puur richt op de crawlers van Google begint bijvoorbeeld met de regel “User-agent: googlebot”. Met de prefix “Allow:” kunnen ook uitzonderingen worden gemaakt die juist wel benaderd mogen worden.
Robots.txt geeft puur aan welke locaties niet door spiders opgevraagd mogen worden. In theorie kan een zoekmachine zo’n locatie wel opnemen in de zoekresultaten, het heeft dan alleen geen kennis van de inhoud van de pagina.
Een andere mogelijkheid om het gedrag van spiders te beïnvloeden is een speciale metatag voor robots. Deze HTML-tag voorkomt niet dat spiders de content van een pagina opvragen, maar geeft vervolgens wel meer controle over wat er met de locatie en inhoud gebeurt.
Voorbeeld van een robots-metatag:
<meta name="robots" content="noindex,nofollow" />
In dit voorbeeld wordt voorgeschreven dat de locatie van de pagina niet mag worden opgenomen in zoekresultaten. Tevens mogen hyperlinks op de pagina niet worden gevolgd. Tegenhangers van “noindex” en “nofollow” zijn “index” (wel opnemen) en “follow” (links wel volgen).