Zoeken
Menu

Robots.txt is een klein maar erg belangrijk bestand dat met name door developers en online marketeers wordt gebruikt. Met een robots.txt vertel je zoekmachines welke pagina’s van een website wel of niet gecrawld mogen worden. Dat klinkt misschien wat technisch, maar de werking is eigenlijk heel eenvoudig. In deze blog leg ik je uit wat robots.txt precies is, hoe het werkt, en waarom het ook voor jouw website belangrijk is! 

Wat doet een robots.txt-bestand? 

Een robots.txt-bestand stuurt instructies naar zoekmachinebots, zoals die van Google. De bots van zoekmachines crawlen je website om te bepalen welke pagina’s ze in de zoekresultaten moeten weergeven. Via de robots.txt geef je de bots specifieke richtlijnen. Zie het robots.txt bestand als een soort gastheer, die weet ook precies waar iedereen moet wezen. De robots.txt is de gastheer van je website, hij verteld de bots welke pagina’s ze wel of niet mogen bezoeken (crawlen). 

you shall not crawl robots-txt this file

Hoe werkt robots.txt? 

Het bestand zelf is een tekstbestand dat zich in de root van je website bevindt. Deze kan je voor iedere site vinden door achter het domein /robots.txt te zetten. (bijvoorbeeld: onlinemarketingagency.nl/robots.txt). Belangrijk, het kan zijn dat een website geen robots.txt file heeft, dan kan je die ook niet vinden. Het bevat regels die bots vertellen waar ze wel en niet mogen komen. De volgende instructies kunnen worden herkend in de robots.txt 

  • User-agent: Dit geeft aan voor welke bots de regel geldt (bijv. Googlebot of Bingbot). 
  • Crawl-delay: Dee regel geeft aan dat crawlers pauze in te lassen tussen opeenvolgende verzoeken naar jouw website. Dit kan handig zijn om de serverbelasting te verminderen. 
  • Disallow: Hiermee geef je aan welke URL’s de bot niet mag crawlen. 
  • Allow: Hiermee geef je aan welke content gecrawld mag worden. 
  • Sitemap: Door de sitemap op te nemen in de robots.txt maak je het bots zo makkelijk mogelijk om de sitemap van je website te vinden. 

Het voorbeeld van OMA: 

robots-txt bestand van oma

Let op: onderaan deze blog staan nog meer voorbeelden 

Robots.txt voor sub domeinen  

Bij het gebruik van robots.txt-bestanden op subdomeinen is het belangrijk te weten dat elk subdomein een eigen bestand nodig heeft. De regels op bijvoorbeeld www.domein.nl/robots.txt gelden niet voor een subdomein zoals blog.domein.nl. Zorg ervoor dat de instellingen per subdomein aansluiten bij wat je wilt crawlen of blokkeren. Voor een test- of staging-omgevingen kun je met een disallow zoekmachines blokkeren, maar voor meer zekerheid is het beter om IP-whitelisting of wachtwoordbeveiliging te gebruiken, omdat robots.txt geen beveiligingsmaatregel is. 

Controleer in Google Search Console of subdomeinen correct worden gecrawld en voeg aparte properties toe voor monitoring. Gebruik daarnaast per subdomein een eigen sitemap, vermeld deze in de robots.txt, en test de instellingen regelmatig. 

Waarom is het zo belangrijk? 

Een goed ingesteld robots.txt-bestand helpt je de controle te houden over wat er uiteindelijk wel en niet wordt gecrawld. Het is vanwege het crawlbudget belangrijk om bots richtlijnen mee te geven welke pagina’s wel of niet gecrawld mogen worden. Laat zoekmachines zich richten op de belangrijkste pagina’s van je website die geïndexeerd mogen [lees: moeten] worden. 

Niet meten en crawlen 

Stel dat je een pagina hebt die voor klanten belangrijk is, maar niet voor zoekmachines. Dan hebben we het over accountpagina’s, bijvoorbeeld van webshops. Met robots.txt kun je eenvoudig aangeven dat deze pagina’s niet gecrawld mogen worden. Het voordeel? Gebruikers merken niets en je crawlbudget gaat er niet aan verloren. 

Een crawlbudget kan je maar één keer uitgeven  

Verder zorgt een goed robots.txt-bestand bij het beheren van je crawlbudget. Zoekmachines hebben namelijk maar een beperkt aantal pagina’s dat ze per dag crawlen. Door onbelangrijke pagina’s uit te sluiten, zorg je ervoor dat de bots zich richten op de content die er echt toe doet. Een goed geconfigureerde robots.txt zorgt voor een efficiënter gebruik van het crawlbudget en kan de vindbaarheid van je belangrijkste pagina’s verbeteren. 

Let op: een verkeerde configuratie, waarbij per ongeluk waardevolle content wordt geblokkeerd van crawlen, kan leiden tot minder indexatie en daarmee een negatieve impact op je SEO. 

Controleer je robots.txt-bestand 

First things first, blokkeer nooit je belangrijke pagina’s van crawlen! Het is belangrijk voor de uiteindelijke prestaties van je website dat je geen pagina’s blokkeert die je juist wél in de zoekresultaten wilt hebben. Controleer daarom altijd je robots.txt-bestand zorgvuldig. Maak daarnaast ook gebruik van de testtool van Google in Google Search Console (GSC). Binnen GSC vind je een robots.txt-tester waarmee je kunt zien of je bestand goed werkt. Je vindt deze op al volgt terug: 

Google Search Console: instellingen > robots.txt 

Klik op de drie puntjes bij het robots.txt bestand waar je de veranderingen hebt aangebracht en dan op de (enige) optie ‘Een nieuwe crawl aanvragen’. 

gsc robots-txt nieuwe crawl aanvragen

Wees voorzichtig met belangrijke informatie uitsluiten via de robots.txt. Hoewel je met robots.txt pagina’s kunt blokkeren voor bots, zijn deze nog steeds toegankelijk als iemand de URL direct invoert. Als iemand je robots.txt bestand opent kan hij of zij zien staan welke pagina’s een disallow hebben. Gebruik dus nooit robots.txt voor gevoelige informatie, maar maak dan gebruik van een htaccess vergrendeling. 

Let op: de robots.txt is hoofdlettergevoelig, alles moet in kleine letter staan. 

Robots.txt inzetten voor SEO 

Al met al is het robots.txt-bestand een eenvoudige maar effectieve manier om de bots van zoekmachines te sturen. Door de juiste pagina’s uit te sluiten van crawling, kun je de focus leggen op de content die echt van belang is voor SEO. Heb je het bestand al goed ingesteld? Zo niet, dan is het een eenvoudige stap die je direct kunt nemen om je SEO te verbeteren! 

Extra voorbeelden  

Om je op weg te helpen heb ik wat voorbeelden op een rijtje gezet die je kan overnemen voor je eigen robots.txt bestand.  

1. Blokkeren van een specifieke map 

Voorkom dat zoekmachines een bepaalde map op je website crawlen, zoals een admin-dashboard: 

User-agent: * 
Disallow: /admin/ 

2. Blokkeren van specifieke zoekmachines 

Blokkeer een specifieke zoekmachine, zoals Bing, terwijl je andere toestaat: 

User-agent: bingbot 
Disallow: / 

3. Toestaan van toegang tot een specifieke map 

Als je de gehele site hebt geblokkeerd, maar één map toegankelijk wilt maken: 

User-agent: * 
Disallow: / 
Allow: /public/ 

4. Blokkeren van specifieke bestandstypes 

Vermijd dat zoekmachines bepaalde bestandstypes crawlen, zoals PDF-bestanden: 

User-agent: * 
Disallow: /*.pdf$ 

5. Verwijzen naar een sitemap 

Informeer zoekmachines over de locatie van je sitemap: 

User-agent: * 
Sitemap: https://www.domein.nl/sitemap.xml 

6. Blokkeren van een specifieke pagina 

Voorkom dat een specifieke pagina door zoekmachines wordt gecrawld: 

User-agent: * 
Disallow: /privacy-policy.html 

7. Blokkeren van een URL met parameters 

Blokkeer pagina’s met bepaalde URL-parameters, bijvoorbeeld filters of zoekresultaten: 

User-agent: * 
Disallow: /*?filter= 

8. Blokkeren van alle bots behalve één specifieke 

Sta alleen Googlebot toe en blokkeer alle andere bots: 

User-agent: * 
Disallow: / 
User-agent: Googlebot 
Allow: / 

9. Uitsluiten van specifieke submappen 

Blokkeer meerdere submappen op een website: 

User-agent: * 
Disallow: /private/ 
Disallow: /temp/ 
Disallow: /backup/ 

10. Instellen van een crawl delay 

Stel een vertraging in voor zoekmachines om overbelasting van je server te voorkomen: 

User-agent: * 
Crawl-delay: 10 

Let op: Niet alle zoekmachines ondersteunen een crawl-delay

Alle voorbeelden op een rijtje 

Ja en hoe zou een robots.txt bestand eruitzien als de bovenstaande regels erin zouden staan? Terechte vraag! Zou krijg je een beetje een beeld hoe zo’n bestand ingedeeld wordt.  

robots-txt voorbeelden op een rijtje

Belangrijk: Dit bestand bevat een mix van algemene en specifieke regels. Controleer altijd of de configuratie aansluit bij je doelstellingen en technische setup. 

Een monster van een robots.txt bestand bekijken? Bekijk dan die van The New York Times eens! 

Wat is een robots.txt-bestand?

Een bestand dat zoekmachines vertelt welke pagina’s wel of niet gecrawld mogen worden.

Waar moet ik op letten bij robots.txt?

Blokkeer geen waardevolle pagina’s, gebruik geen robots.txt voor gevoelige info, en controleer regelmatig via Google Search Console.

Hoe kan ik controleren of mijn robots.txt-bestand goed werkt zonder Google Search Console?

Je kunt het bestand testen met deze tool of door de URL in een browser te openen en te controleren of de regels correct worden weergegeven.

Wat gebeurt er als een zoekmachine mijn robots.txt negeert?

Sommige bots, zoals ‘kwaadwillende’ crawlers, kunnen de regels in robots.txt negeren en alsnog je website crawlen.

Kan ik robots.txt gebruiken om pagina’s uit de zoekresultaten te verwijderen?

Nee, robots.txt voorkomt alleen crawling.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Meest gestelde vragen over deze blog