Skip naar content

Wat is robots.txt

Een robots.txt is een bestand op de webserver dat aangeeft welke pagina’s en bestanden opgehaald mogen door zoekmachines. Zoekmachines zoals bijvoorbeeld Google, Bing of Yahoo zouden de regels in de robot.txt file moeten respecteren, echter is het aan de zoekmachine hoe deze regels worden geïnterpreteerd. De instructies in dit bestand voorkomen dus niet dat een pagina niet getoond wordt in een zoekmachine maar kunnen er wel voor zorgen dat het aantal verzoeken naar de website of webshop gereduceerd wordt.

Hoe ziet een robots.txt eruit

Hier vindt je een voorbeeld van een robots.txt bestand.


Sitemap: https://example.com/sitemap.xml
User-Agent: *
Disallow: /wp-admin/
        
We starten met aangegeven waar de locatie van de sitemap te vinden is, hoewel dit geen verplicht onderdeel is van een robots.txt is het wel aan te raden deze toe te voegen.

Vervolgens is aangegeven voor welke user-agent de regel geldt, in dit geval geven we met een asterisk * aan dat voor iedereen deze regel geldt, zo kan hier bijvoorbeeld ook Googlebot of Slurp staan indien deze regel alleen geldt voor Google of Yahoo.

We sluiten af met een Disallow regel en de bijbehorende locatie op de website hiervan. Zo geven we hier aan dat de pagina /wp-admin/ opgehaald mag worden voor alle user-agent.

Hoe voorkom ik dat een pagina niet in een zoekmachine terecht komt

De meest veilige oplossing is een pagina die beschermd wordt door middel van een gebruikersnaam en wachtwoord. Ook een meta tag kan ervoor zorgen dat een pagina niet door google of andere zoekmachine geindexeerd zal worden.


<meta name="googlebot" content="noindex" />
        

Begrippen die gelieerd zijn aan robots.txt

Terug naar boven