Robots
Web robots
Deze meta-tag is belangrijk voor indexatie en linkvolging door de zoekmachines.
Zoekmachines zoeken met behulp van webspiders en zoekrobots continu op het internet naar websites en pagina’s (crawlen). Zij zoeken relevante informatie op de pagina’s en de zoekmachines indexeren deze en plaatsen ze in een database. Via deze database worden o.b.v. zoekwoorden dan de relevante sites gekozen die vervolgens worden getoond in de zoekresultaten van bijvoorbeeld Goolge.
Soms wil je kunnen aangeven dat een zoekmachine pagina’s van je site niet mag bezoeken en indexeren. Het kan zo zijn dat je bepaalde delen van je site niet in de zoekresultaten van zoekmachines terug hoeft te zien. Denk bijvoorbeeld aan je Privacy-pagina of contact-formulier. Je kunt aan de zoekmachines (robots) op 2 manieren kenbaar maken wat wel en wat niet geïndexeerd moet worden. Je kunt tegelijkertijd ook aangeven of links op je website wel of niet gevolgd moeten worden.
Meta name =’robots’
Gebruik deze HTML <meta>-tag om aan de robots instructies te geven wat er wel en niet geïndexeerd of bekeken mag worden. Wanneer je geen <meta>-tag Robots op je site hebt geplaatst, gaan de zoekmachines er vanuit dat ze alles mogen bekijken en indexeren (Index, Follow)
Er zijn een aantal combinaties te maken met Index en Follow:
- <Meta name=”robots” content=”no index, nofollow”> Er wordt niet geïndexeerd en links worden niet gevolgd.
- <Meta name=”robots” content=”no index, follow”> Geen indexering, wel links volgen.
- <Meta name=”robots” content=”index, nofollow”> Wel indexering, de links worden niet gevolgd.
Plaats deze tag in het <head>-gedeelte van je website. Zoals bijvoorbeeld:
<title>…..</title>
<meta name=”robots” content=”noindex, nofollow”>
</head>
De nofollow in de meta name=”robots” die ik zojuist heb beschreven is niet gelijk aan rel=”nofollow”. Rel=”nofollow” gebruik je om aan te geven of één bepaalde link gevolgd mag worden of niet. Bij de meta-tag zeg je dat alle links wel of niet gevolgd mogen worden.
De rel=”nofollow” plaats je in de link zelf.
Bijvoorbeeld: <a href=”http://www.coolekorting.nl” rel=”nofollow”>CooleKorting.nl</a>
Hiermee geef je dus aan dat de link naar de website CooleKorting.nl niet gevolgd mag worden.
Gebruik rel=”nofollow” bijvoorbeeld wanneer je een blog hebt waarop iedereen een reactie kan plaatsen. De links die zij plaatsen kunnen nadelig zijn voor de reputatie van jouw site. Wanneer die links niets te maken hebben met jouw site, wil je niet dat deze door de webspiders en zoekrobots worden meegenomen. Een zoekmachine kan nl bepaalde sites beschouwen als Spamsites. Naar deze sites wil je niet verwijzen, dit heeft een negatief effect op de beoordeling van jouw site.
Robots.txt-bestand
Wanneer je bepaalde webrobots wilt weren van je site of specifieke delen van je website niet gecrawld wilt hebben, kun je niet volstaan met <meta name=’robots’>. Hier moet je een bestand voor maken genaamd Robots.txt. Dit Robots.txt-bestand zet je in de rootdirectory (hoogste niveau van je bestanden) van je website.
Even een voorbeeld:
Disallow: /
De “User-agent: *” betekent dat dit betrekking heeft op alle robots. De “Disallow: /” betekent dat de robots geen enkele pagina van de website mogen bezoeken.
Nog een voorbeeld:
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /prive/
Voor alle robots geldt; je mag alles bezoeken, behalve de genoemde delen van de server. Wil je een bepaalde robot uitsluiten, vul je in plaats van een ‘ * ‘ de naam van de robot in:
Disallow: /
Wil je alleen de robot van Google toestaan, en de rest niet:
Disallow:
User-agent: *
Disallow: /