Robots.txt est un fichier texte important qui est destiné aux Robots de Google. Il correspond au protocole d’exclusion des robots. En clair, ce fichier vous permet de donner des autorisations ou des restrictions aux différents robots afin d’indexer ou non la page.
Sommaire de l'article
Robots.txt et utilisation
Le fichier robots.txt permet de donner des indications à Googlebot ainsi que les différents robots des moteurs de recherche. Il permet d’indiquer à ces robots quelles sont les pages à indexer ou non. De plus, il existe également une option qui interdit l’accès au contenu de certaines pages pour les bots.
Le fichier robots.txt peut indiquer aux robots de bloquer une URL mais également l’accès à différents fichiers multimédias comme les images ou vidéos. Cependant, il se peut que certaines pages entrent tout de même dans l’index de Google. Si c’est le cas, passez par la search console pour demander une désindexation du contenu en question. Cette méthode est efficace à court terme. Toutefois, pour compléter cette solution, indiquez la réponse noindex dans le header de la page.
<meta name="googlebot" content="noindex">
Cette requête indique que la page ne doit pas être indexée par le moteur de recherche de Google.
Où placer le robots.txt d’un site ?
Où place ce fichier ? C’est une question qui revient fréquemment. Sachez que le robots.txt se place à la racine du site. Ainsi, les robots peuvent avoir facilement accès à ce fichier.
Quelles sont les différentes fonctions possibles ?
Il existe 2 grandes fonctions au robots.txt qui sont « disallow » et « noindex ». De plus, vous pouvez indiquer le sitemap.xml d’un site au sein de ce même fichier.
Fonctions disallow et noindex
La fonction disallow et noindex sont des indications très proches :
- Disallow : la fonction disallow, interdit aux robots d’avoir accès à la page.
- Noindex : le rôle du noindex est d’avertir les moteurs de recherche qu’il ne faut pas indexer cette page.
- Allow : permet d’autoriser les robots
User-agent: * Disallow: /robots/ Noindex: /pages-a-ne-pas-indexer Allow: /robots/autoriser-ce-contenu
Grâce au code ci-dessus, vous interdisez l’accès à « /robots… » pour tous les robots des moteurs de recherche, sauf exception pour « /robots/autoriser-ce-contenu ». L’attribut noindex demande de ne pas indexer « /pages-a-ne-pas-indexer ».
Inscrire le sitemap dans le fichier robots.txt
Le sitemap est un outil qui permet à Google de prendre connaissance des différentes pages d’un site web. Vous pouvez l’indiquer directement dans la search console ou dans le fichier robots.txt. Indiquez l’url du sitemap sur une ligne vierge dans le robots.txt pour que Google puisse y avoir accès.
« Retour au dictionnaire de définitionsA savoir : cette méthode donne également l’accès à l’url de votre sitemap aux concurrents. C’est pourquoi il est préférable de l’indiquer directement dans la search console.