Robots.txt

par

« Back to Glossary Index

Robots.txt est un fichier texte important qui est destiné aux Robots de Google. Il correspond au protocole d’exclusion des robots. En clair, ce fichier vous permet de donner des autorisations ou des restrictions aux différents robots afin d’indexer ou non la page.

Fichier robots.txt

Représentation du fichier robots.txt

Robots.txt et utilisation

Le fichier robots.txt permet de donner des indications à Googlebot ainsi que les différents robots des moteurs de recherche. Il permet d’indiquer à ces robots quelles sont les pages à indexer ou non. De plus, il existe également une option qui interdit l’accès au contenu de certaines pages pour les bots.

Le fichier robots.txt peut indiquer aux robots de bloquer une URL mais également l’accès à différents fichiers multimédias comme les images ou vidéos. Cependant, il se peut que certaines pages entrent tout de même dans l’index de Google. Si c’est le cas, passez par la search console pour demander une désindexation du contenu en question. Cette méthode est efficace à court terme. Toutefois, pour compléter cette solution, indiquez la réponse noindex dans le header de la page.

<meta name="googlebot" content="noindex">

Cette requête indique que la page ne doit pas être indexée par le moteur de recherche de Google.

Où placer le robots.txt d’un site ?

Où place ce fichier ? C’est une question qui revient fréquemment. Sachez que le robots.txt se place à la racine du site. Ainsi, les robots peuvent avoir facilement accès à ce fichier.

Quelles sont les différentes fonctions possibles ?

Il existe 2 grandes fonctions au robots.txt qui sont « disallow » et « noindex ». De plus, vous pouvez indiquer le sitemap.xml d’un site au sein de ce même fichier.

Fonctions disallow et noindex

La fonction disallow et noindex sont des indications très proches :

  • Disallow : la fonction disallow, interdit aux robots d’avoir accès à la page.
  • Noindex : le rôle du noindex est d’avertir les moteurs de recherche qu’il ne faut pas indexer cette page.
  • Allow : permet d’autoriser les robots
User-agent: *
Disallow: /robots/
Noindex: /pages-a-ne-pas-indexer
Allow: /robots/autoriser-ce-contenu

Grâce au code ci-dessus, vous interdisez l’accès à « /robots… » pour tous les robots des moteurs de recherche, sauf exception pour « /robots/autoriser-ce-contenu ». L’attribut noindex demande de ne pas indexer « /pages-a-ne-pas-indexer ».

Inscrire le sitemap dans le fichier robots.txt

Le sitemap est un outil qui permet à Google de prendre connaissance des différentes pages d’un site web. Vous pouvez l’indiquer directement dans la search console ou dans le fichier robots.txt. Indiquez l’url du sitemap sur une ligne vierge dans le robots.txt pour que Google puisse y avoir accès.

A savoir : cette méthode donne également l’accès à l’url de votre sitemap aux concurrents. C’est pourquoi il est préférable de l’indiquer directement dans la search console.

Source officielle de Google

« Retour au dictionnaire de définitions
semrush
Autres définitions

Taux de clic

Le taux de clic ou le CTR est le ratio entre le nombre de clics réalisés sur un lien et son nombre d’affichage. Plus le CTR est élevé plus votre page suscite un intérêt chez les internautes.

Penguin : algorithme de Google

En SEO, le filtre algorithmique Google Penguin est très connu pour ses nombreuses pénalités en 2012. Mais comment a évolué Penguin et surtout comment éviter de se prendre une pénalité suite à une stratégie de Netlinking.

Quality SEO content

Vous souhaitez comprendre ce qu’est le Quality SEO content ? Découvrez tout ce qu’il faut savoir sur l’optimisation de la qualité de contenu pour les moteurs de recherche avec pour objectif d’atteindre les premières places de la SERP de Google.

Netlinking

Le netlinking correspond aux liens hypertextes externes qui ciblent une page. En effet, pour chaque lien entrant depuis un site externe (backlinks) on augmente le PageRank de l’URL cible. Ce PageRank défini l’autorité d’une page ou même d’un domaine. Plus il est grand, plus le site est considéré comme étant de qualité pour Google.