Googlebot (user-agent)

Googlebot est le nom du robot d’indexation de chez Google. Pour ce faire, les robots de Google explorent les pages de vos sites comme des araignées. On les appelle d’ailleurs, les spiders SEO.

Le robot d’exploration analyse le contenu des pages en prenant en compte certaines caractéristiques : le fichier robots.txt, les balises Meta (destinés aux robots), et les instructions de l’en-tête HTTP X-Robots-Tag.

Sommaire de l'article

Que fait un Gooblebot ?

Le robot de Google est né à la création du célèbre moteur de recherche. Googlebot prend connaissance des nouvelles pages web voire des nouveaux contenus des pages web afin de les indexer. Il indexe les URLs afin de proposer une réponse pertinente à la demande des internautes sur certaines requêtes. L’objectif est de proposer un index le plus à jour possible.

Un Googlebot est le robot d’exploration de Google utilisé pour parcourir le Web afin de collecter des informations sur les pages Web pour les ajouter à l’index de recherche de Google. Les Googlebots visitent régulièrement les pages Web et suivent les liens présents sur ces pages pour en découvrir de nouvelles. Les informations collectées par les Googlebots sont utilisées pour aider Google à comprendre la pertinence et la qualité du contenu des pages Web et à les classer correctement dans les résultats de recherche. Les propriétaires de sites Web peuvent aider les Googlebots à explorer et à indexer efficacement leur site en utilisant des techniques de référencement appropriées.

Pour ce faire, Googlebot va naviguer sur les différents sites web pour envoyer le code HTML en traitement. Il navigue en suivant les différents liens (internes et externes) pour passer d’une page à une autre.

En clair, Googlebot fait deux grandes actions essentielles pour le bon fonctionnement du moteur de recherche :

Il envoie le code HTML en traitement afin que la page soit référencée dans Google ;
Il navigue de lien en lien pour s’enrichir de connaissance (il ne suit que les liens en « dofollow ».

Attention, Googlebot doit voir le même contenu qu’un internaute classique. Si ce n’est pas le cas, Google sait que vous faites du blackhat SEO. Lorsqu’on affiche une page aux robots et un autre pour les utilisateurs, on appelle ça du cloaking. Cette pratique est évidemment interdite par Google et s’il s’en rend compte vous risquer une pénalité importante.

Le robot indexe uniquement les URL qu’il a le droit de visiter. Il ne crawlera pas les pages interdites dans le fichier robots.txt.

Googlebot : un robot d’exploration aux multiples usages

Le Googlebot user-agent

Il n’existe pas un seul robot de Google pour indexer du contenu. En effet, il existe plusieurs types de Googlebots, chacun ayant un objectif et des fonctionnalités différents :

Googlebot de base : Ce robot est utilisé pour explorer le Web et collecter des informations sur les pages Web. Il est le plus couramment utilisé pour l’indexation générale des pages.
Googlebot mobile : Ce robot est utilisé pour explorer le Web et collecter des informations sur les pages Web conçues pour les appareils mobiles. Il s’assure que les pages mobiles sont correctement indexées et classées dans les résultats de recherche sur mobile.
Googlebot d’images : Ce robot est utilisé pour explorer le Web et collecter des informations sur les images. Il permet à Google de comprendre le contenu des images et de les classer correctement dans les résultats de recherche d’images.
Googlebot vidéo : Ce robot est utilisé pour explorer le Web et collecter des informations sur les vidéos. Il permet à Google de comprendre le contenu des vidéos et de les classer correctement dans les résultats de recherche de vidéos.
Googlebot News : Ce robot est utilisé pour explorer le Web et collecter des informations sur les articles de presse et les sources d’actualités en ligne. Il permet à Google de comprendre le contenu des articles et de les classer correctement dans les résultats de recherche d’actualités.

Il est important de noter que les différents Googlebots peuvent être utilisés en parallèle pour explorer le Web et collecter des informations sur les pages Web. Cela permet à Google de comprendre de manière plus complète le contenu des pages et de les classer correctement dans les résultats de recherche.

Googlebot pour Smartphone

Vous faites probablement référence au « Googlebot mobile« . Ce robot est utilisé pour explorer le Web et collecter des informations sur les pages Web conçues pour les appareils mobiles. Il s’assure que les pages mobiles sont correctement indexées et classées dans les résultats de recherche sur mobile. De plus en plus de personnes utilisent leurs smartphones pour naviguer sur le Web, il est donc important pour Google d’avoir un robot dédié pour explorer les pages conçues pour les appareils mobiles. Cela aide à améliorer l’expérience utilisateur en fournissant des résultats pertinents et adaptés aux mobiles dans les résultats de recherche.

Le jeton « user-agent » du Googlebot mobile est « Googlebot-Mobile ». Ce jeton peut être utilisé par les propriétaires de sites Web pour détecter la visite du Googlebot mobile sur leur site et pour lui fournir des informations spécifiques à la version mobile de leur site, si elles en ont une. Les propriétaires de sites peuvent également utiliser des en-têtes HTTP pour contrôler la façon dont le Googlebot mobile accède à leur site, par exemple en limitant l’accès à certaines pages ou en fournissant des versions alternatives pour les appareils mobiles. Les informations fournies par les propriétaires de sites peuvent aider à améliorer la qualité et la pertinence des informations indexées par Google pour les résultats de recherche sur mobile.

Googlebot pour Ordinateur

Le « Googlebot de base » est le robot utilisé par Google pour explorer le Web et collecter des informations sur les pages Web pour les ajouter à l’index de recherche de Google. Ce robot est utilisé pour l’indexation générale des pages Web et peut être utilisé pour explorer tout type de pages, y compris les pages conçues pour les ordinateurs de bureau.

Le jeton « user-agent » du Googlebot de base est simplement « Googlebot ». Les propriétaires de sites peuvent utiliser le jeton « user-agent » pour détecter les visites du Googlebot sur leur site et pour lui fournir des informations sur leur site Web. Les informations collectées par le Googlebot de base sont utilisées pour aider Google à comprendre la pertinence et la qualité du contenu des pages Web et à les classer correctement dans les résultats de recherche.

Googlebot Image

Le « Googlebot d’images » est le robot utilisé par Google pour explorer le Web et collecter des informations sur les images. Il permet à Google de comprendre le contenu des images et de les classer correctement dans les résultats de recherche d’images.

Le jeton « user-agent » du Googlebot d’images est « Googlebot-Image ». Les propriétaires de sites peuvent utiliser le jeton « user-agent » pour détecter les visites du Googlebot d’images sur leur site et pour lui fournir des informations sur leurs images. Les informations collectées par le Googlebot d’images peuvent aider Google à comprendre la pertinence et la qualité des images sur les pages Web et à les classer correctement dans les résultats de recherche d’images.

Googlebot Vidéo

Le « Googlebot vidéo » est le robot utilisé par Google pour explorer le Web et collecter des informations sur les vidéos. Il permet à Google de comprendre le contenu des vidéos et de les classer correctement dans les résultats de recherche vidéo.

Le jeton « user-agent » du Googlebot vidéo est « Googlebot-Video ». Les propriétaires de sites peuvent utiliser le jeton « user-agent » pour détecter les visites du Googlebot vidéo sur leur site et pour lui fournir des informations sur leurs vidéos. Les informations collectées par le Googlebot vidéo peuvent aider Google à comprendre la pertinence et la qualité des vidéos sur les pages Web et à les classer correctement dans les résultats de recherche vidéo.

Googlebot News

Le « Googlebot Actualités » est le robot utilisé par Google pour explorer le Web et collecter des informations sur les articles de presse et les nouvelles. Il permet à Google de comprendre le contenu des articles de presse et des nouvelles et de les classer correctement dans les résultats de recherche actualités.

Le jeton « user-agent » du Googlebot Actualités est « Googlebot-News ». Les propriétaires de sites peuvent utiliser le jeton « user-agent » pour détecter les visites du Googlebot Actualités sur leur site et pour lui fournir des informations sur leurs articles de presse et nouvelles. Les informations collectées par le Googlebot Actualités peuvent aider Google à comprendre la pertinence et la qualité des articles de presse et des nouvelles sur les pages Web et à les classer correctement dans les résultats de recherche actualités.

Qu’est-ce que le jeton user-agent ?

Le jeton « user-agent » est une chaîne de caractères envoyée par un navigateur Web à un serveur Web lors d’une requête HTTP. Il décrit le navigateur Web et le système d’exploitation utilisé pour effectuer la requête. Les propriétaires de sites peuvent utiliser cette information pour déterminer le type de navigateur et le système d’exploitation utilisé par un visiteur et pour personnaliser le contenu de leur site Web en conséquence.

De plus, les robots d’exploration de moteurs de recherche, tels que Googlebot, utilisent également un jeton « user-agent » pour identifier eux-mêmes lorsqu’ils accèdent à un site Web. Les propriétaires de sites peuvent utiliser cette information pour détecter les visites des robots et pour fournir des informations spécifiques pour les aider à explorer leur site.

En somme, le jeton « user-agent » est un élément important de la communication entre un navigateur Web ou un robot et un serveur Web, et peut être utilisé pour personnaliser et améliorer l’expérience de navigation pour les utilisateurs et les robots.

Le jeton user-agent est un identifiant de robot utile pour gérer vos autorisations. En effet, si vous avez une page « zombie », c’est-à-dire une page avec du contenu de faible qualité ou non pertinente pour votre site vous ne voudrez pas utiliser votre budget crawl pour cette page. Vous pouvez donc demander aux moteurs de recherche comme Google de ne pas indexer cette page. Pour ce faire, allez dans votre fichier robots.txt puis adressez-vous au jeton user-agent qui vous intéresse pour lui refuser les droits d’accès et d’indexation.

Utilisation du fichier robots.txt

Le fichier « robots.txt » est un fichier de contrôle qui indique aux robots d’exploration des moteurs de recherche ce qu’ils peuvent et ne peuvent pas explorer sur un site Web. Les propriétaires de sites peuvent utiliser ce fichier pour spécifier les pages ou les sections de leur site qu’ils ne souhaitent pas inclure dans les résultats de recherche.

Voici quelques exemples d’utilisation du fichier « robots.txt »:

Empêcher l’exploration de pages sensibles: Si vous avez des pages qui contiennent des informations confidentielles ou sensibles, vous pouvez les empêcher d’être explorées en utilisant le fichier « robots.txt ».
Interdire l’accès à des sections de site: Si vous avez des sections de votre site que vous ne souhaitez pas inclure dans les résultats de recherche, vous pouvez les interdire en utilisant le fichier « robots.txt ».
Empêcher l’exploration de pages temporaires: Si vous avez des pages temporaires sur votre site, vous pouvez les empêcher d’être explorées en utilisant le fichier « robots.txt ».
Interdire l’accès à des pages de test: Si vous avez des pages de test sur votre site, vous pouvez les interdire en utilisant le fichier « robots.txt ».

Notez que le fichier « robots.txt » n’est pas une garantie absolue que les robots n’exploreront pas les pages indiquées. Les moteurs de recherche peuvent décider de ne pas respecter les instructions du fichier « robots.txt ». Par conséquent, il est important de s’assurer que les pages sensibles sont protégées par une authentification ou une autorisation appropriées.

Comme vous l’avez vu, vous pouvez demander à Google de ne pas indexer certaines pages ou certains types de contenus pour une page. Voici un exemple d’interdiction aux robots de Google pour un site :

User-agent: Googlebot

Disallow: /

Vous pouvez aussi décider de bloquer une page à l’indexation :

User-agent: Googlebot

Disallow: /une-page

Si vous décidez de bloquer uniquement l’indexation des images d’une page, vous pouvez vous adresser au robot « image » de Google :

User-agent: Googlebot-Image

Disallow: /une-page

Peut-on trouver les chaînes « user-agent » qui visitent notre site ?

Vous pouvez trouver la chaîne « user-agent » dans les journaux de votre serveur Web. Les journaux de serveur enregistrent toutes les requêtes HTTP effectuées sur votre site, y compris la chaîne « user-agent ». Cette information peut être utilisée pour analyser les comportements de navigation des utilisateurs et des robots sur votre site.

En utilisant une analyse de journal, vous pouvez voir quels types de navigateurs et de systèmes d’exploitation sont utilisés pour accéder à votre site, et même identifier les requêtes provenant de robots d’exploration de moteurs de recherche en fonction de leur chaîne « user-agent ». Cette information peut être très utile pour optimiser votre site pour les différents types de navigateurs et de systèmes d’exploitation, ou pour contrôler l’accès des robots à certaines parties de votre site.

Il est important de noter que les journaux de serveur peuvent consommer beaucoup d’espace de stockage, il est donc souvent nécessaire de les analyser régulièrement et de les supprimer régulièrement pour éviter une utilisation excessive de l’espace de stockage.

« Retour au dictionnaire de définitions

Autres définitions

Taux de clic

Le taux de clic ou le CTR est le ratio entre le nombre de clics réalisés sur un lien et son nombre d’affichage. Plus le CTR est élevé plus votre page suscite un intérêt chez les internautes.

Robots.txt

Robots.txt est un fichier texte important qui est destiné aux Robots de Google. Il correspond au protocole d’exclusion des robots. En clair, ce fichier vous permet de donner des autorisations ou des restrictions aux différents robots afin d’indexer ou non la page....

Penguin : algorithme de Google

En SEO, le filtre algorithmique Google Penguin est très connu pour ses nombreuses pénalités en 2012. Mais comment a évolué Penguin et surtout comment éviter de se prendre une pénalité suite à une stratégie de Netlinking.

Quality SEO content

Vous souhaitez comprendre ce qu’est le Quality SEO content ? Découvrez tout ce qu’il faut savoir sur l’optimisation de la qualité de contenu pour les moteurs de recherche avec pour objectif d’atteindre les premières places de la SERP de Google.