Skip to main content

Le fichier robots.txt (SEO technique)

Fichier Robots.Txt Pour Le SEO

Olivier Informaticien vous donne au travers de cet article, quelques informations sur le fichier robots.txt, très utile pour le référencement de sites internet dans les moteurs de recherche. L’une des premières choses qu’il faut vérifier et optimiser lorsqu’on effectue le référencement technique, est le fichier « robots.txt » ou un mauvais paramétrage de ce fichier peut avoir un impact négatif sur le positionnement de votre site. Ceci, par conséquent, a un impact sur le nombre de visites de votre site. Si vous utilisez WordPress, vous trouverez plus bas dans cette page, des informations particulières spécifiques au fichier « robots.txt »

Qu’est-ce que c’est que le fichier robots.txt ?

Le fichier « robots.txt » est un fichier texte qui est placé à la racine de l’arborescence de votre site web. En effet, il indique aux moteurs de recherche, quelles sont les pages à référencer.

Si vous avez déjà lu notre article « comment fonctionnent les moteurs de recherche ?« , vous savez que pendant la phase d’exploration et d’indexation des pages d’un site internet par les moteurs de recherche, ceux-ci recherchent les pages de votre site qui sont accessibles au public.

Ainsi, quand les moteurs de recherche visitent votre site, ils regardent en premier lieu le contenu de ce fichier . En fonction des paramètres de votre site, les moteurs de recherche vont collecter toutes les adresses de vos pages web. Celles-ci sont également appelées URL. L’objectif pour les moteurs de recherche est de pouvoir indexer vos pages dans leurs bases de données.

Ce fichier étant librement accessible par défaut à tout à chacun et pas seulement aux moteurs de recherche, il ne doit pas contenir d’informations sensibles.

Que se passe-t-il si vous n’avez pas de fichier robots.txt?

Si le fichier « robots.txt » est absent, les moteurs de recherche supposent que toutes les pages de votre site peuvent être explorées et indexées dans leurs bases de données.

Que se passe-t-il si le fichier robots.txt n’est pas correctement paramétré ?

Tout dépend de ce qui a été mal paramétré. Au mieux, les moteurs de recherche ignorent le contenu du fichier « robots.txt » et explorent l’intégralité de votre site internet.

Que se passe-t-il si un site interdit l’accès aux moteurs de recherche ?

Les moteurs de recherche n’exploreront pas votre site et donc les pages ne seront pas indexées. Par la suite, si le blocage persiste, au fil du temps, si des pages étaient déjà référencées, elles seront de moins en moins bien positionnées pour finir dans les pages de résultat les plus lointaines.

Le fichier « robots.txt«  est-il nécessaire ?

Pour le référencement de votre site web, le fichier « robots.txt » est nécessaire même si vous n’avez pas de pages ou de dossiers à exclure lors de l’exploration de votre site par les moteurs de recherche.

Pourquoi utiliser le fichier robots.txt ?

L’intérêt du fichier « robots.txt » est notamment de demander aux moteurs de recherche de ne pas explorer des pages ou des dossiers spécifiques qui sont sur votre site web.

Cela peut se représenter ainsi :

Disallow: /produits/reappro
Disallow: /dossier1/sousdossier*
Disallow: /content/audit/*

Lorsque votre site internet comporte beaucoup de pages, leur exploration et leur indexation peuvent entraîner quelques problèmes de performances si votre serveur d’hébergement n’est pas adapté. Pour éviter cela, on pourra utiliser le fichier « robots.txt ».

Le fichier « robots.txt » peut aussi être utilisé pour masquer vos éventuels liens d’affiliation.

Les choses à savoir sur le fichier « robots.txt« 

La première chose à savoir, est que le contenu du fichier « robots.txt » n’est qu’indicatif. Les moteurs de recherche sont libres de suivre ou de ne pas tenir compte des informations qui y sont inscrites. La majorité d’entre eux respectent cependant les instructions qu’ils trouvent dans le fichier « robots.txt ». Cependant, s’il y a des parties de votre site internet qui doivent ne pas être explorées, il convient d’en restreindre l’accès avec une protection par mot de passe.

Sans cette protection par mot de passe, il est donc toujours possible que votre page ou que la partie concernée de votre site, apparaisse dans les résultats des moteurs de recherche, notamment si des liens sont présents dans cette partie et renvoient vers d’autres pages de votre site internet qui, elles, sont ouvertes au référencement.

Une autre façon de demander aux moteurs de recherche de ne pas explorer le contenu d’une page et, par conséquent, de ne pas l’indexer, est de mettre une balise « meta name » dans l’en-tête du code de cette page, à la manière suivante :

<meta name="robots" content="noindex">

Comment fonctionne le fichier robots.txt ?

Le fichier « robots.txt » a une structure qui n’a rien de compliquée. Il suffit d’utiliser une combinaison de mots-clés spécifiques et de leur donner la bonne valeur.

Les mots-clés les plus couramment utilisés dans ce fichier sont :

User-agent
Disallow
Allow
Crawl-delay
Sitemap

La Commande “User-agent”

Le mot-clé « User-agent » permet de désigner un moteur de recherche en particulier. Par exemple, pour Google, le « User-agent » est « Googlebot », pour le moteur de recherche chinois Baidu, c’est « Baiduspider » et pour le moteur de recherche Bing, le « User-agent » correspondant est « Bingbot ».

Lorsqu’on ne souhaite pas préciser un moteur de recherche en particulier, il suffit de mettre le mot-clé « User-agent » suivi du caractère *

Voici quelques exemples pour illustrer l’utilisation du mot-clé « User-agent » :

User-agent: *
User-agent: Googlebot
User-agent: Bingbot

La Commande « Disallow »

Le mot-clé « Disallow » demande au moteur de recherche de ne pas explorer une URL ou une partie du site internet.
Par exemple :

Disallow: /

Cette commande demande de ne pas explorer l’intégralité du site internet (donc à ne surtout pas faire en référencement naturel).

Disallow: /dossier_interdit/

demande de ne pas explorer tout ce qu’il y a dans « dossier_interdit »

Disallow: /page_privee.html

demande de ne pas explorer la page de votre site qui se nomme « page_privee.html »

Pour demander à Google Image de ne pas prendre en considération l’image qui s’appelle « toto.jpg » :

User-agent: Googlebot-Image
Disallow: /toto.jpg

Si on souhaite que Google Image n’inventorie aucune image du site :

User-agent: Googlebot-Image
Disallow: /

On peut également demander à Google Image de ne pas inventorier les images qui sont d’un certain type, par exemple les images .GIF :

User-agent: Googlebot-Image
Disallow: /*.gif$

La Commande « Allow »

Le mot-clé « Allow » définit explicitement quelle page ou quel dossier peut être exploré en vue de son indexation par Google. Par exemple, si vous souhaitez que Google ne s’occupe pas de ce qu’il y a dans le dossier « toto » à l’exception du sous-dossier « titi », vous pourrez indiquer dans votre fichier « robots.txt » :

User-agent: *
Disallow: /toto
Allow: /toto/titi/

La Fonction « Crawl-delay »

Vous entendrez peut-être parler du mot-clé « Crawl-delay » qui définit l’intervalle de temps auquel les moteurs de recherche doivent se conformer avant de poursuivre l’exploration de votre site internet. En fait, cette valeur en millisecondes, n’est pas prise en compte par Google. Si vous souhaitez définir cet intervalle de temps pour Google, le mieux est de l’indiquer dans votre console d’administration Google mais attention, cela n’a une incidence que si votre site comporte des centaines et des centaines de pages. Dans le cas contraire, nous vous déconseillons de modifier la valeur par défaut indiquée dans votre console d’administration Google.

La Fonction « Sitemap »

Le mot-clé « Sitemap » indique aux moteurs de recherche, l’emplacement de votre fichier « sitemap.xml ». Cela peut donner, par exemple :

Sitemap: https://www.votresiteinternet.com/sitemap.xml

Le fichier robots.txt et WordPress

Tout ce que vous avez lu jusqu’à présent sur le fichier « robots.txt » est valable pour les sites WordPress. Dans le passé, il était recommandé aux sites web construits avec WordPress, de bloquer l’accès aux dossiers « wp-admin » et « wp-includes » via le fichier « robots.txt ».

Cela n’est plus obligatoire depuis 2012 car WordPress fait automatiquement le nécessaire avec l’ajout du code

@header( 'X-Robots-Tag: noindex' );

A titre d’information, le contenu par défaut d’un fichier « robots.txt » d’un site WordPress est généralement :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

lorsqu’il est ouvert à l’exploration par les moteurs de recherche.

Nous déconseillons le blocage aux scripts CSS et Javascript via le fichier « robots.txt »

En conclusion sur le fichier robots.txt

Nous espérons que cet article sur l’utilité et le paramètrage du fichier « robots.txt » vous aura permis d’en savoir plus.

Bien entendu, nous sommes à votre disposition pour vous aider à créer et optimiser votre fichier « robots.txt » au cours d’une prestation.

N’hésitez pas à contacter Olivier Informaticien pour plus d’informations.

Attention ! Le contenu du fichier « robots.txt » est sensible à la différenciation des majuscules et des minuscules. Faites donc bien attention lorsque vous indiquez des noms de chemin, de fichiers et de dossiers, que ceux-ci soient bien conformes. De même, le nom de votre fichier « robots.txt » doit toujours être orthographié au pluriel. Et en lettres minuscules, avec l’extension « txt » elle aussi en lettres minuscules.
Pour en savoir plus sur le fichier robots.txt, contactez olivier informaticien