Comment gérer le Robots.txt en SEO ?

Maîtriser le fichier robots.txt est un élément essentiel du référencement de votre site web.

Aujourd’hui, si vous avez un site web pour promouvoir votre activité, partager votre passion ou offrir des services en ligne, il est compréhensible que vous ne sachiez pas en quoi consiste le fichier robots.txt. Vous n’êtes pas seul(e) dans cette situation, car la majorité des propriétaires de sites web ne possèdent pas les compétences nécessaires pour exploiter pleinement le fichier Robots.txt.

Dans cet article, nous allons voir qu’est-ce que le fichier Robots.txt, son importance pour votre site, mais aussi donner des instructions claires aux robots d’exploration des moteurs de recherche.

Qu’est-ce qu’un fichier Robots.txt ?

Le fichier robots.txt est utilisé pour communiquer des instructions aux robots des moteurs de recherche lorsqu’ils parcourent un site web. Il s’agit d’un fichier texte simple qui se trouve généralement à la racine du site.

Voici à quoi ressemble généralement un fichier robots.txt :

Fichier Robots.txt du site Slashr

Nous allons voir maintenant comment vous pouvez utiliser le Robots.txt pour contrôler l’accès des robots d’exploration Web au contenu de votre site.

Utilisation du fichier robots.txt

Bloquer tous les robots d’exploration de tout le contenu du site

User-agent: * Disallow: /

En utilisant cette commande dans un fichier robots.txt, cela indiquerait à tous les robots d’exploration Web de ne pas explorer les pages du site.

Autoriser à tous les robots d’exploration Web d’accéder à l’ensemble du contenu du site

User-agent: * Disallow: 

En utilisant cette commande dans un fichier robots.txt indique aux robots d’exploration Web d’explorer toutes les pages.

Blocage d’un robot d’exploration Web spécifique à partir d’un dossier spécifique

User-agent: Googlebot Disallow: /exemple-dossier-a/

En utilisant cette commande dans un fichier robots.txt  indique uniquement au robot d’exploration de Google (Googlebot) de ne pas explorer les pages contenant le dossier (/exemple-dossier-a/).

En savoir plus :   Gatsby et JavaScript pour le SEO : le guide complet

Blocage d’un robot d’exploration Web spécifique à partir d’une page spécifique

User-agent: Bingbot Disallow: /exemple-dossier-a/page-bloquer.html

En utilisant cette commande dans un fichier robots.txt  indique uniquement au robot d’exploration de Bing (Bingbot) de ne pas explorer la page /exemple-dossier-a/page-bloquer.html

Exemple d’un Robots.txt avec plusieurs instructions

Le fichier Robots.txt du site d'information Buzzfeed.com

QUel est le fonctionnement du FICHIER ROBOTS.TXT ?

Les moteurs de recherche ont deux principales missions :

  • explorer le Web pour découvrir du contenu.
  • indexer le contenu sur les moteurs de recherche afin de le rendre accessible aux utilisateurs qui recherchent des informations.

Pour explorer les sites, les moteurs de recherche suivent les liens d’un site à l’autre, parcourant ainsi des milliards de liens et de pages Web. Cette exploration est souvent appelée le crawling.

Avant d’explorer votre site, le robot d’exploration va chercher votre fichier robots.txt. Si vous avez un fichier robots.txt, il va le consulter pour savoir les instructions à suivre sur votre site. Une fois lu, le robot explorera selon les instructions du fichier.

LEXIQUE DU FICHIER ROBOTS.TXT

Le lexique Robots.txt peut être considérée comme le langage à utiliser pour donner des instructions aux robots d’explorations.

  • User-agent:  le robot d’exploration Web spécifique auquel vous donnez des instructions d’exploration (généralement un moteur de recherche). Voici une liste de la plupart des Users-agents ici.
  • Disallow: la commande Disallow consiste à dire à un User Agent de ne pas explorer une URL particulière. Une seule ligne « Disallow: » est autorisée pour chaque URL.
  • Allow (Seulement applicable pour le Googlebot): La commande permet d’indiquer à Googlebot qu’il peut accéder à une page ou à un sous-dossier même si sa page ou son sous-dossier parent n’est pas autorisé.
  • Crawl-delay: Combien de secondes un robot d’exploration doit attendre avant de charger et d’explorer le contenu de la page. Il faut savoir que le robot d’exploration de Google (Googlebot) ne reconnaît pas cette commande, mais la vitesse d’exploration peut être définie directement dans Google Search Console.
  • Sitemap: Utilisé pour indiquer l’emplacement de tout sitemap XML associé à cette URL. Notez que cette commande n’est prise en charge que par Google, Ask, Bing et Yahoo.
En savoir plus :   Refonte de site web et SEO : comment conserver son trafic ?

POURQUOI LE FICHIER ROBOTS.TXT EST-il IMPORTANT ?

Un fichier robots.txt permet de contrôler les activités des robots d’indexation afin d’éviter une surcharge de votre site Web ou l’accès à des pages d’indexation non destinées au public.

Voici quelques raisons importantes d’utiliser un fichier robots.txt :

Contrôle de l’exploration des robots

Le fichier robots.txt vous permet de contrôler précisément quelles pages ou répertoires les robots d’exploration des moteurs de recherche peuvent accéder et parcourir sur votre site web. Cela vous donne un contrôle total sur ce qui est indexé et rendu visible dans les résultats de recherche.

Mais vous vous demandez peut-être quelles sont les pages à ne pas indexer ? Pas de problème on vous explique ça.

Les pages à ne pas indexer pour un site vitrine ou un blog

  • Les mentions légales
  • La politique de confidentialité
  • La politique de cookies
  • Les archives (auteurs, formats, date)

Les pages à ne pas indexer pour un site e-commerce

  • Les conditions générales de vente (CGV)
  • Les mentions légales
  • Les conditions d’utilisation
  • La page « Panier »
  • La page « Mon Compte »
  • La page « Validation de la Commande »

Gestion de la charge du serveur

En spécifiant les pages ou les répertoires que les robots peuvent explorer, vous pouvez éviter une surcharge du serveur causée par un grand nombre de demandes d’exploration. Cela garantit des performances optimales de votre site web et une meilleure expérience utilisateur pour vos visiteurs.

Protection de la confidentialité

Le fichier robots.txt vous permet d’exclure des répertoires ou des sous-domaines sensibles ou privés de l’exploration des robots. Cela garantit que ces parties de votre site web restent confidentielles et ne sont pas indexées par les moteurs de recherche.

Optimiser le budget de crawl

En utilisant le fichier robots.txt pour limiter l’accès des robots aux pages non essentielles, vous pouvez optimiser votre budget d’exploration. Cela signifie que les robots se concentrent sur l’exploration des pages les plus importantes de votre site, ce qui améliore l’indexation et le classement dans les résultats de recherche.

En savoir plus :   Javascript et SEO : bonnes pratiques et erreurs à éviter

Comment créer un fichier robots.txt ?

Si vous avez découvert que votre site internet ne possède pas de fichier robots.txt ou si vous souhaitez modifier le vôtre, il est facile d’en créer un. Cet article de Google décrit parfaitement les étapes pour créer son fichier robots.txt.

Si votre site fonctionne avec un CMS, il existe des variantes pour créer son fichier robots.txt. On vous explique tout ça ci-dessous.

Créer son fichier Robots.txt sous Shopify

  • Connectez-vous à votre tableau de bord Shopify et accéder à votre boutique en ligne.
  • Cliquez sur les 3 petits points à côté de votre thème

  • Cliquez sur « Modifier le Code »
Modifier le code du thème Shopify pour le fichier Robots.txt
  • Ajouter une nouvelle ressource du type : modèle
  • Sélectionner le modèle robots.txt

Maintenant que vous êtes dessus vous pouvez modifier et ajouter vos directives à votre robots.txt.

Créer son fichier Robots.txt sous WordPress

Il existe plusieurs plugins disponibles pour gérer le fichier robots.txt sur WordPress :

  • Yoast SEO
  • All in One SEO Pack

Dès que vous avez choisis votre plugin :

  1. Installez et activez le plugin depuis le tableau de bord de votre site WordPress.
  2. Accédez aux paramètres du plugin installé et recherchez l’option Robots.txt.
  3. Vous pouvez maintenant éditer votre fichier robots.txt à l’aide de l’interface fournie par le plugin.

Créer son fichier Robots.txt sous Prestashop

  1. Connectez-vous à l’administration de votre boutique Prestashop.
  2. Accédez à « Préférences » et sélectionnez « SEO & URL » (Référencement et URL).
  3. Dans l’onglet « SEO & Indexing » (Référencement et indexation), recherchez la section « Robots.txt file » (Fichier robots.txt).
  4. Vous pouvez maintenant éditer votre fichier robots.txt et enregistrer les modifications.

Tom

Tom

Tom est consultant SEO chez Slashr et éditeur de sites.

Laisser un commentaire