Robots.txt Generator
Les moteurs de recherche accordent aux sites Web un budget d’exploration qui correspond au nombre d’URL que les araignées doivent parcourir sur un site dans une durée donnée.
Mais il existe certains facteurs qui épuisent ce budget comme les pages d’erreurs. De plus, il n’est pas nécessaire que les robots explorateurs examinent toutes les pages de votre site.
Le fichier robots.txt permet dans ce cas de donner des instructions sur la manière dont les crawls doivent parcourir votre site. La création de ce fichier par contre peut être un vrai casse-tête puisqu’à moindre erreur, cela peut affecter négativement votre site.
Pour aider les webmaster, RYTE propose l’outil Robots.txt Generator pour générer des fichiers robots.txt en toute simplicité.
À travers cette description, nous découvrons comment générer ce fichier à partir de l’outil et vérifier l’exactitude de vos instructions.
Qu’est-ce que Robots.txt Generator de RYTE ?
Robots.txt Generator de RYTE est un générateur robots.txt très facile à utiliser pour les débutants. Vous pouvez assembler votre fichier robots.txt en quelques étapes seulement.
En effet, un fichier robots.txt est une forme d’instruction pour les robots et les crawlers (par exemple Googlebot) qui définit les répertoires d’un site Web pouvant être lu et ceux ne pouvant pas l’être. Par exemple, les pages dupliquées peuvent être exclues de l’indexation.
À défaut d’un tel fichier, l’engin d’exploration ou le robot effectue une recherche sur tout le site Web et potentiellement sur chaque fichier.
Ainsi, tous les fichiers peuvent se voir apparaître dans la recherche Google, par exemple, même lorsqu’ils ne devraient pas s’y trouver (comme dans la zone d’administration privée du site Web).
Ce phénomène peut également avoir un impact négatif sur votre référencement, car les sous-pages qui sont explorées ne sont pas optimisées pour les moteurs de recherche.
Le Ryte Robots.txt Generator peut vous aider à générer rapidement des fichiers robots.txt avec une sélection de 11 araignées.
Une fois que vous avez tout configuré, en un clic vous pouvez créer et télécharger le fichier. Il ne vous restera plus qu’à le télécharger dans le répertoire racine de votre site Web.
À qui s’adresse Robots.txt Generator de RYTE ?
Ce générateur de fichier robots.txt s’adresse aux webmasters qui souhaitent empêcher les moteurs de recherche d’accéder à certaines ressources de leurs sites qui n’ont pas besoin d’apparaître dans les résultats de recherche.
Ce faisant, vous optimisez le budget crawl de votre site de manière à ce que les araignées aillent seulement explorer les pages essentielles.
Il est également gratuit et vous permet d’ajouter le sitemap de votre site dans le fichier robots.txt.
Les options de Ryte Robots.txt Generator pour générer votre fichier
Avant d’explorer les options de cet outil, intéressons-nous d’abord à la syntaxe du fichier robots.txt.
Un fichier robot comprend un ou plusieurs blocs de directives à adresser aux moteurs de recherche. La première ligne spécifie l’agent utilisateur, c’est-à-dire le nom du crawl auquel vous donnez des instructions d’exploration.
Cela dit, on commence par spécifier l’agent utilisateur auquel l’instruction doit s’appliquer, puis suit une commande qui n’est rien d’autre que l’instruction.
Allow all ou accepter tout
Cette option donne accès à tous les robots pour explorer toutes les pages de votre site Web. Vous comprenez bien que ce n’est pas l’option idéale lorsque vous ne souhaitez pas que toutes les pages de votre site soient parcourues.
Cependant, vous pouvez le personnaliser et indiquer les robots à qui vous souhaitez donner des instructions ainsi que les pages qu’ils doivent explorer.
Disallow all ou Désavouer tout.
Cette option n’autorise aucun robot explorateur à explorer les pages de votre site. Cependant, si les araignées ne peuvent pas parcourir votre site, il est évident que les pages de votre site ne seront pas indexées.
Et lorsque vos pages Web ne sont pas indexées, elles ne peuvent pas non plus apparaître dans les résultats de recherche. C’est pourquoi vous devez veiller à la manière dont vous créez un fichier robot.
Customisize ou option de personnalisation
C’est la partie la plus intéressante de l’outil Ryte Robots.txt Generator, car vous avez la possibilité de personnaliser le fichier robot.txt et donner des instructions comme vous le souhaiterez.
À gauche dans Select Bot, vous pouvez définir les crawlers à qui vous souhaitez donner des directives.
À droite, vous allez définir à la fois les URL (ou le répertoire) que les bots ne doivent pas explorer et celles qu’elles sont autorisées à visiter.
Pour faire court, voici les étapes à suivre pour générer le fichier à l’aide de l’outil.
- 1. Entrez votre racine. Il suffit d’entrer ( ⁄ ) et d’ajouter vos URL autorisées ou interdites relatives au dossier racine de votre serveur ;
- 2. Choisissez le(s) robot(s) que vous voulez autoriser à parcourir votre site ;
- 3. Entrez les chemins que vous désirez autoriser ou non à accéder à votre site ;
- 4. Ajoutez le sitemap de votre site afin de permettre aux robots explorateurs de voir plus rapidement le plan de votre site lorsqu’ils arrivent là-dessus ;
- 4. Chaque fois que vous finissez avec une instruction, cliquez sur ‘Add’ pour enregistrer votre règle et commencez à écrire une autre directive ;
- 5. Téléchargez votre fichier robots.txt.
Tester votre fichier robots.txt avant publication
Il convient de toujours vérifier l’exactitude du fichier robots.txt avant de le placer dans le répertoire racine du site Web.
La moindre erreur peut pousser le robot à ne pas tenir compte des spécifications et peut-être à intégrer des pages qui n’ont pas besoin de figurer dans l’index de Google.
Ryte propose également Robots.txt Test Tool qui permet de tester votre fichier robots.txt. Il vous suffit de saisir l’URL concernée et de sélectionner l’agent utilisateur correspondant.
Après avoir cliqué sur « Start test », l’outil vérifie si le crawling sur l’URL donnée est autorisée ou non.
En somme, l’outil Robots.txt Test Tool de Ryte vous permettra de générer un fichier robots.txt pour votre site sans une connaissance technique.