Galactic Civilizations 3
Ecrire un robots.txt

Ecrire un robots.txt

Catégorie: Javascript.
Posté par le 19/09/2011.
Dernière mise à jour le 11/06/2012.

Description

Ce tutoriel vous expliquera comment écrire un fichier robots.txt.

Introduction

Les fichiers robots.txt sont utilisés par les webmasters pour donner aux robots d’indexation (web spider) des instructions sur leurs sites. Ce mécanisme est appelé le Protocole d'exclusion des robots.

Lors de ce tutoriel, nous allons considérer que notre site (http://www.tutorielsenfolie.com) a la structure suivante :

Répertoire Fichiers
/  
  index.html
  robots.txt
users/  
  pagePerso.html
  publique.html
secret/  
  secret.html

Fonctionnement général

Lorsque le robot d’indexation visite le site web il commence par lire le fichier http://www.tutorielsenfolie.com/robots.txt. Puis, en fonction de son contenu, il lira le fichier http://www.tutorielsenfolie.com/index.html. Imaginons que le fichier robots.txt contient les instructions suivantes :

User-agent: *
Disallow: /

  • User-agent:* signifie que la section qui suit s’applique à tous les robots d’indexations.
  • Disallow:/ indique que les robots ne doivent visiter aucune page sur le site.

Lors de l’utilisation du fichier robots.txt, il y a deux choses importantes à retenir :

  1. Les robots peuvent ignorer le fichier robots.txt. En particulier si ce sont des robots pirates qui scannent l’internet afin de trouver des failles de sécurité, de récolter des adresses emails ou pour d’autres raisons.
  2. Le fichier robots.txt est public, ce qui veut dire que n’importe qui peut voir quelles sections vous désirer cacher aux robots d’indexation. Il ne faut donc pas utiliser le fichier robots.txt afin de cacher des informations cruciales.

Comment écrire un fichier robots.txt

Le fichier robots.txt est composé de sections divisées en deux parties :

  • La première indique quels robots d’indexation sont concernés par la deuxième partie. Cette partie commence par User-agent : suivi de la liste des robots d’indexation séparés par une virgule (* pour tous).
  • La seconde indique quels répertoires ou fichiers ne doivent pas être pris en compte lors de l’indexage du site. Cette partie est composée d’une série de lignes  commençant par Disallow : suivi du répertoire ou du fichier à ne pas indexer.

Exemple :

User-agent: Google
Disallow: /secret/
Disallow: /users/pagePerso.html

Notez que l’on peut rassembler les deux dernières lignes de la manière suivante : Disallow : /secret/ /users/pagePerso.html.

NB : Une section ne peut pas contenir de lignes vides car celles-ci sont utilisées pour différencier deux sections. De plus les expressions régulières ne sont pas supportées. Le caractère * est une valeur spéciale signifiant « tous les robots ».

Exemple d’utilisation

Exclure tous les robots du serveur

User-agent: *
Disallow: /

Exclure un seul robot du répertoire secret/

User-agent: BadBot
Disallow: /secret/

Autoriser un seul robot sur le serveur

User-agent: Google
Disallow:
User-agent: *
Disallow: /

Exclure tous les robots sur le serveur à l’exception d’un fichier

Le problème est qu’il n’existe pas de mot clé permettant d’autoriser un fichier ou un robot sur le serveur. La meilleur manière de faire est de mettre tous les fichiers dans un répertoire (par exemple /antiRobot) et de placer le fichier à indexer hors de ce répertoire.  Il suffit ensuite d’écrire le fichier robot.txt de la manière suivante :

User-agent: *
Disallow: /antiRobot/

Alternative au fichier robots.txt

Si vous ne voulez pas ou ne pouvez pas créer de fichier robots.txt, une alternative existe. Celle-ci consiste à utiliser les meta tag afin de signaler aux robots d’indexation s’ils doivent indexer votre page ou liens contenu sur le document.

<meta name="ROBOTS" content="NOINDEX" />

Indique que la page ne doit pas être indexée.

<meta name="ROBOTS" content="NOFOLLOW" />

Indique que les robots ne doivent pas suivre les liens de cette page.

Tu as aimé ce tutoriel ?
Aide nous à améliorer le site ! Deviens partenaire officiel ou suis nous sur facebook !

Commentaires[0]

Tu as aimé ce tutoriel ? Alors partage-le avec tes amis !
Partager sur Facebook Partager sur Twitter Partager sur Myspace Partager sur Stumbleupon Soumettre sur Reddit Partager sur Digg Ajouter à vos favoris Technorati Ajouter à vos favoris Live Ajouter à vos favoris Google Ajouter sur vos favoris Yahoo Voir le flux rss

Mots Clés: indexation JavaScript meta tag protocole d'exclusion des robots robot indexation robots.txt Search Engine Optimization SEO web web spider

Veve :
(11/04/2013 - 17:19:44)
il faut juste mettre "sudo" à la place de "su" pour exécuter la commande en root

Veve :
(11/04/2013 - 17:18:56)
Salut tu peux aller lire ce tutoriel: http://www.tutorielsenfolie.com/tutoriels-63-installation-configuration-opennebula.html Il fonctionne aussi sous ubuntu

safa.souissi4 :
(10/04/2013 - 20:58:13)
s'il vous plait c urgent :(

safa.souissi4 :
(10/04/2013 - 20:56:25)
bonsoir,je cherche un tutos pour installer opennebula.org sous ubuntu 12.

Veve :
(18/03/2013 - 20:07:49)
oui, j'essaye de voir d'ou viens le problème.

sonde :
(18/03/2013 - 13:29:57)
re merci (j apprend un peu plus) je crois que j ai trouver pourquoi je peu pas poster si il y a ligne code impossible de poster lol

Veve :
(17/03/2013 - 21:34:49)
Salut, j'espère que ça t'a aidé.

sonde :
(17/03/2013 - 09:59:02)
pour ton aide

sonde :
(17/03/2013 - 09:57:36)
slt Veve impossible de laisser com

sonde :
(17/03/2013 - 09:56:55)
??

Demi-dieu :
(15/03/2013 - 18:41:13)
salut ^^

sonde :
(13/03/2013 - 14:49:35)
un petit coucou

Tanamoureuse :
(29/09/2011 - 06:11:08)
Je t'aime

Faire un don

Ma Publicité ici


Faire un don