# # robots.txt for http://gmi2a.free.fr/index.php # # $Id: robots.txt,v 1.01 2002/10/14 20:23:04 ted Exp $ # # ================================= # # http://www.robotstxt.org/wc/exclusion-admin.html # http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=156412 # # ================================= # Qu'est-ce que le fichier Robot.txt ? # Ce fichier permet surtout d'indiquer aux outils de recherche de ne pas indexer certaines parties de votre site. Il s'agit d'un fichier texte que vous créez avec Word, Wordpad ou Notepad. Pour qu'il soit prix en compte par les outils de recherche, vous devez le télécharger dans le répertoire racine de votre site web. # Voici ce que doit contenir ce fichier pour chaque moteur: # # User-agent: { nomduspider } # Disallow: { document-a-exclure } # Par exemple, pour indiquer au spider d'Excite, dénommée ArchitextSpider, de ne pas indexer les fichiers secret.html et secrets2.html, il faut insérer les lignes suivantes dans robot.txt : # User-agent: ArchitextSpider # Disallow: secret.html # Disallow: secrets2.html # Vous pouvez ajouter plus de lignes pour exclure des pages d'autres moteurs en indiquant le paramètre User-Agent encore dans le même fichier, suivi de plus rejetez des lignes. # Si vous voulez exclure un répertoire entier, utilisez cette syntaxe suivante: # User-agent: ArchitextSpider # Disallow: / nomdurepertoire / * # Vous pouvez demander à ce qu'une page ne soit visitée par aucun outil de recherche avec la syntaxe suivante # User-agent: * # Disallow: secrets2.html # Lorsque je veux interdirà un moteur de recherche d'indexer mon site, j'insère les ligne suivante dans le fichier robot.txt # User-agent: Sooter # Disallow: / * # (ici, j'ai demandé à Scooter, le spider d'Altavista, un viel ami à moi, de ne pas visité le site). # # D'ailleurs, je vous donne la liste de tous les spiders dont j'ai fait la connaissance. # Outil de recherche: # User-Agent de l'outil: # # Alta Vista # Scooter # Infoseek # InfoSeek Sidewinder # Excite # ArchitextSpider # Lycos # Lycos_Spider_(T-Rex) # Northern Light # Gulliver # ================================= # exclude some access-controlled areas User-Agent: * Disallow: / # For disable Googlebot access User-agent: Googlebot Disallow: / # For disable MSNBot access User-agent: msnbot Disallow: / # For use by search.w3.org User-agent: W3Crobot/1 Disallow: / * # AltaVista Search User-agent: AltaVista Intranet V2.0 W3C Webreq Disallow: / * # If you want to know more about how to specify access controls, see, for example: robots exclusion at www.robotstxt.org. # If you want to prevent Zyborg from accessing any directories, please include the following directives in your robots.txt file: # (Make sure to leave a space between the colon and ZyBorg!) User agent: ZyBorg Disallow: / # (And leave a space between the colon and the backslash!) User-agent: Exabot Disallow: / Crawl-delay: 10000000000