Robots.txt pour mes sites WordPress
J’ai lu avec beaucoup d’attention le billet de Daniel sur la manière qu’il a choisie de constituer le fichier robots.txt pour un site appareillé avec WordPress. J’y ai exprimé deux désaccords. L’un est relatif à la désindexation des fichiers Flash. Ils sont aujourd’hui indexés par Google. Concernant les fichiers js et css, Matt Cutts avait recommandé de ne pas les désindexer !
Googlelisation du fichier robots.txt ?
Certains éléments de syntaxe que nous propose Daniel concernant robots.txt ont le défaut d’être spécifiques à Google. Ils concernent l’exclusion de type de fichiers. Le risque est qu’ils ne soient pas pris en charge par des moteurs comme Bing, Baïdu, Exalead, Yandex, … Je vous recommande d’employer une syntaxe « classique ».
Mon fichier robots.txt
Voici, pour ma part, ce que je vous proposerais pour un site WordPress :
User-agent: *
Sitemap: https://www.dsfc.net/sitemap.xml.gz
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/temp/
Disallow: /wp-content/upgrade/
Fichier sitemap.xml
C’est là mon plus gros point de désaccord avec Daniel ! Le fichier sitemap.xml ou sitemap.xml.gz (si plus de 1 Mo) est utilisé « spontanément » par différents spiders. A la lecture de mes logs de serveurs Apache, j’y ai trouvé, en dehors des moteurs Google, Bing et Yandex, des passages des bots du moteur français Exalead, du chinois Baidu et de tas de bots plus ou moins exotiques ! Je pense qu’il y a là une erreur profonde à se limiter à Google et à Bing. C’est d’ailleurs un grand, très grand point de désaccord avec Sylvain sur lequel nous nous sommes déjà exprimés !