Le sitemap, facteur positif de SEO
La présence de vos contenus dans les pages de résultats des moteurs de recherche – ou SERP – est la conséquence de deux processus distincts. Le premier d’entre eux consiste pour les éditeurs des principaux moteurs de recherche (Google, Bing, Baidu, Orange, Yandex, Exalead, Sogou) à employer des robots d’exploration. Au jour d’aujourd’hui, ces robots agissent en fonction des indications fournies dans les plates-formes de type Webmaster Tools des principaux éditeurs comme Google, Bing et Yandex. A défaut, les crawlers, spiders et autres bots utilisent le fichier robots.txt dont le contenu donne les directives pour explorer – ou crawler – le site. Défini en 2005, la plupart des éditeurs de moteurs de recherche se sont ralliés à l’utilisation du fichier sitemap.xml.
Le deuxième processus consiste, une fois la collecte des urls effectuée, à indexer le site dans les bases de données utilisées par les moteurs de recherche.
Données statistiques quant à l’utilisation du fichier sitemap.xml
Suite aux articles publiés par Olivier et Serge, j’ai voulu regarder de plus près la manière dont ce site était crawlé en m’appuyant sur les logs de mon serveur Apache allant de la période du 18/10/2015 (3 h 18) au 24/10/2015 (12 h 07), sur une durée de 153 heures.
Hits | Hits robots.txt |
Hits sitemap*.xml |
Hits sitemap*.xml.gz |
Hits Fils RSS |
|
Total Hits | 118245 | 1641 | 25 | 80 | 36700 |
googlebot | 5871 | 80 | 1 | 30 | 2204 |
baiduspider | 755 | 13 | 2 | 4 | |
orangebot | 227 | 11 | 1 | 75 | |
yandex | 163 | 34 | 1 | ||
msnbot | 82 | 5 | 45 | ||
exabot | 23 | 3 | 1 | 1 | |
sogouspider | 2 | 1 |
Quelques observations
Remarquez, tout d’abord, que le fichier sitemap.xml avait l’objet de 12.5 hits par jour. S’il est utilisé, c’est qu’il doit tout de même servir à quelque chose, non ?
Si Bing et Google – dans une moindre mesure – sont à peu près les seuls à utiliser réellement le fichier sitemap.xml, Google et Orange s’appuient principalement sur les fils RSS pour explorer/crawler les sites.
Pour ma part, je reste convaincu que la présence d’un fichier sitemap.xml ou de fils RSS, en permettant une plus grande vitesse de crawl et par ricochet d’indexation, constitue un facteur positif pour le référencement de votre site. Mais il existe d’autres techniques comme l’utilisation des services d’actualisation basés sur la technique dite de « Ping XML-RPC« . On peut aussi évoquer les services de push comme ifttt ou dlvr.it qui, en propulsant vos contenus dans les réseaux sociaux, finiront par être explorés tôt ou tard ! Il est, de mon point de vue, comme l’affirme Serge, totalement faux de dire que la présence d’un fichier sitemap.xml pénaliserait d’une manière ou d’une autre le SEO. L’utilisation de plugins de type XML-Sitemap dans WordPress permet d’ailleurs assez finement de déterminer la liste des urls à inscrire dans ce fichier !