Les bots, spiders, crawlers à autoriser sur votre site Web
Je viens de me rendre compte que j’avais été un peu violent dans les redirections faites à partir des différents user agents, interdisant du coup Mail.ru à crawler et indexer ce site.
J’ai donc dans ma configuration Apache ajouter ces quelques lignes afin d’autoriser les principaux bots et spiders ou autres crawlers des principaux moteurs de recherche à parcourir ce site afin de l’indexer. Pour ceux d’entre vous qui êtes en mutualisé, ajoutez ces deux lignes tout en haut de votre fichier .htaccess situé à la racine de votre site Web.
Autoriser les principaux bots, spiders et crawlers à parcourir et indexer votre site Web
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (\.|-|;|:|$|/|\)|\ |@|\+)(adsbot|applebot|archive\.org_bot|baiduspider|bingbot|bitlybot|dazoobot|deusu|exabot|gigabot|googlebot|heritrix|ichiro|mail\.ru_bot|mojeekbot|msnbot|orangebot|pinterest|psbot|qwantify|redditbot|seznambot|sogou|special_archive|trendiction|tweetmemebot|twitterbot|wada|wasalive|yahoo!\ slurp|yacibot|yandexbot|yandeximages|yoozbot)(\.|-|;|:|$|/|\)|\ |@|\+) [NC] RewriteRule ^(.*)$ $1 [L]