Le Web haute fréquence et la nécessité du délestage

La mise en œuvre d’un serveur plus rapide a amené une augmentation  très rapide – et très artificielle – des requêtes vers mes sites. Je voudrais revenir sur ses causes. A mes yeux, il y a trois raisons à l’augmentation tendancielle de l’audience. 

Délestons, petit patapon !

Le Web haute fréquence et la nécessité du délestageLa première appartient au trafic non vu. Il s’agit pour l’essentiel des bots des moteurs de recherche Google, Bing, Yandex, Yahoo!, Baidu, Sogou, Exalead, Seznam, Orange, etc dont la fréquence de passage ne fait que de s’accélérer dans le temps. En la matière, il n’y a, là, pas grand chose à faire, si ce n’est le risque de bloquer le crawl, l’indexation et au final de provoquer un mauvais référencement naturel !

La deuxième raison est l’utilisation des agrégateurs de fils RSS/Atom tels que Tiny Tiny RSS, Fresh RSS, KrISS, Leed, etc. Il y a aussi les services Web tels que Feedly, Superfeedr qui nous pourrissent la vie ! J’ai décidé, face à ce trafic hyper-fréquence, de le délester vers FeedBurner.

Ces quelques lignes ci-dessous sont à ajouter à vos fichiers de configuration Apache.

#Gestion des fils RSS / Atom vers FeedBurner
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(alertmix|aol\ reader|bazqux|bloglovin|blogtrottr|buzzstream|ChimpFeedr|datagnion|dlvr|ecairn|EbuzzingFeed|feedafever|feedage|feedcat|feediz|feedjira|feedly|feedpress|feedspot|FeedWordPress|fever|flipboard|g2reader|getpocket|Hellocoton|Hubii\ Feed\ Reader|hubspot|inoreader|Kreuzz|leed|livelap|Netvibes|NewsBlur|newser|newzie|owlin|Protopage|theoldreader|Twingly||zaclys)(-|\.|\ |/|$) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(commafeed|freshrss|kriss|magpie(rss)?|miniflux|owncloud|selfoss|simplepie|tiny\ tiny\ rss|universalfeedparser)(-|\.|\ |/|$) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(akregator|liferea|newsfox|newsbeuter|newswire|outlook|rssowl|Sage|thunderbird)(-|\.|\ |/|$) [NC]
RewriteRule "/(feed|atom)/?$" "https://feeds.feedburner.com/dsfc?format=xml" [QSA,R=301,L]

La 3e raison, c’est la profusion d’outils d’analyse de pages, dont se servent des petits malins pour provoquer des attaques en déni de service, parfois à l’issue de leur plein gré. Pour ma part, ce trafic, je le redirige vers une page statique bien moins consommatrice en ressource !

Là-encore, ces quelques lignes suivantes  à ajouter à vos fichiers de configuration Apache vous feront le plus grand bien :

#Trafic parasite vers index.html
#
#Metrics|Scraping|SEO|Web Analytics
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_)(adnorm|ahrefs(bot)?|Backlink(Crawler|test)|brandwatch|cocon|COMODO\ SSL\ Checker|cognitiveseo|crazywebcrawler|dareboost|drakma|easy-thumb|everyonesocial|gmetrix|ismyblogbroken|jetsli|kraken|linkdex|linkfluence|ltx71|majestic12|MJ12Bot|MonTools|moz|netlyzer|nettrack|OnlineWebCheck|okhttp|openlinkprofiler|opensiteexplorer|proximic|scrapy|semantic|semrush|sysomos|ubermetrics|validator|webassay|WebCrawler|xenu\ link\ sleuth|zeef)(\.|\ |/|;|$) [NC,OR]
RewriteCond %{HTTP_REFERER} (\.|/)(ismyblogworking|webfaction)\.com($|/) [NC,OR]
RewriteCond %{REMOTE_HOST} \.heilink\. [NC,OR]
#
#Langages
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)([cC]url|Java|perl|PHP|python|Ruby|wget|Zend)(-|\.|\ |/|$|\\) [OR]
#
#UserAgent inconnu
#
RewriteCond "%{HTTP_USER_AGENT}" "^(\ |null|-||\\)$" [OR]
#
#Cul
#
RewriteCond %{HTTP_REFERER} \.(imgur|iobloggo)\.com($|/) [NC,OR]
RewriteCond %{HTTP_REFERER} \.(xrus)\.org($|/) [NC,OR]
#
#Les Huns modernes
#
RewriteCond %{REMOTE_HOST} \.ru(/|$) [NC,OR]
RewriteCond %{HTTP_REFERER} \.(bg|cc|corp|ga|lv|ninja|ru|tl|top|ua|wtf)($|/) [NC]
RewriteRule ".*" "%{HTTP_HOST}/index.html" [QSA,R=302,L]
 

Web Analytics / , , , , ,