Le Web haute fréquence et la nécessité du délestage

La mise en œuvre d’un serveur plus rapide a amené une augmentation  très rapide – et très artificielle – des requêtes vers mes sites. Je voudrais revenir sur ses causes. A mes yeux, il y a trois raisons à l’augmentation tendancielle de l’audience. 

Délestons, petit patapon !

Le Web haute fréquence et la nécessité du délestageLa première appartient au trafic non vu. Il s’agit pour l’essentiel des bots des moteurs de recherche Google, Bing, Yandex, Yahoo!, Baidu, Sogou, Exalead, Seznam, Orange, etc dont la fréquence de passage ne fait que de s’accélérer dans le temps. En la matière, il n’y a, là, pas grand chose à faire, si ce n’est le risque de bloquer le crawl, l’indexation et au final de provoquer un mauvais référencement naturel !

La deuxième raison est l’utilisation des agrégateurs de fils RSS/Atom tels que Tiny Tiny RSS, Fresh RSS, KrISS, Leed, etc. Il y a aussi les services Web tels que Feedly, Superfeedr qui nous pourrissent la vie ! J’ai décidé, face à ce trafic hyper-fréquence, de le délester vers FeedBurner.

Ces quelques lignes ci-dessous sont à ajouter à vos fichiers de configuration Apache.

#Gestion des fils RSS / Atom vers FeedBurner
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(alertmix|aol\ reader|bazqux|bloglovin|blogtrottr|buzzstream|ChimpFeedr|datagnion|dlvr|ecairn|EbuzzingFeed|feedafever|feedage|feedcat|feediz|feedjira|feedly|feedpress|feedspot|FeedWordPress|fever|flipboard|g2reader|getpocket|Hellocoton|Hubii\ Feed\ Reader|hubspot|inoreader|Kreuzz|leed|livelap|Netvibes|NewsBlur|newser|newzie|owlin|Protopage|theoldreader|Twingly||zaclys)(-|\.|\ |/|$) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(commafeed|freshrss|kriss|magpie(rss)?|miniflux|owncloud|selfoss|simplepie|tiny\ tiny\ rss|universalfeedparser)(-|\.|\ |/|$) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)(akregator|liferea|newsfox|newsbeuter|newswire|outlook|rssowl|Sage|thunderbird)(-|\.|\ |/|$) [NC]
RewriteRule "/(feed|atom)/?$" "https://feeds.feedburner.com/dsfc?format=xml" [QSA,R=301,L]

La 3e raison, c’est la profusion d’outils d’analyse de pages, dont se servent des petits malins pour provoquer des attaques en déni de service, parfois à l’issue de leur plein gré. Pour ma part, ce trafic, je le redirige vers une page statique bien moins consommatrice en ressource !

Là-encore, ces quelques lignes suivantes  à ajouter à vos fichiers de configuration Apache vous feront le plus grand bien :

#Trafic parasite vers index.html
#
#Metrics|Scraping|SEO|Web Analytics
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_)(adnorm|ahrefs(bot)?|Backlink(Crawler|test)|brandwatch|cocon|COMODO\ SSL\ Checker|cognitiveseo|crazywebcrawler|dareboost|drakma|easy-thumb|everyonesocial|gmetrix|ismyblogbroken|jetsli|kraken|linkdex|linkfluence|ltx71|majestic12|MJ12Bot|MonTools|moz|netlyzer|nettrack|OnlineWebCheck|okhttp|openlinkprofiler|opensiteexplorer|proximic|scrapy|semantic|semrush|sysomos|ubermetrics|validator|webassay|WebCrawler|xenu\ link\ sleuth|zeef)(\.|\ |/|;|$) [NC,OR]
RewriteCond %{HTTP_REFERER} (\.|/)(ismyblogworking|webfaction)\.com($|/) [NC,OR]
RewriteCond %{REMOTE_HOST} \.heilink\. [NC,OR]
#
#Langages
#
RewriteCond %{HTTP_USER_AGENT} (\.|/|^|\ |_|-)([cC]url|Java|perl|PHP|python|Ruby|wget|Zend)(-|\.|\ |/|$|\\) [OR]
#
#UserAgent inconnu
#
RewriteCond "%{HTTP_USER_AGENT}" "^(\ |null|-||\\)$" [OR]
#
#Cul
#
RewriteCond %{HTTP_REFERER} \.(imgur|iobloggo)\.com($|/) [NC,OR]
RewriteCond %{HTTP_REFERER} \.(xrus)\.org($|/) [NC,OR]
#
#Les Huns modernes
#
RewriteCond %{REMOTE_HOST} \.ru(/|$) [NC,OR]
RewriteCond %{HTTP_REFERER} \.(bg|cc|corp|ga|lv|ninja|ru|tl|top|ua|wtf)($|/) [NC]
RewriteRule ".*" "%{HTTP_HOST}/index.html" [QSA,R=302,L]

Web Analytics  / Apache Formateur Apache Formateur LAMP Formateur Web Analytics Lamp Web Analytics 

Commentaires

Bonjour,
Tu veux dire que le trafic dû aux flux RSS est significatif par rapport aux autres (crawlers et référencement ?).

Quelles sont les proportions respectives de chacun de ces trois domaines que tu constates ?

Et sinon, pour ma culture, quel est le but des outils d’analyse de page (3e catégorie citée) ? Si c’est juste pour des buts non avouables, ne serait-il pas judicieux de monter des listes noires d’entrée, un peu comme on a des listes noires de sortie pour le contrôle parental, et de mutualiser toute cette gestion qui doit être assez pénible pour un non-spécialiste ?

@tintouli

Vite fait, sur la journée du 25/6 :

5812 hits (31%) sur le RSS/Atom
7395 hits (49.5%) émanant de bots
14937 hits (79%) au total venant de la 3e catégorie, sans les langages !
18922 hits au total

Il peut y avoir des bots ou des outils d’analyse qui parcourent les flux ! ;+)

Il me semble que tu as fait une faute sur ta condition concernant blogovin, ne serait ce pas bloglovin ?

@FBZ

En effet. Merci.

Laisser un commentaire

(requis)

(requis)