Aspirer toutes les images d’une page ou d’un site Web
Je cherchais à capturer les images d’une page Web pour connaître les formats des images utilisés. Pour tout dire, je voulais savoir si les photos des sites de presse étaient plutôt au format 4/3, 3/2, 16/9, 16/10 ou 20/10.
wget
Très naturellement, mon 1er choix s’est porté sur wget. Comme je suis sur Windows, j’ai cherché la dernière version de cet outil d’aspiration de contenus. Et puis, j’ai exécuté, à partir de la ligne de commandes, wget –help|more. J’ai donc utilisé les commutateurs suivants :
- -U : spécifie le user agent et permet de se faire discret
- -p : capture toutes les images
- -r : définit la récursivité, i.e. le niveau de parcours dans le site
- -D : restreint l’aspiration aux domaines spécifiés
- -A : indique les extensions des fichiers téléchargés
- -nd : force à ce que tous les fichiers téléchargés soient regroupés dans un même répertoire
- –no-check-certificate : pas de vérification des certificats
- –limit-rate : limite la bande passante utilisée et permet de se faire discret
Au final, pour aspirer les images associés à la page d’accueil de mon site, exécutez :
wget.exe -nd --no-check-certificate -p -A jpg,gif,png,svg,jpeg --limit-rate 150k -U "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0" -D dsfc.net "https://www.dsfc.net"
Il existe également des interfaces graphiques pour wget, si l’usage de la ligne de commandes vous répugne !
Les Data URIs ne sont pas prises en compte par cette méthode.
L’extension Firefox Download all images
Download all images est une extension Firefox conviviale qui vous permettra de faire plus simplement le téléchargement des images contenus dans un site en un seul clic. Plus besoin de la ligne de commandes ! ;+) L’extension ralentit considérablement la navigation. Activez-lu seulement lorsque vous en avez besoin !
N’oubliez pas de cocher Only save images from the same domain/server as the selected tab’s URL, afin de vous limiter au domaine de la page courante. Les images téléchargées sont encapsulées dans un fichier compressé au format zip. Pour embarquer les images de type Data URI Scheme intégrées à la page, décochez Only save images from the same domain/server as the selected tab’s URL.