Les outils Open Source pour le PDF sous Windows

Le PDF est devenu l’un des formats de fichier incontournables dans nos vies numériques. Les projets Open Source sont légion à son sujet. Dans ce contexte, je ne vois pas l’intérêt à utiliser des solutions propriétaires.

Les lecteurs PDF , d’abord

Plébiscité par les Internautes, j’avoue avoir un peu de mal avec SumatraPDF, du fait d’incompatibilités rencontrées dans le passé avec certaines fonctionnalités des fichiers PDF. Mon préféré du moment est Okular. Il dispose d’une fonction présentation et permet d’annoter les documents. Il prend en charge beaucoup d’autres formats.

Okular, lecteur PDF de compétition

La manipulation des fichiers PDF

J’ai testé de nombreux outils pour découper, fusionner ou extraire des pages de mes documents PDF. Pour autant, celui qui garde mes faveurs est PDFSam. Il nécessite l’installation préalable d’OpenJDK sur Windows.

PDFSam Split And Merge Basic

Générer des PDF

Il existe plusieurs solutions. La 1ère est d’exporter vos documents sous LibreOffice. A la condition que le format soit pris en charge, ouvrez le document sur LibreOffice Writer, par exemple, et choisissez dans le menu Fichier > Exporter vers > Exporter au format PDF.

LibreOffice Writer > Fichier > Exporter vers > Exporter au format PDF

Pour les autres formats, vous pouvez utiliser la version libre et gratuite de PDFCreator. Après avoir installé le logiciel, faites Fichier > Imprimer ou Ctrl+P à partir de n’importe quel logiciel disposant de cette fonctionnalité.

Fichier > Imprimer >Imprimante > PDFCreator

Nonobstant le fait que le logiciel possède de nombreux réglages, il permet aussi d’exporter dans d’autres formats tels que JPEG, PNG, TIFF.

PDFCreator > Profil > Modifier

Vous pouvez aussi utiliser le logiciel Calibre pour convertir vos documents EPUB ou MOBI vers le PDF et vice versa. Après avoir ouvert le logiciel, faites un clic droit sur le document et choisissez Convertir des livres > Convertir (un livre à la fois) ou Convertir par lot.

Calibre > Convertir des livres > Convertir (un livre à la fois) | Convertir par lot

Prenez le format PDF comme Format de sortie.

Calibre > Format de sortie > PDF

L’OCR ou Optical Character Recognition

L’OCR est un outil indispensable pour tous ceux d’entre vous qui n’ont pas de temps à perdre. Certains documents PDF, comme ceux issus des services de L’État, sont des scans de documents papiers. Ils ne peuvent pas faire l’objet de Copier/Coller à partir de votre lecteur PDF. Dans ce cas, il vous faudra disposer d’un logiciel de reconnaissance de caractères. Dans ce domaine, je vous recommande l’usage de gImageReader (version Qt conseillée) couplé à TesserAct. Lancez gImageReader. Faites glisser le fichier PDF à partir de l’explorateur Windows. Cliquez sur l’icône Recognize, après avoir choisi la langue (icône à droite). Dans le panneau Output, cliquez sur l’icône à droite de la disquette.

gImageReader couplé à Tesseract

Le taux de reconnaissance dépasse largement les 95%.

OSS /