Forum général.cherche-logiciel Un logiciel pour "tronquer" des .pdf mals scannés

Posté par  (site web personnel) .
Étiquettes : aucune
0
24
oct.
2005
Bonjour,

Voilà, je dispose d'un document PDF provenant de divers documents scannés. Oui, mais : scannés comme des porcs !! Je m'explique : tout autour des pages, les zones "vides" apparaissent noires, et non pas blanches. Exactement comme lorsqu'on fait une photocopie avec le capot de la photocopieuse ouvert...

Or, j'aimerais imprimer ce document PDF, mais si je le fait tel quel, bonjour le gaspillage !

Je cherche donc quelque chose me permettant de "retailler" les pages : virer la grosse partie noire, et soit la tronquer, soit la remplir de blanc...

Évidemment, il y'a plusieurs centaines de pages, donc si l'outil est automatique, c'est mieux :) (ou alors une indication de "coupe" pour les pages paires, et l'autre pour les pages impaires...)

Merci d'avance si vous pouvez m'aider
  • # pdfimages+convert

    Posté par  . Évalué à 7.

    Je ne sais pas si il existe UN logiciel permettant de faire ça, mais il doit y avoir moyen de s'en tirer en utilisant pdfimages (package xpdf-utils sous debian). Celui-ci te permettra de récupérer les images contenues dans ton .pdf (et puisque celui-ci est scanné, tu as une image par page). Tapes simplement "pdfimages document.pdf page" pour récupérer des fichiers page-000.ppm, page-001.ppm, etc.

    Tu dois ensuite pouvoir retoucher automatiquement tes fichiers avec convert (package imagemagik). Par exemple pour les découper:
    for i in page-*.ppm; do convert -crop 100x100+10+10 $i $i.jpg; done
    en ajustant les "100x100+10+10" selon la géométrie de tes pages (ça veut juste dire "couper un rectangle de 100 par 100 à partir du point 10x10"). Au pire, tu devras peut-être traiter différemment pages paires et impaires si elles ne sont pas centrées de la même manière... et en espérant que les pages ne soient pas centrées n'importe comment au fil du document...

    Ensuite, tu reformes simplement le pdf par:
    convert page-*.jpg document-2.pdf

    Voilà... devrait marcher ça...
    • [^] # Re: pdfimages+convert

      Posté par  (site web personnel) . Évalué à 1.

      Ok, merci, je vais tenter le chose. ;)
      • [^] # Re: pdfimages+convert

        Posté par  (site web personnel) . Évalué à 1.

        Bon voilà, ça a fonctionné

        une fois sorties les images du pdf, j'ai fait un script qui les modifies différemment quand elles sont paires ou impaires, avec convert. Ensuite, au lieu de reconstruire un pdf, j'ai plutôt opté pour un djvu, qui prend deux fois moins de place ici...


        for file in page-*.pbm
        do
        cjb2 -dpi 600 $file $file.djvu
        done

        djvm final.djvu page-*.djvu

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.