Forum général.cherche-logiciel Un logiciel pour "tronquer" des .pdf mals scannés

Posté par Ju Hash le 24 octobre 2005 à 23:34.

Étiquettes : aucune

oct.

2005

Bonjour,

Voilà, je dispose d'un document PDF provenant de divers documents scannés. Oui, mais : scannés comme des porcs !! Je m'explique : tout autour des pages, les zones "vides" apparaissent noires, et non pas blanches. Exactement comme lorsqu'on fait une photocopie avec le capot de la photocopieuse ouvert...

Or, j'aimerais imprimer ce document PDF, mais si je le fait tel quel, bonjour le gaspillage !

Je cherche donc quelque chose me permettant de "retailler" les pages : virer la grosse partie noire, et soit la tronquer, soit la remplir de blanc...

Évidemment, il y'a plusieurs centaines de pages, donc si l'outil est automatique, c'est mieux :) (ou alors une indication de "coupe" pour les pages paires, et l'autre pour les pages impaires...)

Merci d'avance si vous pouvez m'aider

# pdfimages+convert

Posté par THE_ALF_ le 25 octobre 2005 à 06:30. Évalué à 7.

Je ne sais pas si il existe UN logiciel permettant de faire ça, mais il doit y avoir moyen de s'en tirer en utilisant pdfimages (package xpdf-utils sous debian). Celui-ci te permettra de récupérer les images contenues dans ton .pdf (et puisque celui-ci est scanné, tu as une image par page). Tapes simplement "pdfimages document.pdf page" pour récupérer des fichiers page-000.ppm, page-001.ppm, etc.

Tu dois ensuite pouvoir retoucher automatiquement tes fichiers avec convert (package imagemagik). Par exemple pour les découper:
for i in page-*.ppm; do convert -crop 100x100+10+10 $i $i.jpg; done
en ajustant les "100x100+10+10" selon la géométrie de tes pages (ça veut juste dire "couper un rectangle de 100 par 100 à partir du point 10x10"). Au pire, tu devras peut-être traiter différemment pages paires et impaires si elles ne sont pas centrées de la même manière... et en espérant que les pages ne soient pas centrées n'importe comment au fil du document...

Ensuite, tu reformes simplement le pdf par:
convert page-*.jpg document-2.pdf

Voilà... devrait marcher ça...
- [^] # Re: pdfimages+convert
  
  Posté par Ju Hash le 25 octobre 2005 à 19:32. Évalué à 1.
  
  Ok, merci, je vais tenter le chose. ;)
  - [^] # Re: pdfimages+convert
    
    Posté par Ju Hash le 27 octobre 2005 à 21:45. Évalué à 1.
    
    Bon voilà, ça a fonctionné
    
    une fois sorties les images du pdf, j'ai fait un script qui les modifies différemment quand elles sont paires ou impaires, avec convert. Ensuite, au lieu de reconstruire un pdf, j'ai plutôt opté pour un djvu, qui prend deux fois moins de place ici...
    
    for file in page-*.pbm
    do
    cjb2 -dpi 600 $file $file.djvu
    done
    
    djvm final.djvu page-*.djvu

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# pdfimages+convert

[^] # Re: pdfimages+convert

[^] # Re: pdfimages+convert