Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un (…)

Journal PDF d'un site de l'administration illisible

Posté par  . Licence CC By‑SA.
37
5
oct.
2014

Petit coup de gueule sur un sujet déjà abordé ici ou .
En résumé, j'ai besoin de remplir le formulaire 13750*03. Le problème, c'est que si j'utilise le lecteur PDF intégré à Firefox ou Okular, je tombe systématiquement sur ce superbe message

To view the full contents of this document, you need a later version of the PDF viewer. You can upgrade
to the latest version of Adobe Reader from www.adobe.com/products/acrobat/readstep2.html
For further support, go to www.adobe.com/support/products/acrreader.html

Okular (…)

Forum Linux.débutant Récupérer au format html un tableau pdf

Posté par  . Licence CC By‑SA.
Étiquettes :
1
19
mai
2014

Je débute et commence à utiliser les exec sous php.
Actuellement je fais : exec("pdftohtml -c -i -noframes $pdfalire $html");

Je récupère tout le pdf en html. Je voudrais juste le tableau en bas de page. Quelqu'un ou quelqu'une peut-elle ou peut-il m'aider.

le $pdfalire est accessible sur www.officeservice.fr/PDF/30253.PDF et en le visualisant vous verrez un tableau qui fait les correspondances entre les articles. C'est ce tableau là que je veux récupérer…. et en plus avec les liens… Est-ce possible ?

(…)

Journal Reportlab 3.1.8

Posté par  . Licence CC By‑SA.
Étiquettes :
11
22
avr.
2014

Reportlab est une librairie Python pour générer des PDFs

Cette version confirme le support de Python 3.3 et 3.4 en même temps que 2.7 (qui sera supporté pendant encore des années par l'équipe).
Le paquet peut maintenant être installé avec PIP

Pour moi c'était LE paquet qui m'empêchait d'envisager python 3 !

Journal AnnotateMe !

Posté par  . Licence CC By‑SA.
Étiquettes :
13
8
avr.
2014

AnnotateMe! vous permet, via une interface web, d'ajouter des annotations sur des documents PDF; Et cela de manière collaborative (visualisation des modifications en temps réels).

  1. Uploadez votre PDF.
  2. Vous pouvez ajouter des annotations (simple zone rectangulaire + texte).
  3. Partagez l'adresse (URL) de votre document avec des personnes : vous verrez alors leurs modifications en direct (ajouts/suppressions/mises à jour).
  4. Vous pouvez télécharger à tout moment le PDF avec les annotations « incrustées ». L'export sous forme d'un simple fichier texte est aussi possible.

AnnotateMe (…)

Forum général.cherche-logiciel Indexeur de PDF

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
2
11
nov.
2013

Chers tous,

je suis à la recherche d'une façon d'avoir online un formulaire pour chercher dans une collection de PDF (les archives du linux journal :) eux-même online également (en interne). Je voudrais au moins trouver un soft qui index les PDF; je peux coder la recherche moi-même s'il le faut. L'idée, pour les curieux, est de permettre à tous mes collègues et à moi-même d'accéder à ces archives et de pouvoir y trouver facilement et rapidement ce qu'on y (…)

Journal Intégrer des vidéos dans des fichiers PDF

Posté par  (site web personnel) . Licence CC By‑SA.
65
11
nov.
2013
Ce journal a été promu en dépêche : Intégrer des vidéos dans des fichiers PDF.

B’jour Nal,

Lorsque je présente mes travaux lors d’un meeting ou d’un séminaire, j’ai parfois (souvent, en fait) besoin de présenter des vidéos. N’étant pas grand fan de LibreOffice Impress (encore moins, tu t’en doutes, de PowerPoint), plutôt adepte de Beamer, je me suis penché sur l’art et la manière d’inclure une vidéo dans un PDF. Afin que ça ne se perde pas, je te confie le résultat de cette inclinaison.

Le format PDF et les vidéos

Il existe (…)

Journal C'est un scandale !

Posté par  . Licence CC By‑SA.
52
10
oct.
2013

Je suis sur le point d'acquérir une nouvelle voiture, et je dois bien entendu remplir ce document, le cerfa 13754.

Je vais donc sur le lien que m'indique google pour télécharger le document au format pdf :

https://www.formulaires.modernisation.gouv.fr/gf/showFormulaireSignaletiqueConsulter.do?numCerfa=13754

Je l'ouvre avec mupdf, un lecteur pdf portable, léger, et rapide, écrit en C, sous licence GPL v3.

Et là, c'est le drame :

To view the full contents of this document, you need a later version of the PDF viewer. You can
(…)

Libre choix du lecteur PDF

Posté par  (site web personnel) . Édité par Benoît Sibaud, baud123 et Bruno Michel. Modéré par claudex. Licence CC By‑SA.
51
24
nov.
2012
Technologie

Le format PDF ou Portable Document Format a été créé par Adobe en 1993 et normalisé par l'ISO en 2008 sous la référence ISO 32000-1:2008.

Trois sous-ensembles du format PDF ont également été normalisés par l’ISO :

La gratuité du lecteur Acrobat Reader a grandement facilité la diffusion de ce format et Adobe a pu vendre ses logiciels de création de PDF en situation de monopole et conserver la stabilité du format jusqu'à la normalisation du format.

Ainsi, beaucoup de gens pensent qu'il n'y a qu'un lecteur, plus grave, certains indiquent comment le télécharger sur le site d'Adobe et pire encore d'autres l'imposent, ce qui est contraire à la notion de format ouvert qui promeut l'interopérabilité et non la simple compatibilité.

Ce qui est anormal, c'est qu'une administration fasse de la publicité (gratuite de surcroît) pour une entreprise et laisse croire qu'il n'existe aucune autre solution que Adobe pour lire (et créer) des documents au format PDF.

C'est pourquoi la FSFE a ouvert le site pdfreaders.org et lancé une pétition pour que les administrations mettent un pointeur sur le site PDFreaders qui propose des lecteurs pour tous les systèmes d'exploitation.

NdM : merci à Oumph pour avoir complété cette dépêche.

Sondage Quel lecteur PDF (Portable Document Format) utilisez vous et dans quelle circonstance ?

Posté par  .
Étiquettes :
13
27
juin
2012
  • MuPDF :
    47
    (1.4 %)
  • okular :
    730
    (21.8 %)
  • sumatraPDF :
    180
    (5.4 %)
  • Adobe Reader :
    465
    (13.9 %)
  • Evince :
    1363
    (40.8 %)
  • Xpdf :
    255
    (7.6 %)
  • LibreOffice/OOo Draw :
    10
    (0.3 %)
  • cat / more / less / etc. :
    26
    (0.8 %)
  • Je ne lis pas les fichiers au format PDF :
    32
    (1.0 %)
  • 42 :
    153
    (4.6 %)
  • zathura :
    81
    (2.4 %)

Total : 3342 votes

Journal PDF lisible qu'avec acrobat reader: bâton dans les roues?

Posté par  .
Étiquettes :
20
31
jan.
2012

En téléchargeant ce formulaire pour demander une carte grise:
https://www.formulaires.modernisation.gouv.fr/gf/showFormulaireSignaletiqueConsulter.do?numCerfa=13750

A l'ouverture pas de formulaire, pas de bug d'evince (3.2.1) mais un superbe message:

To view the full contents of this document, you need a later version of the PDF viewer. You can upgrade
to the latest version of Adobe Reader from www.adobe.com/products/acrobat/readstep2.html
For further support, go to www.adobe.com/support/products/acrreader.html

Ça ressemble très fortement à un blocage intentionnel d'Acrobat.
Très sympa pour un document du service public...

Rapport PDF de l’Hadopi, ou comment (ne pas) masquer une adresse IP

Posté par  (site web personnel) . Modéré par baud123. Licence CC By‑SA.
34
1
oct.
2011
Sécurité

L’Hadopi (la Haute Autorité pour la diffusion des œuvres et la protection des droits sur Internet) est en charge d’expliquer aux internautes français comment sécuriser leur accès à Internet (à défaut de celui de son prestataire TMG). Elle vient négligemment de diffuser dans son rapport annuel l’adresse IP d’un internaute visé par une de ses « recommandations ».

Une fois le souci révélé (sur Numerama, Twitter, etc.), l’Hadopi a promptement modifié son rapport pour masquer les zones problématiques avec des gros rectangles noirs. Et c’est complètement insuffisant, comme l’a noté PC INPact : l’information litigieuse n’est pas supprimée du document, juste (presque) dissimulée visuellement. Et il est facile d’y avoir accès.

Visiblement, concernant le format PDF (Portable Document Format), créé par Adobe, normalisé ISO 32000-1:2008 (deux ou trois cents pages de spécifications), deux mythes perdurent :

  • un PDF ne serait pas modifiable : c’est faux, il existe plusieurs logiciels libres pour faire cela, dont Open/LibreOffice ;
  • on pourrait censurer un PDF avec des gros carrés noirs ou en écrivant en blanc sur blanc : quatre exemples dans la seconde partie vous démontreront que non.

Journal Extraire les vidéos d'un pdf

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
31
16
mai
2011

J'ai acheté un pdf qui contenait des vidéos. J'ai déja croisé des pdf avec vidéos mais il s'agissait jusqu'a présent de vidéos qui étaient dans des fichiers externes au fichier pdf.

Aucun lecteur pdf que j'ai testé sous linux n'arrivait à lire ces vidéos (pas même acroread). Un rapide essais sous win me prouve que les vidéos existent et sont lisibles.

J'ai donc décidé de les extraire du pdf sauf qu'aucun utilitaire ne permet de le faire.

Comme je n'ai (…)

WWF : interdiction d'imprimer des documents

Posté par  (site web personnel) . Modéré par patrick_g.
Étiquettes :
13
10
déc.
2010
Bureautique
Le 30 novembre, le World Wide Fund for Nature a dévoilé un « nouveau » format de fichiers, le WWF, semblable au PDF mais interdisant l'impression. Ce format aurait été développé pour faire cesser l'impression inutile de documents, qui serait la cause d'une importante surexploitation forestière.

Ces caractéristiques correspondent à un verrou numérique DRM et peuvent sembler inquiétantes lorsqu'on se préoccupe du contrôle et de la pérennité des documents. Heureusement, au-delà de l'annonce marketing du WWF, il ne s'agit pas d'un nouveau format, mais seulement d'un cas particulier du format PDF existant, avec l'option d'interdiction d'impression activée. Ce n'est donc ni nouveau, ni incontournable.

NdM : le format PDF dispose d'un système de restrictions permettant d'interdire l'impression en général ou de limiter à une impression basse qualité (parmi d'autres restrictions possibles, comme l'interdiction de copie, de modification, d'addition/suppression d'annotations, etc.). Beaucoup de bruit et de marketing pour pas grand chose d'utile au final, avec cette fausse solution de menotte technique pour raison écologique.