Sortie de Tabula 1.0.1 - Extraction de données tabulaires dans des pdfs

Posté par (page perso) . Édité par Nils Ratusznik, Xavier Claude et palm123. Modéré par Ontologia. Licence CC by-sa.
Tags :
42
15
sept.
2015
Base de données

Issu de l'univers du data-journalisme, Tabula est un logiciel permettant d'extraire facilement des données tabulaires issues de fichiers PDF. Il a été développé par des journalistes pour des journalistes. Mais son usage va au-delà de cette profession : étudiants, chercheurs, etc…

Si vous avez déjà essayé de copier-coller des tableaux contenus dans des documents PDF pour les retravailler dans Libre Office par exemple, au format CSV, vous savez à quel point c'est compliqué et chronophage.

Gratuit, Libre (Licence MIT), Tabula fonctionne sous Mac, Windows et Linux. Codé en Ruby, fonctionnant avec la JVM, Tabula est un web-service puissant, disposant de fonctionnalités de détection de tableaux de deux types :

  • soit par détection automatique des espaces entre les colonnes (mode stream) ;
  • soit par détection automatique des caractères de colonnes (mode lattice).

Forum Linux.debian/ubuntu Imprimer par défaut en noir et blanc ! 2 (suite)

Posté par (page perso) . Licence CC by-sa.
0
13
juil.
2015

Suite de mon message précédent mais pour lequel les commentaires semblent devoir être fermés, d'où cette nouvelle discussion…

Ici il s'agit de GNU/Linux Mint 17.2 MATE et Atril mais le problème est probablement identique avec Evince de Gnome (à vérifier, merci…)

Atril a la mauvaise habitude de sauvegarder les options d'impression… Ainsi, si par défaut l'imprimante est configurée pour imprimer en noir & blanc, et que par malheur, exceptionnellement, l'utilisateur imprime en couleur, alors il devra y penser, même plusieurs (...)

Journal Utilisation des formats (PDF, ODF, OOXml et fichiers binaires) au sein de l'administration

Posté par . Licence CC by-sa.
11
14
mai
2015

Bonjour,

Vous souvenez du RGI 1.0 ? Notamment le chapitre 3.2 qui parle des formats composites (page 60) préconise l'usage du PDF, de l'ODF et de l'OOXML.

Je me suis demandé si 6 ans après les services publics mettaient en pratiques ces recommandations.

J'ai donc fait une recherche sur bing et sur google et leur demandaient le nombre de fichiers présents sur différents sites web de la puissance public avec une requête de type:
filetype:PDF site:linuxfr.org

Voilà le résultat: http://ovh.to/UsFyv5C (...)

Contribuez au Référentiel Général d'Interopérabilité v2.0 français

Posté par . Édité par ZeroHeure, Benoît Sibaud, Nÿco, palm123 et Nils Ratusznik. Modéré par patrick_g. Licence CC by-sa.
26
29
avr.
2015
Technologie

L'État français modernise son Référentiel Général d'Interopérabilité (RGI). Comme il n'a pas la science infuse, il demande aux spécialistes du terrain de donner leur avis sur le brouillon de ce qui deviendra la version 2.0 : appel public à commentaires RGI.

Attention ! La période de consultation se finit le 15 mai.

Si vous êtes expert(e) dans un domaine ou bien simple utilisateur et que vous souhaitez promouvoir l'interopérabilité (dans la mesure du possible avec un format ouvert et documenté) et ne pas vous retrouver sur Linux/*BSD à devoir lire des formats propriétaires et fermés venant de l'administration mais inutilisables, alors votre avis est le bienvenu.

Notez que l'AFUL et l'April ont ouvert un framapad pour coordonner tout cela.

À noter aussi une consultation de l'Autorité de la Concurrence : voir en fin de seconde partie de la dépêche.

Des formats ouverts et du FOSS pour la préservation du patrimoine européen

Posté par (page perso) . Édité par palm123 et Benoît Sibaud. Modéré par Yvan Munoz. Licence CC by-sa.
23
27
avr.
2015
Technologie

Bonne nouvelle pour les amateurs de formats ouverts (dans le sens européen du terme) et de logiciel libre / open source, l’Union Européenne, par le biais du projet PREFORMA, lui-même possible par le biais du programme d’investissement de l’Union Européenne nommé FP7 / Septième programme cadre, a décidé d’investir dans la promotion des formats ouverts PDF, TIFF, Matroska et FFv1, dans un objectif de préservation du patrimoine européen. Pour cela le projet PREFORMA a été doté d’un budget total de 2,8 millions d’euros, comprenant un travail de standardisation des formats et le prototypage d’outils de test de conformité.

Logo PREFORMA Logo Union Européenne Logo Commission Européenne / FP7

Journal L'appel du 7 avril 2015 : Référentiel Général d'Interopérabilité

Posté par . Licence CC by-sa.
38
23
avr.
2015

Bonjour,

À TOUS LES FRANÇAIS

L'État Français modernise son Référentiel Général d'Interopérabilité alias RGI.

Comme il n'a pas la science infuse, il demande aux spécialistes du terrain de donner leur avis sur le brouillon de ce qui deviendra la version 2.0:
Appel public a commentaires RGI

/!\ Attention /!\ La période de consultation se fini le 15 mai[1], c'est-à-dire dans 3 semaines.

Si tu es expert dans un domaine ou bien simple utilisateur et que tu souhaites promouvoir l'interopérabilité (...)

Forum général.cherche-logiciel Annotation pdf

Posté par (page perso) . Licence CC by-sa.
0
11
mar.
2015

Bonjour,

Je cherche un logiciel sympa d'annotation pdf. J’ai vu que xournal permet de faire pas mal de chose, mais de façon pas très incorporé. Ce qui me plairait ce serait un système tel que libre office writer propose. En essayant d'ouvrir un pdf avec libre office, c'est draw qui s'est ouvert…

Forum Linux.général Impression en N&B par défaut !?.

Posté par (page perso) . Licence CC by-sa.
0
10
mar.
2015

Là où je travail, j'ai obtenu que nous remplacions notre multifonction N&B par un capable de la couleur.

Il n'est pas possible d'utiliser le système de code (utilisateurs trop …, je sais pas ; et puis, cela se passerait-il bien avec nos logiciels libres et systèmes GNU ?).

Bref, l'idée est d'obtenir par défaut des impressions N&B !

Mais certains logiciels, dès lors qu’exceptionnellement nous imprimons en couleur, soit enregistrent ce paramètre dans le document (LibreOffice) soit pire encore l'enregistrent de manière générale (...)

Journal Ebooks technique gratuits

Posté par (page perso) . Licence CC by-sa.
15
16
fév.
2015

La maison d'édition packt re-propose leur offre commercial de plusieurs livres gratuits pendant un temps limité.

On en avait déjà parlé ici à l'occasion de leur "calendrier de l'avent".

Chaque livre est disponible gratuitement (sans drm) pendant 24h.
Ça commence aujourd'hui et le premier livre est "Drupal 7 Module Development".

Notez bien que c'est l'offre qui est limité dans le temps. Vous pourrez lire le livre quand vous voudrez.

Avis aux intéressés…

Forum Programmation.php répondre un fichier existant ? file_get_contents + echo ?

Posté par (page perso) . Licence CC by-sa.
0
12
fév.
2015

Voici un petit bout de code par lequel je "répond" un fichier au format PNG réalisé à partir d'un fichier PDF. Étant donné le temps que cela peut prendre, pour un grand nombre de fichiers, j'enregistre le PNG généré et le "répond" directement s'il existe déjà.

Ce script php est impliqué dans une page "Ajax", genre

C'est encore perfectible, notamment en tenant compte de la date de modification du fichier PDF (mise à jour du PNG), etc.

Mais ma question (...)

Journal Calendrier de l'avent : vite des ebooks (techniques) gratuits !

Posté par (page perso) . Licence CC by-sa.
26
17
déc.
2014

Un journal quasi-bookmark. j'ai découvert que Packt Publishing propose un calendrier de l'avent à sa manière : un ebook gratuit par jour, disponible en téléchargement au format epub, mobi et pdf. Il suffit de créer un compte pour y accéder.

Le livre du jour, c'est Python 3 Web Development - Beginner's Guide

Note : le sujet est traité en s'appuyant sur CherryPy, SQLite, jQuery et jQueryUI. Je l'ai téléchargé, parcouru, mais pas encore lu, je n'ai donc d'avis ni sur (...)

Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un (...)

Journal PDF d'un site de l'administration illisible

37
5
oct.
2014

Petit coup de gueule sur un sujet déjà abordé ici ou .
En résumé, j'ai besoin de remplir le formulaire 13750*03. Le problème, c'est que si j'utilise le lecteur PDF intégré à Firefox ou Okular, je tombe systématiquement sur ce superbe message

To view the full contents of this document, you need a later version of the PDF viewer. You can upgrade
to the latest version of Adobe Reader from www.adobe.com/products/acrobat/readstep2.html
For further support, go to www.adobe.com/support/products/acrreader.html

Okular (...)

Forum Linux.débutant Récupérer au format html un tableau pdf

Posté par . Licence CC by-sa.
1
19
mai
2014

Je débute et commence à utiliser les exec sous php.
Actuellement je fais : exec("pdftohtml -c -i -noframes $pdfalire $html");

Je récupère tout le pdf en html. Je voudrais juste le tableau en bas de page. Quelqu'un ou quelqu'une peut-elle ou peut-il m'aider.

le $pdfalire est accessible sur www.officeservice.fr/PDF/30253.PDF et en le visualisant vous verrez un tableau qui fait les correspondances entre les articles. C'est ce tableau là que je veux récupérer…. et en plus avec les liens… Est-ce possible ?

(...)

Journal Reportlab 3.1.8

Posté par . Licence CC by-sa.
Tags :
11
22
avr.
2014

Reportlab est une librairie Python pour générer des PDFs

Cette version confirme le support de Python 3.3 et 3.4 en même temps que 2.7 (qui sera supporté pendant encore des années par l'équipe).
Le paquet peut maintenant être installé avec PIP

Pour moi c'était LE paquet qui m'empêchait d'envisager python 3 !