Sortie de Tabula 1.0.1 - Extraction de données tabulaires dans des pdfs

Posté par (page perso) . Édité par Nils Ratusznik, Xavier Claude et palm123. Modéré par Ontologia. Licence CC by-sa
Tags :
42
15
sept.
2015
Base de données

Issu de l'univers du data-journalisme, Tabula est un logiciel permettant d'extraire facilement des données tabulaires issues de fichiers PDF. Il a été développé par des journalistes pour des journalistes. Mais son usage va au-delà de cette profession : étudiants, chercheurs, etc…

Si vous avez déjà essayé de copier-coller des tableaux contenus dans des documents PDF pour les retravailler dans Libre Office par exemple, au format CSV, vous savez à quel point c'est compliqué et chronophage.

Gratuit, Libre (Licence MIT), Tabula fonctionne sous Mac, Windows et Linux. Codé en Ruby, fonctionnant avec la JVM, Tabula est un web-service puissant, disposant de fonctionnalités de détection de tableaux de deux types :

  • soit par détection automatique des espaces entre les colonnes (mode stream) ;
  • soit par détection automatique des caractères de colonnes (mode lattice).

Forum Programmation.java fichiers csv

Posté par .
2
21
avr.
2012

Bonjour à toutes et tous,

Je m'appelle Manuel. Je suis amateur de programmation.
Mon dernier projet est un logiciel de création graphique d'images et vidéos.
Un petit projet que j'ai aussi est un lecteur de fichiers texte sous interface graphique.
Pas vraiment un éditeur plutôt quelque chose comme une base de données.
Fort d'une première expérience concluante avec des fichiers "CSV", je souhaite améliorer mon logiciel.
Pour ca, j'aurais besoin de fichiers csv librement utilisables et redistribuables.
J'ai trouvé le (...)