Sortie de Tabula 1.0.1 - Extraction de données tabulaires dans des pdfs

Posté par  . Édité par Nils Ratusznik, claudex et palm123. Modéré par Ontologia. Licence CC By‑SA.
Étiquettes :
44
15
sept.
2015
Base de données

Issu de l'univers du data-journalisme, Tabula est un logiciel permettant d'extraire facilement des données tabulaires issues de fichiers PDF. Il a été développé par des journalistes pour des journalistes. Mais son usage va au-delà de cette profession : étudiants, chercheurs, etc…

Si vous avez déjà essayé de copier-coller des tableaux contenus dans des documents PDF pour les retravailler dans Libre Office par exemple, au format CSV, vous savez à quel point c'est compliqué et chronophage.

Gratuit, Libre (Licence MIT), Tabula fonctionne sous Mac, Windows et Linux. Codé en Ruby, fonctionnant avec la JVM, Tabula est un web-service puissant, disposant de fonctionnalités de détection de tableaux de deux types :

  • soit par détection automatique des espaces entre les colonnes (mode stream) ;
  • soit par détection automatique des caractères de colonnes (mode lattice).

L'ouverture des données scientifiques : quid novi ?

Posté par  (site web personnel) . Édité par Benoît Sibaud, palm123 et patrick_g. Modéré par Pierre Jarillon. Licence CC By‑SA.
32
10
déc.
2013
Open Data

J'avais été conviée à la journée d'étude interdisciplinaire de l'ISCC intitulée « Ouverture des données massives scientifiques. Quels risques, quels bénéfices ? », le 6 décembre 2013. Un grand « merci » aux organisateurs et modérateurs de ces échanges, ce fut une journée très réussie et enrichissante. Je suis intervenue lors de la 2e table ronde qui traitait des avantages et dangers d'une telle ouverture ainsi que des nécessités en termes de politiques publiques pour que cette ouverture se fasse. Voici mes notes de préparation dont tous les points ont été abordés.

Lire la suite pour entendre parler des données scientifiques brutes, de non-reproductibilité, de timides avancées, de droit sui generis des bases de données et de licences Creative Commons v4.

GeoBases version 5, services et visualisation pour données (géographiques)

Posté par  . Édité par Benoît Sibaud. Modéré par claudex. Licence CC By‑SA.
32
15
mar.
2013
Technologie

GeoBases version 5 vient d’être publié! Il y a six semaines ce projet passait open-source. Depuis, grâce à de nombreux retours, nous avons pu améliorer, documenter, corriger de nombreuses fonctionnalités.

Pour ceux qui ne connaissent pas ce projet, son but est de fournir des services et des possibilités de visualisation pour des données géographiques (ou non). Le projet contient déjà des sources de données (issues, par exemple, de GeoNames, optd ou encore de l'OpenData). Il est très simple d’ajouter ses propres sources de données pour pouvoir jouer avec.

Parmi les services disponibles :

  • exécuter de simples recherches (trouver cette donnée, trouver toutes les entrées qui ont cette propriété)
  • exécuter des recherches approximatives basées sur une notion de distance entre chaîne de caractères (trouver les données dont le nom ressemble à cela)
  • exécuter des recherches phonétiques (trouver des données qui se prononce comme cela)
  • exécuter des recherches géographiques (trouver les données proches de ce point)
  • afficher les résultats sur une carte, ou bien les exporter en CSV, ou encore utiliser une API Python pour les manipuler directement

Le projet est principalement un package Python, il y a également une interface en ligne de commande assez complète (qui peut s'utiliser un peu comme grep).

Journal [HS] Microsoft ♥ Linux - Episode VI "AYBABTU"

31
30
mai
2020

Si vous avez raté les épisodes précédents, c'est par ici :
Episode 1
Episode 5

Episode 6 - "AYBABTU"

Mai 2020 : Alors que l'on était tranquillement confinés en train de compiler sa kernelle que Bilou Getsou, l'ancien grand chef des romuliens (ou était ce un Sith ?), le célèbre "philantrope humaniste" voulait nous vendre son nouvel antivirus, notre "grand vizir du digital" nous a confirmé ce jour qu'il avait été contraint de confier le grand chantier (…)

Journal Pôle-Emploi sous-traite à IPSOS qui sous-traite à

Posté par  . Licence CC By‑SA.
Étiquettes :
30
14
jan.
2018

J'ai reçu un message m'invitant à remplir un questionnaire de satisfaction de Pôle-Emploi. Cette campagne nationale est sous-traitée à IPSOS, qui sous-traite le publipostage et l'analyse des données à Globalpark AG en Allemagne, racheté par QuestBack en Norvège.
Je trouve que les fichiers de Pôle Emploi se promènent beaucoup en Europe et c'est dommage de sous-traiter ce travail hors de France tout en radiant les personnes qui ne répondent pas aux offres d'emploi envoyées par pôle Emploi.
Pôle Emploi m'a (…)

Simplification des démarches administratives

Posté par  . Édité par Nÿco. Modéré par rootix. Licence CC By‑SA.
26
17
juil.
2014
Open Data

Jusqu'au 15 septembre 2014, on peut proposer des idées pour simplifier les démarches administratives. C'est l'occasion de proposer des idées qui peuvent faire avancer le Libre.

On peut par exemple suggérer de ne plus proposer le téléchargement du lecteur PDF d'Adobe Reader sur les sites Web des administrations mais des lecteurs PDF libres. Si vous avez d'autres idées pour faire progresser le libre, les formats ouverts, l'interopérabilité, l'accessibilité des sites Web, l'Open Data… il suffit de faire une proposition en tant que particulier ou entreprise. Chaque proposition est ensuite acceptée ou rejetée. Si elle est rejetée, vous pouvez quand même faire un commentaire (non soumis à modération).

Si vous avez posté une proposition ou si vous avez des idées, merci de les noter sur le Pad (éventuellement avec le lien vers votre proposition lorsqu'elle a été validée). La FSFE pourra ainsi faire un suivi des propositions.

Journal #data et libre : une belle histoire ?

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
20
12
juil.
2016

Mon cher journal,

DLFP a 18 ans, et ca fait 12 ans que je lis ce qu'il propose sans trop participer. Pourquoi ne pas apporter mon gravier à l'édifice ? A toi de juger de la pertinence du propos, qui oscillera peut-être entre le billet de blog et les réflexions de comptoir.

J'aimerais partager avec toi 2-3 réflexions que je me fais depuis quelque temps sur le rôle du libre dans le grand raout actuel que les communicants appellent "disruption digitale" (…)

Simplification des démarches administratives : appel à voter

Posté par  . Édité par Benoît Sibaud, Nils Ratusznik, palm123 et patrick_g. Modéré par patrick_g. Licence CC By‑SA.
18
28
juil.
2014
Communauté

Un précédent article a signalé la possibilité jusqu'au 15 septembre 2014 de proposer des idées pour simplifier les démarches administratives en France. Le nombre de propositions grandit et il est important maintenant de voter pour donner de l'importance aux sujets qui concernent la communauté du Libre.

Journal L'oignon fait la force

Posté par  . Licence CC By‑SA.
Étiquettes :
16
22
mar.
2011

60 millions de consommateurs et France liberté lance une enquête collaborative pour tracer une carte des prix de l'eau, source de vie et d'équilibre.

Grâce à ce site, les citoyens et les élus pourront comparer ce qu’ils payent avec la moyenne française et celle de leur département.

Je vous encourage à prendre votre dernière facture d'eau et d'aller renseigner ce site citoyen, et ensuite envoyer un courrier électronique pour que les données brutes soient accessibles sous une licence libre.

(…)

Journal Bibliothèques Python utiles à l'analyse des données

Posté par  (Mastodon) . Licence CC By‑SA.
Étiquettes :
16
27
mar.
2019

Si vous réalisez des analyses de données à l’aide de Python sans doute connaissez-vous bien et utilisez-vous les bibliothèques pandas, scikit-learn, TensorFlow, Keras, matplotlib et quelques autres. Dans cet article-là, des bibliothèques un peu moins connues sont présentées avec comment les installer si nécessaire et avec des exemples.

Je vous aurais bien traduit l’article, mais je ne suis pas certain qu’il soit en licence libre. Je reprends dans le désordre la liste suggérée par l’article, je vous dis quelques (…)

Journal Vélib' et open data

Posté par  (site web personnel) . Licence CC By‑SA.
10
20
fév.
2020

Ce court journal pour vous présenter un petit dataset qui pourrait intéresser certain.e.s d'entre vous (les plus parisien.ne.s):

J'ai récolté l'historique des disponibilités de vélos sur l'ensemble du réseau Vélib' depuis décembre 2019.

Le résultat est sur le dépôt github suivant: lovasoa/historique-velib-opendata.

Pourquoi ?

Paris met à disposition sous licence ODBL la disponibilité des vélibs en temps réel. Mais elle ne fournit aucun moyen d'accéder à l'historique de ces données. C'est dommage, car avoir des données historiques permettrait par (…)

Journal [Open Data] Choix d'une licence libre pour les administrations françaises

Posté par  . Licence CC By‑SA.
10
2
déc.
2013

Cher journal,

La gazette des communes est un média papier et web, initialement dédié aux communes comme vous avez dû le deviner, mais qui est devenu une référence pour l'ensemble des collectivités territoriales en France.

Dans le cadre du mouvement des données ouvertes en France, la gazette constitue un dossier très documenté : Réutilisation des données publiques : des promesses vertigineuses

Un nouvel article vient d'enrichir ce dossier : Le fouillis des licences open data s’éclaircit.

Cet (…)

Demandez votre badge gratuit pour OW2con'16, les 21-22 septembre 2016, Espace Mozilla à Paris

Posté par  . Édité par bubar🦥, Nÿco, Benoît Sibaud et palm123. Modéré par ZeroHeure. Licence CC By‑SA.
7
4
sept.
2016
Communauté

Ne ratez pas OW2con'16, le rendez-vous annuel de la communauté open source OW2 !

OW2 est une communauté open source indépendante dédiée au développement de logiciels d'infrastructure de qualité industrielle. Elle regroupe des entreprises et des organismes de recherche de premier plan tels que l'Inria, Orange, Prologue, Institut Mines Telecom, Airbus Défense ou Peking University. Organisée pour la huitième année consécutive, la conférence annuelle OW2 est une rencontre d'experts, d'architectes, de développeurs et de chefs de projets du monde entier.

OW2con'16 est un rendez-vous de la communauté OW2 et des professionnels du logiciel open source, du cloud computing, du big data et de l'internet du futur. Cette année nous ajoutons l'accessibilité et la gestion de la sécurité à notre porte-feuille de sujets chauds.

logo ow2