DoBuKe : une clef USB amorçable orientée données

Posté par  . Édité par Davy Defaud, Xavier Teyssier, BAud, palm123, Benoît Sibaud et bubar🦥. Modéré par Xavier Teyssier. Licence CC By‑SA.
27
23
jan.
2018
Distribution

DoBuKe est une clef USB amorçable, basée sur Xubuntu, orientée données. Elle contient une grande quantité d’outils utiles au la récupération (scraping), au nettoyage et à l’enrichissement de données, à la datavisualisation et à la recherche en sources ouvertes (OSINT).

Ce projet est parti d’un constat de formateur : dans la plupart des lieux où j’enseigne, les machines sont gérées par un administrateur qui voit souvent d’un mauvais œil l’installation de logiciels non prévus à son palier technique.
Parfois, il n’y a aucune machine dédiée à la formation, et les stagiaires viennent alors avec leur machine personnelle. Dans ce cas, le formateur doit gérer une situation complexe, avec un parc hétérogène : système d’exploitation, mais aussi version logicielle. Et travailler avec des machines virtuelles (VM) n’est pas toujours possible.
Enfin, il peut arriver de vouloir traiter un jeu de données en mobilité ou en vacances, depuis une machine qui ne nous appartient pas (le PC de maman ou un cybercafé…) et réinstaller rapidement son environnement de travail peut s’avérer très compliqué et contre‐productif.
C’est là qu’intervient DoBuKe.

DoBuKe : distribution GNU/Linux amorçable sur clef USB orientée données

Sortie de Tabula 1.0.1 - Extraction de données tabulaires dans des pdfs

Posté par  . Édité par Nils Ratusznik, claudex et palm123. Modéré par Ontologia. Licence CC By‑SA.
Étiquettes :
44
15
sept.
2015
Base de données

Issu de l'univers du data-journalisme, Tabula est un logiciel permettant d'extraire facilement des données tabulaires issues de fichiers PDF. Il a été développé par des journalistes pour des journalistes. Mais son usage va au-delà de cette profession : étudiants, chercheurs, etc…

Si vous avez déjà essayé de copier-coller des tableaux contenus dans des documents PDF pour les retravailler dans Libre Office par exemple, au format CSV, vous savez à quel point c'est compliqué et chronophage.

Gratuit, Libre (Licence MIT), Tabula fonctionne sous Mac, Windows et Linux. Codé en Ruby, fonctionnant avec la JVM, Tabula est un web-service puissant, disposant de fonctionnalités de détection de tableaux de deux types :

  • soit par détection automatique des espaces entre les colonnes (mode stream) ;
  • soit par détection automatique des caractères de colonnes (mode lattice).