tag:linuxfr.org,2005:/users/toctoc1/newsLinuxFr.org : les dépêches de toctoc12018-01-29T11:48:22+01:00/favicon.pngtag:linuxfr.org,2005:News/384052018-01-23T09:13:27+01:002022-03-07T20:59:08+01:00DoBuKe : une clef USB amorçable orientée donnéesLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<div><p><a href="http://www.dobuke.org">DoBuKe</a> est une clef USB amorçable, basée sur Xubuntu, orientée données. Elle contient une grande quantité d’outils utiles au la récupération (<em>scraping</em>), au nettoyage et à l’enrichissement de données, à la <em>datavisualisation</em> et à la recherche en sources ouvertes (OSINT).</p>
<p>Ce projet est parti d’un constat de formateur : dans la plupart des lieux où j’enseigne, les machines sont gérées par un administrateur qui voit souvent d’un mauvais œil l’installation de logiciels non prévus à son palier technique.<br>
Parfois, il n’y a aucune machine dédiée à la formation, et les stagiaires viennent alors avec leur machine personnelle. Dans ce cas, le formateur doit gérer une situation complexe, avec un parc hétérogène : système d’exploitation, mais aussi version logicielle. Et travailler avec des machines virtuelles (VM) n’est pas toujours possible.<br>
Enfin, il peut arriver de vouloir traiter un jeu de données en mobilité ou en vacances, depuis une machine qui ne nous appartient pas (le PC de maman ou un cybercafé…) et réinstaller rapidement son environnement de travail peut s’avérer très compliqué et contre‐productif.<br>
C’est là qu’intervient <strong>DoBuKe</strong>.</p>
<p><img src="https://linuxfr.org/images/historique/images_perdues/dobuke-une-clef-usb-amorcable-orientee-donnees-5uHwVgwmbSfI.png" alt="DoBuKe : distribution GNU/Linux amorçable sur clef USB orientée données"></p>
</div><ul><li>lien nᵒ 1 : <a title="http://www.dobuke.org" hreflang="fr" href="https://linuxfr.org/redirect/101291">Le site de DoBuKe</a></li><li>lien nᵒ 2 : <a title="http://pinguyos.com/2015/09/pinguy-builder-an-app-to-backupremix-buntu/" hreflang="en" href="https://linuxfr.org/redirect/101292">Pinguy Builder, un outil pour créer des images ISO depuis une machine physique</a></li><li>lien nᵒ 3 : <a title="https://github.com/hpiedcoq/dobuke" hreflang="fr" href="https://linuxfr.org/redirect/101293">Le script de DoBuKe sur GitHub</a></li></ul><div><h2 id="toc-comment-est-créée-dobuke">Comment est créée DoBuKe</h2>
<p>L’idée de base de DoBuKe était de créer une « machine idéale » <em>ex‐abrupto</em> dans une machine virtuelle, puis de la transformer en une clef USB amorçable. Pour cela, on utilise on utilise une distribution Xubuntu à jour (17.10, à la date de rédaction de cette dépêche), sur laquelle on applique un script de téléchargement (script Bash) et d’installation des paquets et des logiciels, puis on exporte cette machine au format ISO, à l’aide de <a href="http://pinguyos.com/2015/09/pinguy-builder-an-app-to-backupremix-buntu/">Pinguy Builder</a>.<br>
Pourquoi ce choix ? Tout simplement parce que plusieurs outils présents dans DoBuKe ne sont pas des paquets <code>.deb</code>, mais parfois des exécutables Java ou encore des outils utilisant Node.js et nécessitant une compilation en amont.<br>
Pinguy Builder permet, sous certaines conditions, de transformer votre machine de rêve en ISO prête à amorcer.</p>
<p>La clef est générée à l’aide d’<a href="https://unetbootin.github.io/">UNetbootin</a> (sous macOS et GNU/Linux) ou <a href="http://www.linuxliveusb.com/fr/home">LiLi</a> (sous Windows) avec une partition persistante, pour conserver ses données personnelles.<br>
Il est également possible d’utiliser DoBuKe comme base de machine virtuelle dans <a href="https://fr.wikipedia.org/wiki/VirtualBox" title="Définition Wikipédia">VirtualBox</a> ou <a href="https://fr.wikipedia.org/wiki/QEMU" title="Définition Wikipédia">QEMU</a>. Enfin, DoBuKe est installable sur une machine en dur, une option du démarrage permet cette utilisation.</p>
<h2 id="toc-Ça-ressemble-à-quoi-dobuke">Ça ressemble à quoi, DoBuKe ?</h2>
<p><img src="https://linuxfr.org/images/historique/images_perdues/dobuke-une-clef-usb-amorcable-orientee-donnees-29ffeef6-cf3d-4215-95f1-c679827d150a.jpeg" alt="L’interface de DoBuKe"><br>
Le public pour lequel est destinée DoBuKe n’est pas forcément un public de <em>geeks</em> ou de férus d’informatique. Il semblait important de garder une esthétique proche de celle d’un Mac ou d’un PC, pour ne pas perdre l’utilisateur en route.<br>
Un dock, des icônes facilement identifiables, un fond d’écran connu… Tout est fait pour rendre l’outil rapide à prendre en main, sans sacrifier à l’esthétique.<br>
L’utilisation de <a href="https://launchpad.net/plank">Plank</a> et <a href="https://github.com/chjj/compton">Compton</a> vient compléter et enjoliver <a href="https://xfce.org/">Xfce 4</a>, retenu pour son empreinte légère en mémoire vive.<br>
DoBuKe tourne facilement sur un Core 2 Duo, avec 4 Gio de mémoire vive. Bien sûr, si vous disposez d’une machine plus puissante, c’est encore mieux. Elle est amorçable sur un PC mais également sur un Mac.</p>
<h2 id="toc-quy-atil-sous-le-capot-de-dobuke">Qu’y a‐t‐il sous le capot de DoBuKe ?</h2>
<p>Les outils de DoBuke cherchent à couvrir l’essentiel d’un data‐workflow : acquisition (<em>scraping</em>), nettoyage et enrichissement (<em>datacleansing</em>), visualisation (cartographie, schémas), mais aussi post‐production (édition de <a href="https://fr.wikipedia.org/wiki/SVG" title="Définition Wikipédia">SVG</a>).</p>
<h3 id="toc-acquisition">Acquisition</h3>
<p>R, Python, et Selenium (geckodriver) pour « scraper » les données. R est livré avec <a href="https://www.rstudio.com/">Rstudio</a>, son <a href="https://fr.wikipedia.org/wiki/Environnement_de_d%C3%A9veloppement" title="environnement de développement intégré">EDI</a>, mais également ses paquets les plus courants : Tidyverse, lubridate, Rvest, notamment. Pour Python, outre certains paquets préinstallés, on retrouve également <a href="https://conda.io/miniconda.html">mini-conda</a>, un <em>framework</em> permettant d’y installer facilement plein d’autres outils. Enfin, pour extraire des données tabulaires depuis des PDF, <a href="http://tabula.technology/">Tabula</a> est préinstallé.</p>
<h3 id="toc-nettoyage-et-enrichissement-des-données">Nettoyage et enrichissement des données</h3>
<p>À côté de Rstudio, qui se voit doté de ses principaux paquets pour cette tâche et, bien évidemment, Python, on trouve <a href="http://openrefine.org/">OpenRefine</a> et des greffons très utiles : Vib-bits (tableau croisé dynamique) et jointure de tables et refinestats.<br>
<a href="https://csvkit.readthedocs.io/en/1.0.2/">Csvkit</a> et <a href="https://github.com/clarkgrubb/data-tools">data-tools</a> vous permettront en ligne de commande de manipuler et convertir des fichiers <a href="https://fr.wikipedia.org/wiki/Comma-separated_values" title="Comma‐separated values">CSV</a>.</p>
<h3 id="toc-visualisation-de-données">Visualisation de données</h3>
<p><a href="https://www.qgis.org/fr/site/">Qgis</a> et <a href="https://gephi.org/">Gephi</a> (et ses greffons) sont évidemment de la partie. Mais DoBuKe intègre également <a href="http://www.sciencespo.fr/cartographie/khartis/">Khartis</a> 2.0, la très belle application de création de cartes de l’atelier de cartographie de Sciences Po. Enfin, <a href="https://github.com/densitydesign/raw/">Raw</a>, en local, permet de prototyper très rapidement une <em>dataviz</em> sans transmettre de données confidentielles en ligne.</p>
<h3 id="toc-bases-de-données">Bases de données</h3>
<p>Difficile de faire l’impasse sur les bases de données. DoBuKe ouvre un espace à Apache Drill, qui permet de facilement effectuer des requêtes en SQL sur du NoSQL (du CSV par exemple…), mais également à MySQL Workbench.</p>
<h3 id="toc-chiffrement-et-transmission-de-données">Chiffrement et transmission de données</h3>
<p>Enfin, et parce qu’on a finalement toujours besoin de transmettre et d’échanger des données, <a href="https://veracrypt.codeplex.com/">Veracrypt</a> s’occupera à merveille de l’espace de stockage persistant de la clef USB, tandis que <a href="https://github.com/warner/magic-wormhole">Magic-wormhole</a> vous permettra de transférer des fichiers aisément d’une machine à une autre.</p>
<p>Cette liste d’outils n’est pas exhaustive ! On y trouve également LibreOffice et VLC, par exemple. Il reste un petit gigaoctet d’espace disque sur DoBuKe et cette liste va encore s’enrichir, au gré des besoins, des trouvailles et des suggestions.</p>
<h2 id="toc-vous-voulez-aider-dobuke-cest-possible">Vous voulez aider DoBuKe ? C’est possible !</h2>
<p>DoBuKe est empaquetée sur mon temps libre et le moins que l’on puisse dire, c’est que je n’y connais pas grand’chose, en création d’outils ! Le script Bash qui installe les paquets est totalement séquentiel et n’est absolument pas optimisé : on pourrait sans doute paralléliser par exemple l’installation des fichiers <code>.deb</code> et la compilation des fichiers <code>.npm</code>. Le paramétrage de Xfce en ligne de commande peut lui aussi être largement amélioré…</p>
<p>Le site Internet est très moche, pas bilingue, alors même que DoBuke pourrait largement être utilisée à l’étranger, et intéressera sans doute des « datajournalistes » ailleurs qu’en francophonie.</p>
</div><div><a href="https://linuxfr.org/news/dobuke-une-clef-usb-amorcable-orientee-donnees.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/113573/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/news/dobuke-une-clef-usb-amorcable-orientee-donnees#comments">ouvrir dans le navigateur</a>
</p>
@hpiedcoqDavy DefaudXavier TeyssierBAudpalm123Benoît Sibaudbubar🦥https://linuxfr.org/nodes/113573/comments.atomtag:linuxfr.org,2005:News/367002015-09-15T23:43:19+02:002015-09-15T23:43:19+02:00Sortie de Tabula 1.0.1 - Extraction de données tabulaires dans des pdfsLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<div><p>Issu de l'univers du data-journalisme, Tabula est un logiciel permettant d'extraire facilement des données tabulaires issues de fichiers PDF. Il a été développé par des journalistes pour des journalistes. Mais son usage va au-delà de cette profession : étudiants, chercheurs, etc…</p>
<p>Si vous avez déjà essayé de copier-coller des tableaux contenus dans des documents PDF pour les retravailler dans Libre Office par exemple, au format CSV, vous savez à quel point c'est compliqué et chronophage.</p>
<p>Gratuit, Libre (Licence MIT), Tabula fonctionne sous Mac, Windows et Linux. Codé en Ruby, fonctionnant avec la JVM, Tabula est un web-service puissant, disposant de fonctionnalités de détection de tableaux de deux types : </p>
<ul>
<li>soit par détection automatique des espaces entre les colonnes (mode <em>stream</em>) ;</li>
<li>soit par détection automatique des caractères de colonnes (mode <em>lattice</em>).</li>
</ul></div><ul><li>lien nᵒ 1 : <a title="http://tabula.technology/" hreflang="en" href="https://linuxfr.org/redirect/94989">La page du projet Tabula</a></li><li>lien nᵒ 2 : <a title="https://github.com/tabulapdf/tabula" hreflang="fr" href="https://linuxfr.org/redirect/94990">Le code source de Tabula sur Github</a></li><li>lien nᵒ 3 : <a title="https://twitter.com/tabulapdf" hreflang="fr" href="https://linuxfr.org/redirect/94991">Tabula sur Twitter</a></li><li>lien nᵒ 4 : <a title="https://github.com/tabulapdf/tabula/releases" hreflang="fr" href="https://linuxfr.org/redirect/94992">Notes de version 1.0.1</a></li></ul><div><p>Tabula a été conçu dans un esprit de maîtrise de ses données. À aucun moment vos fichiers ne voyagent sur internet. Si l'utilisation de Tabula se fait via votre navigateur, il fonctionne bien en local.<br>
Tabula peut également être installé sur un LAN.</p>
<p><strong>Limitation :</strong> Les créateurs du logiciel précisent que Tabula est conçu pour les pdf texte. Il ne fonctionne pas sur les pdf images (scan).<br>
Toutefois, par expérience personnelle, de bons résultats peuvent cependant être obtenus sur des scans OCRisés de bonne résolution (400DPI), et au format pdf non-compressés.</p>
<p>Le logiciel sort aujourd'hui dans sa version 1.0.1, corrigeant quelques bugs de la version 1.0</p>
<h2 id="les-nouveautés-de-la-version-10">Les nouveautés de la version 1.0</h2>
<ul>
<li>Nouvelle interface utilisateur ;</li>
<li>corrections de bugs ;</li>
<li>ajout du mode de détection Lattice ;</li>
<li>amélioration de la détection des colonnes non-marquées ;</li>
<li>la version OS X embarque désormais sa propre version de la JVM.</li>
</ul></div><div><a href="https://linuxfr.org/news/sortie-de-tabula-1-0-1-extraction-de-donnees-tabulaires-dans-des-pdfs.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/106779/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/news/sortie-de-tabula-1-0-1-extraction-de-donnees-tabulaires-dans-des-pdfs#comments">ouvrir dans le navigateur</a>
</p>
toctoc1Nils Ratusznikclaudexpalm123https://linuxfr.org/nodes/106779/comments.atom