Bien le bonjour.
Je développe actuellement un logiciel pour faire de la lexicographie. En ce moment, je réfléchis pas mal aux fonctions et formats d'export et de sauvegarde de la base de données. Le logiciel est une plateforme en ligne basée sur Django.
Pour que l'utilisateur puisse sauvegarder ses données, je me demandais dans quelle mesure un export via un fichier csv, avec des entêtes formatées (par exemple: mot_information_pos) selon la structure de ses données seraient problématique. Je pourrais bien faire cela avec un fichier xml, et il y aurait moins de redondance au niveau des données, mais finalement, ça me semble être un format moins interopérable que le csv, que les linguistes utilisent déjà assez souvent. Évidemment, le tout sera zipper ensuite, car les données inclues également des fichiers audio, video et des images.
# Tout dépend...
Posté par LeBouquetin (site web personnel, Mastodon) . Évalué à 3 (+1/-0).
CSV est très bien pour des données "à plat" (sans structure, juste des lignes contenant 1 à n valeurs).
Si tu veux exporter des données multimédias, Epub pourrait être intéressant je pense mais c'est pas le même travail de construire un export …
Si c'est à vocation de requetage, exporter les données dans une base SQLite n'est pas déconnant…
XML est intéressant pour des données structurées amenées à être processées…
Bref ça dépend (ça t'aide pas;)
#tracim pour la collaboration d'équipe __ #galae pour la messagerie email __ dirigeant @ algoo
[^] # Re: Tout dépend...
Posté par lejocelyn (site web personnel) . Évalué à 2 (+0/-0).
Oui, un XML TEI sera intéressant sur le long terme, mais l'intérêt du CSV, c'est que beaucoup de personnes pourront réutiliser les données dans leurs procédés déjà existant.
Après, c'est sûr que ça demande d'aplatir des structures dans les entêtes du CSV.
[^] # Re: Tout dépend...
Posté par lejocelyn (site web personnel) . Évalué à 3 (+1/-0).
Bon, mais je viens de regarder la TEI Lex, et je suis pas du tout convaincu par les partis pris théorique (https://dariah-eric.github.io/lexicalresources/pages/TEILex0/TEILex0.html#introduction).
[^] # Re: Tout dépend...
Posté par Christophe . Évalué à 3 (+1/-0).
Le CSV, c'est bourré de pièges, je ne suis même pas sûr qu'il existe un seul parseur qui traite correctement tous les cas particuliers…
Si la donnée contient des champs assez libres (texte avec guillemets, plusieurs lignes, virgules, etc), alors je pense que CSV n'est pas le plus pertinent.
[^] # Re: Tout dépend...
Posté par Craig77 . Évalué à 2 (+1/-0).
Oui et mettre de l'audio, des vidéos et des images dedans ça me paraît ambitieux.
[^] # Re: Tout dépend...
Posté par lejocelyn (site web personnel) . Évalué à 2 (+0/-0).
Oui, enfin je pensais simplement mettre des liens vers les fichiers, qui seraient inclus dans l'export.
# et opendocument
Posté par djibb (site web personnel) . Évalué à 3 (+1/-0).
Tu peux utiliser un export avec python-odf vers un format opendocument. Ca garderait ta structure et ça zipperait…
# JSON
Posté par karmaki . Évalué à 3 (+2/-0).
Quand CSV ne me suffit pas, j'utilise JSON qui permet d'avoir des données (un peu) plus structurées. De plus, derrière, l'outil
jq
permet de facilement faire des transformations (y compris vers CSV) pour s'interfacer si besoin.Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.