Journal Classer efficacement et durablement ses fichiers

Posté par  . Licence CC By‑SA.
28
27
mai
2020

Bonjour'Nal (oui oui, c'est une intro vue et revue, nous sommes d'accord).

Tout d'abord, désolé si ce sujet a déjà été évoqué/débattu. Je n'ai pas trouvé grand-chose via la fonction recherche…

Depuis plusieurs années j'accumule des données de toute sorte. Importantes ou futiles, elles sont plus ou moins rangées (éparpillée sur plusieurs disques entre PC fixe et PC portable), plus ou moins bien sauvegardées et cela commence à me "travailler".

J'aurais voulu avoir vos retours sur votre organisation. Selon moi l'organisation hiérarchique proposé par la plupart (tous ?) des systèmes de fichiers est vraiment trop limitative.

Je rêve de pouvoir classer non seulement par organisation hiérarchique mais aussi en utilisant des tags. Ainsi il serait facile de retrouver plus rapidement un/plusieurs document·s.

Il y aurait bien les liens physiques proposés par les systèmes de fichier ext2/3/4 mais cela semble difficile à maintenir dans le temps et avec beaucoup de données (si je mets plusieurs tags sur un document, etc.). En outre si je souhaite supprimer définitivement un fichier, cela ne sera fait qu'après avoir supprimé l'ensemble des occurrences des liens physique de celui-ci il me semble.

Avez-vous des solutions pour ce genre de problématique (astuces, logiciels, surcouche au système de fichier, …)
Je pensais éventuellement développer un script python pour stocker les tags liés à mes fichiers mais cela me semble difficile en repartant de zéro (de faire quelque chose de bien en pensant à l'ensemble des cas d'utilisation et sans y passer des heures et des heures).

Merci d'avance pour le temps que vous passerez à enrichir ce journal.

  • # macOS

    Posté par  (site web personnel) . Évalué à -10.

    Utilise macOS, tu peux déjà utiliser les tags comme tu veux. Tu peux également (depuis 15 ans au moins) colorier chaque fichier ou dossier.

    Tu peux ensuite faire des recherches par tag (mais de base, le contenu de la plupart des fichiers est indexé), mais tu peux également créer des dossiers « intelligents ». Ces derniers sont en fait des dossiers qui contiennent les fichiers répondant à des critères choisis (ceux qui ont un tag donné, les photos avec un tag EXIF précis, les mp3 d'un genre précis, ceux qui ont été créés dans la semaine, etc.)

    • [^] # Re: macOS

      Posté par  (site web personnel) . Évalué à 10.

      Super comme réponse sur un site dédié à Linux.

      Sous Linux aussi ce genre de truc existe depuis longtemps. Les plus connus sont Baloo (KDE), Tracker (plutôt Gnome), et Recoll (plutôt agnostique).

      Un problème c'est que ces solutions ne sont pas compatibles et pas toujours super stable. L'idéal ce serait quelque chose basé sur le système de fichiers mais d'après ce que je comprends, ce n'est pas possible d'implémenter ça correctement car les FS POSIX copient par une création de nouveau fichier et copie du contenu et non un appel système dédié qui permettrait au FS de gérer tout ça proprement.

      Un autre problème c'est que je ne crois pas qu'il y'ait de référence qui ait été produite pour ça (par FreeDesktop par exemple) pour que les systèmes s'alignent.

      • [^] # Re: macOS

        Posté par  (site web personnel) . Évalué à 4.

        De mémoire, il existe sous linux des metadatas associées au système de fichier (c'est le machin utilisé pour les ACL). Le problème est leur gestion en cas de copie.

        "La première sécurité est la liberté"

        • [^] # Re: macOS

          Posté par  (site web personnel) . Évalué à 5.

          Il y a les ACL et les extended attributes (xattr). Ce sont deux choses bien distinctes même si ce sont souvent deux extensions qu'on met ou ne met pas en même temps.

          La plupart des commandes de base gèrent les xattr mais via des options supplémentaires donc effectivement, c'est pas pratique. Je ne parle pas des IHM dont là je n'en sais rien. En général, c'est naze de ce coté là.

          Les bons systèmes de TAG qui fonctionnent sont ceux dans le format du fichier comme jpg. Là, les tag passent d'un système à un autre.

          • [^] # Re: macOS

            Posté par  (site web personnel) . Évalué à 4.

            oui, je pense que les metadata ont leur place dans le fichier eux-même, comme les exif. (qui a créé l'info, à quel date, et où)
            Peut être qu'il est possible de faire une liste de type de fichier, et de faire correspondre des outils en ligne de commande qui peuvent manipuler les infos. J'imagine que gérer des variables dans un fichier libreoffice ne doit pas être difficile, non plus.

            "La première sécurité est la liberté"

      • [^] # Re: macOS

        Posté par  . Évalué à 9.

        Super comme réponse sur un site dédié à Linux.

        C'est toujours bien de s'intéresser à comment font les autres.

        Sous Linux aussi ce genre de truc existe depuis longtemps. Les plus connus sont Baloo (KDE), Tracker (plutôt Gnome), et Recoll (plutôt agnostique).

        Je ne crois pas que ce soit ce qu'il décrit. Tu parle d'indexer (qui analyse le contenu des fichiers) et lui parle de tag (qui sont des métadonnées des fichiers). Ça existe aussi sur mac, c'est spotlight mais je ne suis pas certains que ce soit ce dont il parle.

        Un problème c'est que ces solutions ne sont pas compatibles et pas toujours super stable. L'idéal ce serait quelque chose basé sur le système de fichiers mais d'après ce que je comprends, ce n'est pas possible d'implémenter ça correctement car les FS POSIX copient par une création de nouveau fichier et copie du contenu et non un appel système dédié qui permettrait au FS de gérer tout ça proprement.

        La question n'est pas syscall vs autre chose, mais que le VFS l'API de filesystem que tout système de fichiers doivent implémenter pour être un système de fichier contient la sémantique de fichier/dossier (en fait c'est la définition de fichier/dossier/etc). De manière très simple quand un programme fais un `int fd = open("/foo/bar/file.ext");" il faut que ton système de fichier sache quoi en faire.

        Tu peux très bien faire un mapping de la hiérarchie vers les tags. Les dossiers sont des tags, un fichier dans le dossier t1 a le tag t1. Tu trouvera dans t1/t2 tous les fichiers qui ont à la fois le tag t1 et t2. Donc tous les fichiers dans t1/t2 sont les même que ceux qui sont dans t2/t1. Il faut voir comment tu gère la copie et le déplacement pour ajouter/supprimer un tag (ou plusieurs) sur un fichier. Tout ça implique des décisions qui ne font pas forcément consensus.

        https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

        • [^] # Re: macOS

          Posté par  (site web personnel) . Évalué à 4.

          Baloo indexe aussi les métadonnées (dimensions des images, données EXIF, tags Ogg et MP3 par exemple), mais c'est mal documenté, sans IHM pour faciliter ce genre de recherche, et je crois que ça ne concerne que les métadonnées les plus courantes. Ceci dit la fonctionnalité est bien là, et m'a permis par exemple de retrouver toutes les images de plus de 20000 pixels de haut, en beaucoup moins de temps qu'il n'en faut pour écrire la requête. ;-)

          KDE permet de poser des tags sur les fichiers, mais je ne sais plus s'il passe par Baloo ou autre, en tout cas c'est une solution spécifique, pas interopérable, que je n'ai donc pas exploré.

  • # TagSpaces

    Posté par  . Évalué à 3.

    Ce logiciel à l'air intéressant: https://www.tagspaces.org/products/community/

    Il fonctionne sous Mac, Windows et Linux. En gros tu rajoutes tes tags dans le nom de fichier

  • # gobee

    Posté par  . Évalué à 1.

    Salut,
    tu peux jeter un oeil là dessus https://framagit.org/fredix/gobee cependant ça nécessite de stocker tes fichiers dans une base mongoDB.

  • # cathédrale vs bazard

    Posté par  . Évalué à 7.

    Je pensais éventuellement développer un script python pour stocker les tags liés à mes fichiers mais cela me semble difficile en repartant de zéro (de faire quelque chose de bien en pensant à l'ensemble des cas d'utilisation et sans y passer des heures et des heures).

    Ce n'est probablement pas la bonne approche. Il ne faut pas tenter de tout faire et monter un cahier des charges complets, puis implémenter un truc, mais plutôt faire quelque chose de très simple qui te soit déjà utile. En l'utilisant tu en verra les limites et tu améliorera.

    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

  • # vive la hiérarchie

    Posté par  (site web personnel) . Évalué à 9.

    A mon sens ce n' est pas pour rien que les systèmes de fichiers hiérarchiques demeurent encore aujourd'hui, en 2020.

    De nombreux dev se sont dit qu'ils allaient créer quelquechose de mieux, de plus facile, avec plus de fonctionnalités. Des tags, des couleurs des collections, en nuage….

    Mais la réalité reprend vite le pas. Pour s y retrouver dans ses fichiers il faut bien savoir où ils sont. Pour en faire un backup par exemple. Alors on peut imaginer des solutions pour indexer etc mais en complément d'une bonne vieille hiérarchie, on ne peut pas opposer les deux.

    Après un système comme Nextcloud peut t aider
    - avant tout nets tous tes fichiers au même endroit. Sans cela c'est mission impossible.
    - le client nextcloud permet ensuite de ne synchroniser que certains dossiers.
    - il permet aussi d apposer des tags.

    Bref tu me couperas pas au rangement ! Bon courage

    • [^] # Re: vive la hiérarchie

      Posté par  . Évalué à 2.

      Mais la réalité reprend vite le pas. Pour s y retrouver dans ses fichiers il faut bien savoir où ils sont. Pour en faire un backup par exemple.

      Je ne pense pas que ce soit par qualité intrinsèque que la hiérarchie survie, mais plus par l’absence de convergence des solutions plus récentes. L'arborescence est l'organisation qui est la plus interopérable.

      Alors on peut imaginer des solutions pour indexer etc mais en complément d'une bonne vieille hiérarchie, on ne peut pas opposer les deux.

      L'utilisation de plus en plus répandue de iOS et Android semble montrer que l'on peut vivre sans arborescence.

      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

      • [^] # Re: vive la hiérarchie

        Posté par  (site web personnel) . Évalué à 3.

        Il faudrait aussi des tags automatiques en plus de la date de création. Typiquement, il manque l'origine du fichier, le nom du programme qui l'a écrit dans le système de fichier (sauf browser et cp, bien sûr).

        "La première sécurité est la liberté"

      • [^] # Re: vive la hiérarchie

        Posté par  . Évalué à 10.

        L'utilisation de plus en plus répandue de iOS et Android semble montrer que l'on peut vivre sans arborescence.

        Ça dépend de ce qu'on appelle vivre. Je ne connais pas iOS, donc je vais parler d'Android.

        La gestion du stockage est pénible si l'on veut garder un contrôle sur l'organisation du contenu.

        Par exemple, les utilisateurs prennent des photos, téléchargent de PDFs, partagent des vidéos, etc. Tout est « en vrac » sur le disque. Si j'ai besoin d'un fichier que j'ai récupéré, sans savoir comment je l'ai récupéré, et que j'en ai plein, je fait comment ? Et une fois la mémoire pleine on fait comment pour en libérer, à part tout balancer dans le « cloud » ?

        Autre exemple moins en rapport, je trouve les raccourcis Images, Vidéos, Documents pas très pratiques. L'appli Files de Google limite les opérations de déplacement si on les utilise (déplacement des données uniquement vers la mémoire externe/interne en préservant l'arborescence). Résultat, autant naviguer depuis la racine.

        Je préfère une arborescence claire à un confort qui se révèle au final être une entrave.

        • [^] # Re: vive la hiérarchie

          Posté par  . Évalué à 6.

          La gestion du stockage est pénible si l'on veut garder un contrôle sur l'organisation du contenu.

          Tu veux dire que si tu veux une arborescence sur un système fais pour ne pas présenter d'arborescence ça marche pas très bien ? Étonnant :)

          Je ne trouve pas ça très agréable moi non plus, mais de plus en plus de personne n'utilisent que ça et on va bientôt commencer à voir une génération de personne qui n'ont que très peut utilisé d'ordinateur personnel et beaucoup plus de périphériques android/ios. Des gens qui n'auront pas le biais que nous avons : être biberonné au système de fichier hiérarchique depuis des dizaines d'années.

          https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

          • [^] # Re: vive la hiérarchie

            Posté par  (site web personnel) . Évalué à 10.

            Une fois de plus il faut faire la différence entre les utilisateurs purs et les utilisateurs qui regardent un tout petit peu sous le capot.

            Les utilisateurs purs passent sans problèmes à un système non hiérarchique car ils ne sont pas étonnés plus que cela quand ils ne trouvent plus un fichier. Ça les frustres, mais ce n'est pas lié au système de fichiers. Je vois beaucoup de personnes qui n'ont en fait jamais compris le système hiérarchique (souvenir des vieux bureaux sous Windows, tout couvert de fichiers…). Ils ne comprennent pas plus celui qui leur est maintenant présenté. Si en moyenne ils trouvent plus vite, c'est mieux.

            La situation est différente pour ceux qui veulent savoir ce qui est sous le capot. Le cerveau humain intègre facilement le système hiérarchique car c'est un système de classement avec à chaque étape un nombre réduit de choix (Or notre cerveaux ne sait pas gérer un grand nombre d'option). Les systèmes par tag marchent mal car il y a trop de choix possible à chaque étape, c'est donc très difficile à mémoriser. D'autant que la logique au moment de la création du fichier peut ne plus être la même au moment de la recherche.

            Le système par indexation est efficace car il est systématique et recouvre de multiples entrées, mais il est peut efficace pour trouver rapidement un fichier spécifique. Son but est de retourner un ensemble exploitable par l'utilisateur, pas de retourner un fichier spécifique.

            Donc, on en revient à l'attente des utilisateurs. S'ils ne cherchent pas à comprendre, le système le plus efficace est celui dont ils ne s'occupent pas, tant pis pour les quelques pertes. Au contraire, si on veut être dans un système maitrisé, il doit s'adapter aux réalité du fonctionnement du cerveau.

            • [^] # Re: vive la hiérarchie

              Posté par  . Évalué à 2.

              Donc, on en revient à l'attente des utilisateurs. S'ils ne cherchent pas à comprendre, le système le plus efficace est celui dont ils ne s'occupent pas, tant pis pour les quelques pertes. Au contraire, si on veut être dans un système maitrisé, il doit s'adapter aux réalité du fonctionnement du cerveau.

              Le meilleur outil n'est-il pas celui dont on a pas besoin de savoir qu'il est là ?

              https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

              • [^] # Re: vive la hiérarchie

                Posté par  (site web personnel) . Évalué à 2.

                Enfin la gestion des fichiers à la Android a toujours existé aussi sur les ordinateurs personnels. Il y a toujours eu des gens pour mettre tous leurs fichiers en vrac sur le bureau (voire utiliser la Corbeille pour archiver). Mais aucune personne qui doit réellement gérer des données en nombre n’utilise ce type de classement, donc je ne crois pas que la distinction soit du côté des utilisateurs (habitués ou non du système de fichier hiérarchique) mais de l’usage. On stocke moins de documents qui nécessitent une organisation sur téléphone (sauf les photos et les musiques, mais de fait les applis qui s’en chargent les organisent aussi sur le FS généralement). Pour regarder youtube et consulter ses e-mails, on n’a même pas besoin de FS, ou à la limite juste de l’équivalent « /tmp » que l’utilisateur ne regarde pas non plus souvent sur un ordinateur.

                • [^] # Re: vive la hiérarchie

                  Posté par  . Évalué à 7.

                  Enfin la gestion des fichiers à la Android a toujours existé aussi sur les ordinateurs personnels.

                  Oui et non les sélecteurs de fichiers ne sont pas pensé pour par exemple. Tu ne peux pas t'abstraire totalement de la hiérarchie.

                  On stocke moins de documents qui nécessitent une organisation sur téléphone[…]

                  De plus en plus. Si c'est pas sur téléphone c'est sur tablette et les tablettes Apple se vendent bien il me semble.

                  Mais en y réfléchissant je pense qu'il y a effectivement une différence d'usage. Sur ces machines, on est orienté application. on pars d'une application et on accède à nos données à travers elle. Là où sur PC, on est orienté données, on utilise des logiciels hyper généralistes (le gestionnaire de fichier, le shell,…) pour accéder à nos données qui s'ouvre avec une application plus spécifique. Je pense que c'est le point le plus discriminant.

                  https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

                  • [^] # Re: vive la hiérarchie

                    Posté par  (site web personnel) . Évalué à 4.

                    Oui et non les sélecteurs de fichiers ne sont pas pensé pour par exemple. Tu ne peux pas t'abstraire totalement de la hiérarchie.

                    Sur Android non plus. Si l'on veut passer ouvrir un fichier particulier avec une application particulière, on doit aussi le chercher. En pratique, sans gestionnaire de fichier un peu complet ni sélecteur de fichiers dans les applications qui montrent l’organisation hiérarchique du FS, c’est une action qu’on ne fait juste pas et qu’on garde pour quand on aura un ordinateur sous la main. Mais certaines applications pour lesquels cet usage a du sens disposent de sélecteurs de fichiers très complets, même sur Android.

                    De plus en plus. Si c'est pas sur téléphone c'est sur tablette et les tablettes Apple se vendent bien il me semble.

                    Oui. Cela dit, j’ai quand-même l’impression qu’elles rejoignent davantage l’usage du téléphone (web, mails, jeux) que de l’ordinateur (rédaction de documents, traitement de données quelconques).

                    Sur ces machines, on est orienté application. […] Là où sur PC, on est orienté données

                    Je ne voyais pas cela comme ça mais je pense que tu mets vraiment le doigt sur quelque-chose. Sur une tablette/un téléphone, on a un usage = une appli (web, photos, notes). Un ordinateur devient vraiment indispensable quand on mélange les usages et qu’on regroupe ensemble des documents de natures différentes (les plans — images —, le budget — tableur — et le descriptif — texte — d’un même projet par exemple) que des fichiers ne sont pas indépendants (codes sources) voire qu’on travaille sur un document avec plusieurs logiciels (fréquent en traitement d’image par exemple).

                    Cela explique largement la différence de besoin au niveau du système de fichiers pour ces différents usages. Ça n’empêche pas qu’on puisse vouloir organiser ses fichiers selon d’autres critères que le FS hiérarchique et on en revient à la question du journal, qui m’intéresse mais à laquelle je n’ai pas de réponse définitive.

          • [^] # Re: vive la hiérarchie

            Posté par  . Évalué à 10. Dernière modification le 27 mai 2020 à 11:26.

            être biberonné au système de fichier hiérarchique depuis des dizaines d'années.

            si seulement… pour les sysadmins et les développeurs, sans doute, mais pour le grand public, ce n'est pas forcément le cas. La plupart des gens (M. et Mme Michu) que je vois n'ont aucun rangement, ils récupèrent leurs feuilles de paye dans le dossier téléchargement et les gardent là, en même temps qu'il y a des blagues powerpoint, des vidéos de chatons et des fichiers d'installation d'incredimail.exe. Je caricature un peu, mais il y a de ça.

            Même chez les plus organisés (qui vont classer avec plus ou moins de bonheurs leurs fichiers perso dans une hiérarchie), il reste des points plus nébuleux, par exemple ils vont avoir leurs photos dans un dossier ("judicieusement" placé par windows dans une "bibliothèque" cloisonée du reste), leurs documents dans un autre, avec malgré tout dans ce dossier "mes documents", des fichiers de configurations, voire de cache, installés par les logiciels tiers, ce qui rend difficile la sauvegarde groupée de tous ces fichiers (quel intérêt de sauvegarder 300 Mo de fichiers perso lorsque dans le même dossier un logiciel a déposé 4 Go de fichiers "inutiles")

            C'est pourquoi je recommande de s'affranchir des dossiers préconfigurés par le système, quel qu'il soit (je ne vais sans doute pas sauvegarder mon /home tel quel), mais de créer un unique point d'entrée pour la sauvegarde, et de gérer la hiérarchie à partir de là. Chez moi j'appelle ça "_mesdocs" par exemple, et je rajoute ensuite des sous-dossiers du type : mes_comptes, ma_famille, mes_loisirs, mes_images, mon_travail etc

            Un système de tag en plus, ça serait pratique, mais vu que je peux être amené à travailler sur divers OS, comment serait-ils conservés ces tags ? À part mettre des informations pertinentes dans le nom de fichier, ou dans la hiérarchie, je ne vois pas comment ça pourrait se faire simplement.

            L'intérêt pour moi d'avoir ces noms de dossier, c'est qu'on peut facilement recroiser les noms des dossiers où ils sont susceptibles d'être classé, avec le nom du fichier attendu (et/ou de l'extension). Par exemple si je cherche un pdf de 2018 qui concerne quelqu'un de ma famille, je tape

            locate -i "prenom" |grep "ma_famille" |grep "2018"
            et ça filtre bien les recherches.

            D'autre part, je pense qu'il faut classer ses fichiers aussi en fonction de certaines priorités et de leur importance :

            • S'il s'agit d'un document créé par vos soins (photo, texte, tableur), il faut lui accorder la plus grande importance
            • S'il s'agit d'un document qu'on vous a envoyé (compte-rendu, bulletin d'information), mais qu'il ne sera pas forcément possible de récupérer facilement, il faut lui accorder une importance moyenne
            • S'il s'agit d'un document que vous pouvez retrouver facilement sur internet (vidéos, "blagues"), il faut lui accorder une importance basse

            Et organiser les sauvegardes en fonction de ces critères.

            « Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher

            • [^] # Re: vive la hiérarchie

              Posté par  . Évalué à 4.

              Il peut être intéressant d'avoir aussi des dossiers en liens symboliques quand on veut organiser d'au moins deux façons (Perso/Videos et Vidéos/Perso par exemple).

              Ainsi on n'est pas limité à une logique d'organisation (type de média, nature du contenu) et il est possible de naviguer plus confortablement.

            • [^] # Re: vive la hiérarchie

              Posté par  . Évalué à 6.

              locate -i "prenom" |grep "ma_famille" |grep "2018"

              en fait :

              $ locate -iA prenom ma_famille 2018

              • [^] # Re: vive la hiérarchie

                Posté par  . Évalué à 2.

                merci, tu viens de m'apprendre un truc très pratique :D

                « Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher

  • # Attributs étendus

    Posté par  . Évalué à 1. Dernière modification le 27 mai 2020 à 08:46.

    On peut utiliser les attributs étendus.

    Sous KDE, Dolphin les utilise, ainsi que Baloo (index).

    En ligne de commande on peut les afficher et les mettre à jour.

    getfattr -d 'demo.pdf'                        
    # file: demo.pdf
    user.xdg.comment="test1"
    user.xdg.tags="tag1"
    
    setfattr -n user.xdg.tags -v "test2" demo.pdf 
    
    • [^] # Re: Attributs étendus

      Posté par  . Évalué à 2.

      Ça permet d'associer des tag, mais il faut tout de même avoir un index à coté.

      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

  • # fs sémantiques. Problème du support applicatif

    Posté par  (Mastodon) . Évalué à 3.

    Il existe déjà pléthore de systèmes de fichiers sémantiques utilisant les tags, souvent utilisant fuse.

    Le problème c'est que comme c'est transversal, pas seulement système et pas seulement desktop, personne ne s'est décidé sur un standard et donc il y a un manque de support applicatif.

    Il y a quelques annés je me rappelle qu'il y avait eu un google summer of code pour ajouter la gestion des tags/xattr dans gnome nautilus. Je crois que la seule chose qui en est restée est l'option star (je ne sais pas quelle est la traduction en français car mon système est en anglais, favori peut-être ?).

    Jami: beabb2b063da0a2f0a2acaddcd9cc1421245d5de

  • # Travaux en cours, timestamps à foison

    Posté par  (site web personnel) . Évalué à 6.

    Le classement des fichiers, un problème récurrent chez moi… Le plus gros changement de ces derniers temps est l'utilisation des timestamps (abrégés, lisibles) en début de nom de fichier et/ou de nom de dossier.

    Baloo (indexeur KDE) m'est indispensable pour retrouver certains petits cailloux perdus. :-) C'est vraiment dommage que l'IHM dans Dolphin ne soit pas à la hauteur, parce qu'il peut faire des recherches assez sympa (par dimension d'image, modèle d'appareil photo ou certains tags audio par exemple). Mais le plus utile reste l'indexation de contenu texte pour retrouver des vieux trucs paumés dont je me souviens vaguement !

    Niveau photo, je suis passé à un format "AAAA/MMJJ Description" pour les dossiers, j'avais numéroté à un moment, mais les mois et les jours font très bien le boulot et évitent de renuméroter quand on reçoit ou retrouve de vieilles photos. La description permet de faire quelques recherches texte en shell. Pour les fichiers, c'est bourrin, mais AUT_AAAAMMJJ_HHMMSS_A_etc.ext (auteur, timestamp, une lettre pour identifier l'appareil, et quelques compléments par exemple pour les panos, les rafales, le HDR). Auteur (simple trigramme) est très utile pour se souvenir qui a pris ou transmis les photos en question. Pour gérer plus finement (avec des tags) il faut utiliser un gestionnaire de collections photo (Digikam et/ou Darktable).

    Niveau audio, "Artiste/AAAA Titre album/NN Titre piste" me suffit, avec quelques cas particuliers (Compilations, B.O.F.).

    Pour les vidéos et les documents, c'est construit plus itérativement (et c'est plus le boxon), par catégories qui s'affinent avec le temps mais sans chercher à ultra-catégoriser (trop de perte de temps et de rework). De plus en plus, je mets des timestamps au début des fichiers (année-mois, année-mois-jour, parfois avec heure-minute arrondie, selon les fichiers), ça les classe naturellement, et ça reste assez lisible. Se baser sur les timestamps de l'OS est trop piégeux, on n'ose plus toucher aux fichiers…

    J'utilise la même arbo pour la gestion de mots de passe / catégorisation d'emails / gestion de documents (pour tout ce qui est télécom, impôts, santé, commerce, loisirs, etc.), ça permet de factoriser la prise de tête de savoir où quelque chose se range.

    • [^] # Re: Travaux en cours, timestamps à foison

      Posté par  (site web personnel) . Évalué à 3.

      Baloo (indexeur KDE) m’est indispensable pour retrouver certains petits cailloux perdus. :-) C’est vraiment dommage que l’IHM dans Dolphin ne soit pas à la hauteur, parce qu’il peut faire des recherches assez sympa (par dimension d’image, modèle d’appareil photo ou certains tags audio par exemple).

      Je suis preneur de conseils. Baloo n’arrive pas à retrouver les photos (jpg, png) avec des tags/titres, ce qui m’intéresserait. Parce que lancer Digikam/Darktable je trouve que c’est un peu lourd. J’aimerais bien le faire depuis Dolphin, ou en ligne de commande.

      Pour l’instant j’ai un petit script à base d’exiv2 mais ça ne me satisfait pas tout à fait.

      « Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes. »

      • [^] # Re: Travaux en cours, timestamps à foison

        Posté par  (site web personnel) . Évalué à 6.

        Malheureusement ce que Baloo indexe est limité, code en dur, mal documenté, et pire encore. Tu peux utiliser balooshow sur un fichier pour voir quelles propriétés il a mis en cache, et balooshow -x pour voir la liste des termes trouvés dans le document.

        Blague n°1 : les noms des propriétés ont été traduits en français, mais bien sûr pour la recherche il faut utiliser le nom en VO !

        Blague n°2 : même en faisant l'affichage en VO (en préfixant la commande avec LC_ALL=C par exemple, les noms des propriétés ne correspondent pas forcément avec le nom à utiliser dans la requête !!

        Je n'ai pas de fichier avec tag / titre, donc je ne sais pas si ça se retrouve indexé… Si c'est pas visible avec balooshow ce n'est pas recherchable.

        Si tu as beaucoup de répertoires, attention aussi à monter le nombre de max_user_watches pour inotify, sinon Baloo ne pourra pas tout surveiller et ne mettra pas à jour son index automatiquement.

        Quelques exemples de requêtes :

        baloosearch LineCount ">=" 5000 AND LineCount "<" 10000
        baloosearch Artist : '"Pink Floyd"'
        baloosearch Height ">" 20000
        baloosearch PhotoFocalLength = 50
        baloosearch PhotoFocalLengthIn35mmFilm = 90
        baloosearch Model : DSLR-A200
        baloosearch Model : '"Canon EOS 6D"'
        Partiellement documenté dans https://api.kde.org/frameworks/baloo/html/searching.html mais la doc n'est clairement pas à jour (Model et non plus ImageModel…), et bonjour la subtilité pour lui passer des guillemets pour rechercher des valeurs avec espace…

    • [^] # Re: Travaux en cours, timestamps à foison

      Posté par  (site web personnel) . Évalué à 5. Dernière modification le 28 mai 2020 à 00:26.

      Pour les vidéos et les documents, c'est construit plus itérativement (et c'est plus le boxon), par catégories qui s'affinent avec le temps

      Normal que ce soit le boxon, ce n'est pas la bonne méthode, mais celle par laquelle on passe tous :D

      Au niveau de Kodi, il y a eu une bonne réflexion sur les méthodes de classement, qu'ils ont documentés. Elles ont pour avantage de favoriser des scrapping permettant de créer automatiquement les visualisations alternatives, dans Kodi ou non (tags, Creation de file systemes virtuels par genre, date, réalisateurs, …)

      Coté audio, cela ressemble à ce que tu as fait. Coté film: https://kodi.wiki/view/Naming_video_files/Movies , et il y aussi série, concert, …

      https://kodi.wiki/images/thumb/3/3c/Video-Movie_Folder_File_Structure.png/462px-Video-Movie_Folder_File_Structure.png

      Le nom du film correspond à une ce celle connu chez https://www.themoviedb.org/ , avec l'année!

      Ensuite, toutes les méthodes de classement sont faite grâce à Kodi, ou à un simple script Bash qui fera ce que tu voudras (des catégories virtuelles, ajouter l'affiche du film à la place de l'icone du dossier, etc…)

  • # Tout garder dans org-mode

    Posté par  . Évalué à 5.

    Hello,

    Pour celles et ceux qui travaillent avec Emacs Org-mode ce qui est mon cas (et ne travaillant pas dans le monde informatique), une approche intéressante est évidemment celle de Memex.

    Pour cela, l’idée d’une série de scripts python qui ramènent toutes les données en Org-mode est intéressante. Vous pouvez regarder du côté de Memacs (Karl Voit) ou hpi/orger (Karlicoss). Cela permet d’avoir l’ensemble de ses données sous la forme suivante (mais c’est flexible):

    fichiers créés --» fichiers.org
    compte twitter --» twitter.org
    annotations hypothesis --» hypothesis.org

    Et ensuite, vous pouvez chercher dans ces fichiers facilement avec les outils de votre choix (helm-rg, org-ql, etc).

    Sinon il y a le projet intéressant de Memex Worldbrain… quoique encore un peu jeune et pour le moment tourné web.

  • # Recoll

    Posté par  . Évalué à 7.

    Recoll Est un logiciel d'indexation assez simple à utiliser et mettre en place.

    Apparemment il gère les attributs étendus ce qui peut être une bonne idée

    Comme structure de base en documentation, ma petite expérience me dit:

    • de toujours faire une arborescence par date (granularité en fonction du volume) pour tout document qui a une date (courrier, notification, etc., tout ce qui est lié à un moment dans le temps)
    • de faire du thématique sinon (mais là l'arborescence fonctionne mal), par exemple si tu as un dossier avec tous tes livres, où des documents vivants.

    Moi aussi je suis fan des tags, et ça manque d'outil pour gérer ça bien sur le desktop.

    L'idée d'attacher des tags par les attributs étendus est une super idée (car si on déplace le fichier ça reste avec etc.) mais il y a le défaut que ça ne fonctionne pas dès que tu vas sur d'autres supports.

    En tout cas je te conseille l'approche qu'utilise Recoll et d'autres outils):

    • la donnée d'un côté, si possible le plus atomique possible
    • des crawlers qui analyse la donnée et la synthétise (gérant les formats possibles etc)
    • un index regroupant l'information

    Actuellement je n'utilise plus Recoll par manque d'espace disque. Mais ton poste m'a donné l'idée que je pourrais l'utiliser à nouveau en limitant très fortement la taille du texte indexé par fichier (c'est facile à régler).

  • # Recoll, un projet qui utilise le moteur d'indexation Xapian et TMSU pour les étiquettes

    Posté par  . Évalué à 5.

    Pendant un temps, j'avais utilisé Recoll qui me convenait assez bien mais mes besoins étaient alors assez légers (l'organisation par arborescence me suffit dans la plupart des cas encore aujourd'hui…). J'avais succombé à migrer mes fichiers vers une solution "Cloud" où je me mords encore les doigts de ne pas pouvoir faire ce que je veux en ligne de commande (ne serait-ce que des backups distants par rsync).

    Pour la gestion des tags, le projet Recoll utilise un autre projet nommé TMSU qui sera peut-être suffisant dans ton cas.

    P.S. Dans ma petite liste, j'ai également Xapiand ou git-annex qui semblent intéressants.

  • # Va pour la hiérarchie (tant qu'elle est confinée dans mon ordi)

    Posté par  . Évalué à 2.

    Pour ma part je m'en tiens au rangement hiérarchique de base, le défi c'est alors d'avoir une logique d'organisation.

    Je distingue les données "en cours" (sur mon portable) des données "pour stockage" (sur mes serveurs / disques externes). La seule différence est que mon rangement sur disque dur externe contient des sous-dossiers en plus, alors que je me contente d'un rangement plus simple sur mon notebook : c'est quand j'archive que je trie. Mais c'est pas ce point qui est le plus important.

    Sur mon notebook, je ne pollue pas mon home, liste presque exhaustive, j'ai :

    dev/
    downloads/
    git/
    jeux/
    media/
    perso/
    work/
    tmp/
    

    dev : des bidouilles que je récupère et ne synchronise pas, ne contient pas grand chose
    git : ne contient pas que les dépots de code sur lesquels je bosse, mais aussi une partie de ma vie administrative, des prises de notes, qui sont plutôt cool à pouvoir synchroniser régulièrement
    media : contient des fichiers que je n'ai pas produit (films, musique, images), que je pourrais éventuellement récupérer ailleurs si je les perds
    perso : mes photos
    work : des projets, ça peut-être le nom d'une asso avec son rangement spécifique selon les trucs dont je dispose
    tmp : répertoire éphémère qui ne contient pas beaucoup de fichiers et que je recycle de temps en temps, ça peut être des videos choppées du web et que j'ai la flemme de mettre dans media (ce qui témoignerait alors de ma volonté de les conserver, ce qui n'est pas forcément le cas)

    Je n'ai vraiment que ça dans ma racine de Home et toutes mes données sont dedans, tout ce qui dépasse se voit. Dans media en particulier il y a pas mal de ramifications (les clips, les podcasts…), je parviens à peu près à classer tout ça par thème et sous-thèmes. On peut faire sans tags, et s'il y a des tags j'aimerais autant que ce soit géré de la même façon que les tags ID3 vu que ça fonctionne pas si mal.

    Perso et Work sont ce que je synchronise le moins bien pour le moment, faut que j'améliore ce point, mais le reste se fait assez bien, et est accueilli par une variété de disques durs, en plusieurs exemplaires.

    Pour la musique mes fichiers sont taggés, nommés et rangés avec Picard. Taggés de cette façon je peux avoir plusieurs vues de mpd (bien qu'il me manque une vue par labels de zik, et que la question du "genre" musical est encore trop balbutiante donc je ne l'utilise pas). Je me suis penché pour faire la même chose avec Mediaelch pour les films et séries, j'ai l'impression que ça pourrait le faire, mais j'ai tout de même moins de films que de fichiers de musique donc je m'y retrouve encore facilement même si tout n'est pas hyper bien nommé.

    Il y a aussi des gens qui gèrent tout leur home avec git-annex, ça peut être cool, mais pour le moment j'essaie de faire avec ce que j'ai.

    Voilà.

    • [^] # Re: Va pour la hiérarchie (tant qu'elle est confinée dans mon ordi)

      Posté par  . Évalué à 3.

      tmp : répertoire éphémère qui ne contient pas beaucoup de fichiers et que je recycle de temps en temps, ça peut être des videos choppées du web et que j'ai la flemme de mettre dans media (ce qui témoignerait alors de ma volonté de les conserver, ce qui n'est pas forcément le cas)

      Je gère ça avec un alias gotmp=$(mktemp -d) (j'utilise autocd). Quand j'ai besoin de me retrouver quelque part je lance gotmp, je fais ce que je veux et je sais qu'au redémarrage tout sera détruis (j'éteins ma machine tous les soirs).

      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

  • # D'abord relire Georges Perec

    Posté par  . Évalué à 10.

    Spécialement Penser/Classer qui contient « Notes brèves sur l'art et la manière de ranger ses livres »
    Cet article en parle pas mal : https://languesdefeu.hypotheses.org/743

  • # Petite synthèse (qui n'engage que moi) après vos commentaires

    Posté par  . Évalué à 7.

    Bonjour à tous,

    Un grand merci pour tous vos retours. J'ai lu l'ensemble de vos commentaires attentivement (à oncle ivement aussi, mais il s'en foutait lui :P ).

    Pour la petite histoire, j'ai du ré-organiser mes photos il y a peu. Je partais d'un classement "Catégorie/Année/Évènement/[Sous évènement]" qui n'était plus tenable (beaucoup de photos, la famille s'agrandit, etc.)

    J'ai voulu faire quelque chose de bien pour arriver sur un classement "Année/Mois/Évènement" mais tout en gardant l'ancienne hiérarchie. Via un script python, j'ai récupéré les données Exif des photos pour trouver la nouvelle arborescence de chaque fichier (je faisais au passage un petit hash pour gérer les photos en double sur le disque) et créer des liens physiques (au passage, j'ai du reformater ma partoche en ext4, donc on oublie l'accès depuis Winwin sauf avec un outil additionnel).
    Ca fonctionne plutôt pas mal. Pour les vidéos, la grande majorité des vidéos présentait un nom de type AAA_MM_JJ_… c'était assez simple.
    Normalement à partir de maintenant les nouvelles photos ne seront ajoutées que dans la nouvelle arborescence mais je me dis que je peux peut-être continuer à mettre dans le "vieux" classement et relancer mon script uniquement sur les nouvelles photos pour faire les liens… On verra.

    Pour en revenir au sujet initial, les photos, vidéos, sons possèdent un système de tag (Exif, etc…) qui est bien pratique mais on ne peut que déplorer que cela ne soit pas généralisé pour tout type de fichier (enfin en même temps pour avoir cela sur un fichier TXT…)

    Je ne pense pas utiliser les ACL et les extended attributes (xattr) même si cela ferait le job, j'aimerai pouvoir exploiter mes données aussi depuis d'autres OS.

    TagSpaces semble assez correspondre à mon besoin et je pense aussi utiliser à terme recoll pour rechercher plus facilement dans mes documents.

    Je prends bonne note aussi de vos remarques concernant la centralisation des données dans un seul répertoire (plutôt que d'utiliser les répertoires Images/Documents/Vidéos/… de l'OS), c'est plus facile pour bon nombre de choses (dont la sauvegarde).

    Du coup, je pense faire les choses suivantes :
    - Rassembler toutes les données, trier celles qui sont vraiment importantes, supprimer les autres (ou les mettre dans un autre dossier pas forcément sauvegardé)
    - Classer selon une arborescence qui me parle (il faudra qu'elle reste la même au fur et à mesure du temps, bien la réfléchir initialement).
    - Utiliser TagSpaces pour ajouter des tags aux fichiers qui le nécessitent.
    - Synchroniser mon répertoire sur mon NAS et faire des synchro depuis mes machines dessus pour que tout le monde ait accès au mêmes infos
    - Tenir sur la durée…

    Bon, sur le papier, cela semble pas mal. On verra comment cela évolue.

    Merci encore pour vos commentaires pertinents/documentés/argumentés. Cela fait plaisir.

    • [^] # Re: Petite synthèse (qui n'engage que moi) après vos commentaires

      Posté par  (site web personnel) . Évalué à 5.

      J'ai des ~100go sous la forme /année/date_evenement/*.jpg; j'ai tenté d'écrire une série de script pour gérer tout ça. Le problème concerne toutes les séries de photo dont l'appareil n'était pas à l'heure, le tri devient horrible.

      "La première sécurité est la liberté"

    • [^] # Re: Petite synthèse (qui n'engage que moi) après vos commentaires

      Posté par  (site web personnel) . Évalué à 3.

      Je prends bonne note aussi de vos remarques concernant la centralisation des données dans un seul répertoire (plutôt que d'utiliser les répertoires Images/Documents/Vidéos/… de l'OS), c'est plus facile pour bon nombre de choses (dont la sauvegarde).

      Ah oui, je n'en avais pas parlé, mais je range mes fichiers sur un disque dur séparé, monté ailleurs que sous le /home. J'ai conservé des dossiers audio, photo, video par habitude, mais ce ne sont pas ceux de l'OS, et ils sont sous une racine commune. En effet c'est plus clair pour les sauvegardes, et il n'y a pas de surprise avec des programmes qui pourraient venir "pourrir" le /home. J'ai une sauvegarde sur disque dur local, et une distante.

      Je considère mon /home comme faisant partie de l'OS (à cause des fichiers de configuration, qui peuvent dépendre de la version de l'OS). J'y mets souvent des fichiers de travail (parce que SSD), mais je les sors du /home quand j'ai fini. Enfin j'essaye. :)

      J'ai deux partitions d'OS (et donc deux /home), ça me permet de toujours avoir un OS fonctionnel le temps de basculer sur une nouvelle version, et/ou de faire des tests d'OS sans gêne. Je les sauvegarde aussi, mais juste sur le disque dur externe.

  • # Jeter !

    Posté par  . Évalué à 6.

    Effacer un max de choses, de toute façon la plupart des trucs que l'on garde ne serviront en fait jamais. Jeter, jeter, jeter !

    La gent féminine, pas la "gente", pas de "e" ! La gent féminine ! Et ça se prononce comme "gens". Pas "jante".

    • [^] # Re: Jeter !

      Posté par  (site web personnel, Mastodon) . Évalué à 4.

      Mouis ! Je suis un peu mitigée. J'ai retrouvé comme ça des vieux trésors dans mes disques durs qui m'ont permis de gagner du temps dans la rédaction de supports de cours simplement parce que c'était de projets commencés et non aboutis ou des notes pour des projets.

      « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

    • [^] # Re: Jeter !

      Posté par  . Évalué à 4.

      C'est un excellent moyen pour savoir si un fichier était important. :-)
      En général quand il me prend cette envie de faire du ménage, dans les 15 jours qui suivent je m'aperçois que j'ai besoin d'un des fichiers que j'ai supprimés parce que je ne m'en servais jamais.

      • [^] # Re: Jeter !

        Posté par  . Évalué à 6. Dernière modification le 28 mai 2020 à 10:27.

        C'est la même après avoir trié son grenier ou sa cave: à chaque fois on aurait bien eu besoin d'un truc qu'on a jeté :-)

    • [^] # Re: Jeter !

      Posté par  . Évalué à 3.

      Je ne serais pas aussi radical. Il est clairement intéressant d'avoir une logique d'archivage et de suppression, néanmoins cette logique va être propre à chaque individu et à chaque organisation en fonction de ses besoins. Mais il ne faut pas négliger que certains objets peuvent retrouver une certaine valeur des années plus tard (valeur sentimentale, intellectuelle …).

      J'ai à nouveau rencontré un cas concret tout récemment dans le cadre professionnel. Avec un collègue nous avions passé pas mal de temps il y a quelques années à rédiger les prémices d'un document d'architecture pour documenter un système assez complexe. Il se trouve que ce document n'avait au final pas été utilisé et que la documentation de ce système avez été produite sous une autre forme. Il se trouve que j'ai ressorti ce document du placard suite à un autre besoin et cela a permis d'éviter de refaire toute le cheminement intellectuel.

      J'ai donc plutôt tendance à préserver un espace clair et non encombré de vieillerie pour le "travail en cours". Mais je ne jette pas aussi facilement les choses, je préfère d'abord les archiver, et les purger plus tardivement.

      • [^] # Re: Jeter !

        Posté par  . Évalué à 1.

        Oups, il y en probablement d'autres, mais celle-ci me fait saigner les yeux: "la documentation de ce système avait été produite" (et non pas avez ).

  • # Nepomuk

    Posté par  . Évalué à 5.

    Pour les nostalgiques, Baloo vient de Nepomuk, projet KDE financé par l'UE.

    https://userbase.kde.org/Nepomuk/fr

    ⚓ À g'Auch TOUTE! http://afdgauch.online.fr

    • [^] # Re: Nepomuk

      Posté par  (site web personnel) . Évalué à 3.

    • [^] # Re: Nepomuk

      Posté par  . Évalué à 2.

      Par contre c'etait tellement instable que j'avais fait un outil pour synchroniser les tags/ratings Nepomuk avec les metadata des fichiers (pour les photos et la musique).
      Du coup meme apres une reinstallation from scratch de KDE ou Nepomuk je gardais mes tags/ratings.

      https://github.com/ericpignet/neposync
      Last commit il y a 10 ans…

      Excusez l'absence d'accents dans mes commentaires, j'habite en Australie et n'ai pas de clavier francais sous la main.

      • [^] # Re: Nepomuk

        Posté par  . Évalué à 1. Dernière modification le 05 juin 2020 à 14:30.

        On parle d'un temps où l'on développait avec beaucoup plus d'économie de mémoire. Les ordinateurs avaient encore souvent 128Mo de RAM à peine. Le compromis était du coup souvent moins de sécurité dans le compilateurs.

        Je pense qu'aujourd'hui on doit faire bien moins de fautes de programmation, même en C++!

        ⚓ À g'Auch TOUTE! http://afdgauch.online.fr

  • # git-annex: le couteau suisse des data archivists

    Posté par  . Évalué à 2. Dernière modification le 29 mai 2020 à 00:35.

    https://git-annex.branchable.com/

    • OS/FS agnostic

    • Possibilité de répliquer ses fichiers entre différents répertoires (remotes)/supports, y compris dans le Claude (Dropbox, …) de manière sécurisée

    • Gestion des métadonnées indépendante d'un fs et jq friendly

    What else ?

  • # Perkeep (ex camlistore)

    Posté par  . Évalué à 3.

    https://perkeep.org/ pourrait aussi être une option pour laisser le système indexer et ranger les données.
    Bon même si j'ai joué avec je ne l'ai jamais essayé en vrai pour voir si c'est pratique sur le long terme et avec beaucoup de contenu (je serais preneur de retours d'ailleurs).

    • [^] # Re: Perkeep (ex camlistore)

      Posté par  . Évalué à 0.

      La prouesse est sympa mais c'est overkill. Less is more!
      On aurait pu aussi citer syncthing mais je le trouve la config peu claire et les perfs décevantes. Dommage, j'aime bien le format 1 binaire (client/server) propre à Go.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.