Forum général.cherche-logiciel photorec et ensuite ? (fichiers libreoffice et pdf surtout)

Posté par (page perso) . Licence CC by-sa.
Tags : aucun
8
30
sept.
2019

Bonjour à tous,

j'ai sauvé quelques années de boulot à une collègue qui n'avait pas de sauvegarde correcte et un disque HS. Photorec a été mon (son) ami…

sauf que elle se noie maintenant dans les fichiers (odt pour beaucoup, pdf en partie, ms word un peu) qu'il faut ouvrir un a un pour les identifier.

Existe-t-il un moyen de retrouver en masse des infos plus ou moins pertinentes pour l'aider à identifier ces données ? Certains fichiers ont été renommé autrement que f02154588.pdf , par exemple en f0215458_Objectifs_et_auto_valuation.pdf . Je suppose que photorec le fait en lisant une partie du pdf récupéré.

Est-il possible d'étendre ce mécanisme ?
Y at-t-il d'autres solution pour gagner du temps dans ce tri ?

Merci

Christian

  • # Let's check the source code

    Posté par (page perso) . Évalué à 5.

    Tu as tout à fait raison pour la récupération automatique du titre pour les PDF, cf. file_rename_pdf() dans le fichier src/file_pdf.c des sources de testdiskhttps://sources.debian.org/src/testdisk/7.1-5/src/file_pdf.c/#L65

    Les fichiers opendocument (au sens large) semblent gérés via src/file_zip.c, qui ne semble que positionner la bonne extension en fonction du type MIME (d'après une lecture rapide du fichier) → https://sources.debian.org/src/testdisk/7.1-5/src/file_zip.c/

    Je suppose que le plus efficace serait de reprendre les fichiers *.odt, *.ods, etc. sauvés par photorec et les analyser après coup pour essayer de retrouver les métadonnées à l'intérieur et les exploiter pour faire un renommage ?

    Debian Consultant @ DEBAMAX

    • [^] # Re: Let's check the source code

      Posté par (page perso) . Évalué à 2.

      merci, mais j'ai l'impression que tous ses pdf n'étaient pas renommés. Je ais essayer de voir pourquoi. (corrompus, sans contenu ou je ne sais quoi, je ne les ai aps sous la main)

      pour les zip, j'ai de quoi les renommer en odt, ça c'est assez facile et à priori pas de ods ou odp là-dedans. apr contre je ne sais pas comment faire pour en extraire à la moulinette des données pertinentes (titres, première ligne, métadonnées, date de création)

      • [^] # Re: Let's check the source code

        Posté par (page perso) . Évalué à 3.

        Il semblerait qu'exiftool puisse faire le boulot, en cherchant Title dans la sortie, mais seulement si on a mis un titre explicitement dans les métadonnées du document… (Je n'arrivais pas à vérifier le bon fonctionnement localement parce que je ne prends jamais la peine de le faire.)

        Debian Consultant @ DEBAMAX

        • [^] # Re: Let's check the source code

          Posté par (page perso) . Évalué à 2.

          C'est déjà pas mal : exiftool me donne la date de création pour les odt et les pdf. Ça peut déjà aider…

          • [^] # Re: Let's check the source code

            Posté par . Évalué à 3.

            La commande extract du projet GNU libextractor est sacrément utile aussi pour ce genre d'opérations de renommage par les méta-données car elle gère beaucoup de formats de fichier. Plusieurs "bindings" existent si tu veux scripter dans un langage spécifique mais je ne sais pas si tous sont bien à jour.

      • [^] # Re: Let's check the source code

        Posté par . Évalué à 2.

        Dans un fichier OpenDocument qui est une archive Zip avec une extension odt/ods/odp, etc., si un titre a été donné, il se trouve entre les balises <dc:title> et </dc:title> du fichier meta.xml à la racine de l'archive.

  • # Commentaire supprimé

    Posté par . Évalué à 2. Dernière modification le 02/10/19 à 07:55.

    Ce commentaire a été supprimé par l'équipe de modération.

    • [^] # Re: DEXS

      Posté par (page perso) . Évalué à 2.

      Exactement, c'est ce que j'aimerais bien arriver à faire. Éventuellement remettre les dates de modification des fichiers correctes.

      Sinon, tout concaténer en un gros pdf et ajouter en incrustation le nom de chaque fichier, ça aidera pour retour les fichiers urgents.

    • [^] # Commentaire supprimé

      Posté par . Évalué à -6. Dernière modification le 02/10/19 à 07:54.

      Ce commentaire a été supprimé par l'équipe de modération.

  • # Les indexer ?

    Posté par (page perso) . Évalué à 1.

    Hello,

    A mon avis, le mieux serait de les indexer si les méta-données des documents ne sont pas suffisantes.

    Ca permettrait au moins d'avoir une recherche dessus. Quelque chose comme Xapian (mais c'est un peu roots) ou Elasticsearch (mais faudra peut-être un peu de liant) ou Apache Nutch (de mémoire, on peut indexer du local).

    --
    Guillaume

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.