Forum général.cherche-logiciel photorec et ensuite ? (fichiers libreoffice et pdf surtout)

Posté par  (site Web personnel) . Licence CC By‑SA.
Étiquettes : aucune
8
30
sept.
2019

Bonjour à tous,

j'ai sauvé quelques années de boulot à une collègue qui n'avait pas de sauvegarde correcte et un disque HS. Photorec a été mon (son) ami…

sauf que elle se noie maintenant dans les fichiers (odt pour beaucoup, pdf en partie, ms word un peu) qu'il faut ouvrir un a un pour les identifier.

Existe-t-il un moyen de retrouver en masse des infos plus ou moins pertinentes pour l'aider à identifier ces données ? Certains fichiers ont été renommé autrement que f02154588.pdf , par exemple en f0215458_Objectifs_et_auto_valuation.pdf . Je suppose que photorec le fait en lisant une partie du pdf récupéré.

Est-il possible d'étendre ce mécanisme ?
Y at-t-il d'autres solution pour gagner du temps dans ce tri ?

Merci

Christian

  • # Let's check the source code

    Posté par  (site Web personnel) . Évalué à 5.

    Tu as tout à fait raison pour la récupération automatique du titre pour les PDF, cf. file_rename_pdf() dans le fichier src/file_pdf.c des sources de testdiskhttps://sources.debian.org/src/testdisk/7.1-5/src/file_pdf.c/#L65

    Les fichiers opendocument (au sens large) semblent gérés via src/file_zip.c, qui ne semble que positionner la bonne extension en fonction du type MIME (d'après une lecture rapide du fichier) → https://sources.debian.org/src/testdisk/7.1-5/src/file_zip.c/

    Je suppose que le plus efficace serait de reprendre les fichiers *.odt, *.ods, etc. sauvés par photorec et les analyser après coup pour essayer de retrouver les métadonnées à l'intérieur et les exploiter pour faire un renommage ?

    Debian Consultant @ DEBAMAX

    • [^] # Re: Let's check the source code

      Posté par  (site Web personnel) . Évalué à 2.

      merci, mais j'ai l'impression que tous ses pdf n'étaient pas renommés. Je ais essayer de voir pourquoi. (corrompus, sans contenu ou je ne sais quoi, je ne les ai aps sous la main)

      pour les zip, j'ai de quoi les renommer en odt, ça c'est assez facile et à priori pas de ods ou odp là-dedans. apr contre je ne sais pas comment faire pour en extraire à la moulinette des données pertinentes (titres, première ligne, métadonnées, date de création)

      • [^] # Re: Let's check the source code

        Posté par  (site Web personnel) . Évalué à 3.

        Il semblerait qu'exiftool puisse faire le boulot, en cherchant Title dans la sortie, mais seulement si on a mis un titre explicitement dans les métadonnées du document… (Je n'arrivais pas à vérifier le bon fonctionnement localement parce que je ne prends jamais la peine de le faire.)

        Debian Consultant @ DEBAMAX

      • [^] # Re: Let's check the source code

        Posté par  . Évalué à 2.

        Dans un fichier OpenDocument qui est une archive Zip avec une extension odt/ods/odp, etc., si un titre a été donné, il se trouve entre les balises <dc:title> et </dc:title> du fichier meta.xml à la racine de l'archive.

  • # Commentaire supprimé

    Posté par  . Évalué à 2. Dernière modification le 02/10/19 à 07:55.

    Ce commentaire a été supprimé par l’équipe de modération.

    • [^] # Re: DEXS

      Posté par  (site Web personnel) . Évalué à 2.

      Exactement, c'est ce que j'aimerais bien arriver à faire. Éventuellement remettre les dates de modification des fichiers correctes.

      Sinon, tout concaténer en un gros pdf et ajouter en incrustation le nom de chaque fichier, ça aidera pour retour les fichiers urgents.

    • [^] # Commentaire supprimé

      Posté par  . Évalué à -6. Dernière modification le 02/10/19 à 07:54.

      Ce commentaire a été supprimé par l’équipe de modération.

      • [^] # Spam détecté

        Posté par  . Évalué à 3.

        au cas où pour les modos.

  • # Les indexer ?

    Posté par  (site Web personnel) . Évalué à 1.

    Hello,

    A mon avis, le mieux serait de les indexer si les méta-données des documents ne sont pas suffisantes.

    Ca permettrait au moins d'avoir une recherche dessus. Quelque chose comme Xapian (mais c'est un peu roots) ou Elasticsearch (mais faudra peut-être un peu de liant) ou Apache Nutch (de mémoire, on peut indexer du local).

    --
    Guillaume

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n’en sommes pas responsables.