Forum général.cherche-logiciel photorec et ensuite ? (fichiers libreoffice et pdf surtout)

Posté par cévhé le 30 septembre 2019 à 15:03. Licence CC By‑SA.

Étiquettes :

sept.

2019

Bonjour à tous,

j'ai sauvé quelques années de boulot à une collègue qui n'avait pas de sauvegarde correcte et un disque HS. Photorec a été mon (son) ami…

sauf que elle se noie maintenant dans les fichiers (odt pour beaucoup, pdf en partie, ms word un peu) qu'il faut ouvrir un a un pour les identifier.

Existe-t-il un moyen de retrouver en masse des infos plus ou moins pertinentes pour l'aider à identifier ces données ? Certains fichiers ont été renommé autrement que f02154588.pdf , par exemple en f0215458_Objectifs_et_auto_valuation.pdf . Je suppose que photorec le fait en lisant une partie du pdf récupéré.

Est-il possible d'étendre ce mécanisme ?
Y at-t-il d'autres solution pour gagner du temps dans ce tri ?

Merci

Christian

# Let's check the source code

Posté par Cyril Brulebois (site web personnel) le 30 septembre 2019 à 16:08. Évalué à 5.

Tu as tout à fait raison pour la récupération automatique du titre pour les PDF, cf. file_rename_pdf() dans le fichier src/file_pdf.c des sources de testdisk → https://sources.debian.org/src/testdisk/7.1-5/src/file_pdf.c/#L65

Les fichiers opendocument (au sens large) semblent gérés via src/file_zip.c, qui ne semble que positionner la bonne extension en fonction du type MIME (d'après une lecture rapide du fichier) → https://sources.debian.org/src/testdisk/7.1-5/src/file_zip.c/

Je suppose que le plus efficace serait de reprendre les fichiers *.odt, *.ods, etc. sauvés par photorec et les analyser après coup pour essayer de retrouver les métadonnées à l'intérieur et les exploiter pour faire un renommage ?

Debian Consultant @ DEBAMAX
- [^] # Re: Let's check the source code
  
  Posté par cévhé le 30 septembre 2019 à 16:13. Évalué à 2.
  
  merci, mais j'ai l'impression que tous ses pdf n'étaient pas renommés. Je ais essayer de voir pourquoi. (corrompus, sans contenu ou je ne sais quoi, je ne les ai aps sous la main)
  
  pour les zip, j'ai de quoi les renommer en odt, ça c'est assez facile et à priori pas de ods ou odp là-dedans. apr contre je ne sais pas comment faire pour en extraire à la moulinette des données pertinentes (titres, première ligne, métadonnées, date de création)
  - [^] # Re: Let's check the source code
    
    Posté par Cyril Brulebois (site web personnel) le 30 septembre 2019 à 16:19. Évalué à 3.
    
    Il semblerait qu'exiftool puisse faire le boulot, en cherchant Title dans la sortie, mais seulement si on a mis un titre explicitement dans les métadonnées du document… (Je n'arrivais pas à vérifier le bon fonctionnement localement parce que je ne prends jamais la peine de le faire.)
    
    Debian Consultant @ DEBAMAX
    - [^] # Re: Let's check the source code
      
      Posté par cévhé le 30 septembre 2019 à 17:12. Évalué à 2.
      
      C'est déjà pas mal : exiftool me donne la date de création pour les odt et les pdf. Ça peut déjà aider…
      - [^] # Re: Let's check the source code
        
        Posté par Vroum le 30 septembre 2019 à 18:54. Évalué à 3.
        
        La commande extract du projet GNU libextractor est sacrément utile aussi pour ce genre d'opérations de renommage par les méta-données car elle gère beaucoup de formats de fichier. Plusieurs "bindings" existent si tu veux scripter dans un langage spécifique mais je ne sais pas si tous sont bien à jour.
        
        [^] # Re: Let's check the source code
        
        Posté par cévhé le 30 septembre 2019 à 19:16. Évalué à 2.
        
        Merci, je regarde ça aussi. 5
  - [^] # Re: Let's check the source code
    
    Posté par Jean-Baptiste Faure le 01 octobre 2019 à 09:15. Évalué à 2.
    
    Dans un fichier OpenDocument qui est une archive Zip avec une extension odt/ods/odp, etc., si un titre a été donné, il se trouve entre les balises <dc:title> et </dc:title> du fichier meta.xml à la racine de l'archive.
# Commentaire supprimé

Posté par STRANIYA le 30 septembre 2019 à 17:50. Évalué à 2. Dernière modification le 02 octobre 2019 à 07:55.

Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: DEXS
  
  Posté par cévhé le 30 septembre 2019 à 18:30. Évalué à 2.
  
  Exactement, c'est ce que j'aimerais bien arriver à faire. Éventuellement remettre les dates de modification des fichiers correctes.
  
  Sinon, tout concaténer en un gros pdf et ajouter en incrustation le nom de chaque fichier, ça aidera pour retour les fichiers urgents.
- [^] # Commentaire supprimé
  
  Posté par STRANIYA le 01 octobre 2019 à 00:56. Évalué à -6. Dernière modification le 02 octobre 2019 à 07:54.
  
  Ce commentaire a été supprimé par l’équipe de modération.
  - [^] # Spam détecté
    
    Posté par Anonyme le 01 octobre 2019 à 22:57. Évalué à 3.
    
    au cas où pour les modos.
# Les indexer ?

Posté par Guillaume Smet (site web personnel) le 01 octobre 2019 à 01:20. Évalué à 1.

Hello,

A mon avis, le mieux serait de les indexer si les méta-données des documents ne sont pas suffisantes.

Ca permettrait au moins d'avoir une recherche dessus. Quelque chose comme Xapian (mais c'est un peu roots) ou Elasticsearch (mais faudra peut-être un peu de liant) ou Apache Nutch (de mémoire, on peut indexer du local).

--
Guillaume

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.