Journal Récupération de données sur système de fichier détruit

Posté par  .
Étiquettes : aucune
0
28
juil.
2004
Salut à tous,

Foremost est un logiciel de l'US Air Force sympathique quand il s'agit de récupérer des données et que le système de fichier est définitivement irrécupérable.

Il se base sur les headers et les footers, ce qui permet de récupérer les fichiers de certains type du moment qu'ils sont contigues. C'est quelque peu limitatif mais il est plutôt difficile de faire mieux quand la structuration s'est envolée...

L'URL : http://foremost.sourceforge.net/(...)

Si votre système de fichier n'est pas tout à fait mort vous pouvez préférer quelque chose comme Autopsy ( http://www.sleuthkit.org/autopsy/index.php(...) ), front end web based aux outils SleuthKit ( http://www.sleuthkit.org/sleuthkit/index.php(...) )

Enfin, une fois que vous avez récupérez quelques 100000 fichiers voir plus, un peu de ménage ne fait pas de mal (surtout quand leur nom ont disparus)

Le script suivant (à adapter) permet d'éliminer les doublons en ordre O(n.log(n)) pour peu que vous ayez un système de fichier un tant soit peu moderne :


for thousand in `seq -f %05g 0 126` ; do
for each in ${thousand}/* ; do
HASH=`md5sum $each | awk '{print $1}'`
if [ -e hashs/$HASH ] ; then
echo $each '('`cat hashs/$HASH`')' >> doublons
echo --- DOUBLONS: $each '('`cat hashs/$HASH`')' $HASH
rm $each
else
echo $each > hashs/$HASH
echo +++ ORIGINAL: $each $HASH
fi
done
done


Ce script m'a permis en quelques minutes de virer 2/3 des fichiers qui n'étaient que des doublons d'autres.

(note : j'avais des répertoire 00000 à 00126 contenant chacun 1000 fichiers, pour que les 'ls' ne rament pas trop, donc ce script considère une structure comme ceci)
  • # Script dangereux ?

    Posté par  . Évalué à 2.

    Je me demande si ton script n'est pas un peu dangereux : n'est-il pas normal qu'il y ait des doublons ? Je pense par exemple aux fichiers de conf générés automatiquement pour chaque utilisateur au lancement d'un soft quelconque, et placés dans son home directory. Si les utilisateurs ne modifient pas ces fichiers de conf (ce qui arrive forcément), ceux-ci sont identiques, mais il ne faut pas les supprimer. Autre cas possible où les doublons sont "normaux" : un répertoire de backup de fichiers.
    Je pense à deux solutions possibles :
    1) ne pas lancer ce script à partir de '/', mais des home directory
    2) ne pas se satisfaire d'un md5sum pour déclarer que 2 fichiers sont des doublons, mais vérifier également l'utilisateur, le groupe et la date de dernière modif.
    Ou bien ai-je mal compris ton script ?
    • [^] # Re: Script dangereux ?

      Posté par  . Évalué à 3.

      L'auteur du script confirmera si j'ai bien compris, mais en lisant le texte du journal, ce script a un but bien particulier: repérer les doublons parmi 10 000 fichiers récupérés après un crash complet du disque et du système de fichier. Je pense qu'à ce moment là, les fichiers types de configuration des utilisateurs, on veut s'en débarasser pour se concentrer sur les données importantes des utilisateurs.
      • [^] # Re: Script dangereux ?

        Posté par  . Évalué à 1.

        Je me suis demandé effectivement si ce script était à utiliser uniquement dans le cas d'un crash ou en général, mais comme l'auteur annonce qu'il sert à avoir un système de fichier un tant soit peu moderne, j'ai pensé que le script était présenté comme utile en toutes circonstances et j'ai préféré formuler mes petites questions. Peut-être me trompé-je...
    • [^] # Re: Script dangereux ?

      Posté par  . Évalué à 3.

      Je crois que ce que tu as mal compris: c'est le but de ce script.
      Il s'utilise quand tout a été détruit et que l'on a réussi à récupérer en vrac quelques contenus de fichiers (sans les noms et sans les chemins).
      Je crois que dans ce cas là, on ne se pose plus trop la question de reconstruire le système. On recherche plus les données importantes que l'on pourrait peur-être retrouvé. Le script est donc très bien puisqu'il permet de faire un premier ménage avant qu'un humain ne passe ensuite plusieurs heures pour retrouver les bons fichiers.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.