Logiciel : Publication du projet Hachoir en version 1.0
Posté par Victor STINNER (page perso, ). Modéré le 13 juillet 2007.
Après un an et demi de développement, le projet Hachoir a abouti à une version 1.0 grâce à l'effort commun d'une trentaine de contributeurs. Ce projet est constitué d'une base de connaissance des 70 formats de fichiers les plus courants et d'une suite d'outils exploitant ces informations.
Hachoir est tolérant aux erreurs, ce qui permet de traiter des fichiers corrompus et/ou tronqués ; il est rapide parce qu'il ne lit que les informations nécessaires. Il est donc possible d'identifier le codec correspondant à un fichier vidéo dès que les premiers kilo-octets ont été téléchargés, ou d'accéder aux données stockées dans un fichier plus gros que la mémoire. Un cas d'utilisation est l'extraction des fichiers d'une archive (gzip, bz2, etc.) tronquée quand les outils standards refusent de la traiter.
De nombreux composants sont disponibles, notamment hachoir-metadata, dédié à l'extraction des méta-données (nom de l'auteur, durée d'une musique, taux de compression d'une image, etc) et servant d'alternative au programme file pour identifier le type d'un fichier; et hachoir-subfile, dédié à la récupération de fichiers depuis une partition disque corrompue ou une image de la mémoire.
Hachoir est tolérant aux erreurs, ce qui permet de traiter des fichiers corrompus et/ou tronqués ; il est rapide parce qu'il ne lit que les informations nécessaires. Il est donc possible d'identifier le codec correspondant à un fichier vidéo dès que les premiers kilo-octets ont été téléchargés, ou d'accéder aux données stockées dans un fichier plus gros que la mémoire. Un cas d'utilisation est l'extraction des fichiers d'une archive (gzip, bz2, etc.) tronquée quand les outils standards refusent de la traiter.
De nombreux composants sont disponibles, notamment hachoir-metadata, dédié à l'extraction des méta-données (nom de l'auteur, durée d'une musique, taux de compression d'une image, etc) et servant d'alternative au programme file pour identifier le type d'un fichier; et hachoir-subfile, dédié à la récupération de fichiers depuis une partition disque corrompue ou une image de la mémoire.
Hachoir.org (1823 hits)
Liste complète des formats supportés (807 hits)
Exemples d'extraction des méta-données (508 hits)
Captures d'écran de l'interface graphique wxWidgets (1157 hits)
> Lire la dépêche (9 commentaires, moyenne: 4,7).
Vous avez demandé le commentaire #850869.




Fichier Excel
Par curiosité, j'avais soumis à Hachoir un fichier Excel endommagé.
Il m'a indiqué être en présence d'un conteneur FAT avec tout un tas de blocs au contenu binaire.
Est-ce la vision qu'à Hachoir d'un objet OLE ?
Est-ce que mon fichier était trop endommagé pour être analysé correctement ?
Idéalement, je m'attendais à voir la structure du classeur, des modules de codes VBA, etc ...
Je rêve ou c'est moi qui ai loupé quelque chose ?
[^]Re: Fichier Excel
Je crois que... c'est bien une FAT (avec la fragmentation, les bouts supprimés récupérables...) !
Victor ?
[^]Re: Fichier Excel
Et dans les blocs FAT il n'y a pas moyen de "voir" des éléments du tableur ?
[^]Re: Fichier Excel
Le format OLE2 est utilisé par le format MSI (installeur Windows), les documents Microsoft Office, et peut-être d'autres. Actuellement, le parseur OLE2 ne sait que décoder la première couche de l'oignon : le système de fichier FAT. Il y a quelques informations qui sont décodées comme les métadonnées. Un patch de nneonneo est en attente, il permet de lire un peu plus profondément les documents PowerPoint.
Le format des documents Office est très complexe. J'ai du modifier Hachoir en profondeur pour pouvoir ouvrir ce genre de fichier. Maintenant, on peut toujours améliorer le parseur Hachoir pour le format OLE2.