Origine
J'ai un problème avec les langues étrangères et si j'arrive à lire l'anglais sans trop de problème à force de lire des man-pages, je ne comprend presque rien en écoutant. On me conseille de regarder des films en anglais, mais quand je regarde un film sans les sous-titres, je ne comprend habituellement qu'un seul mot dans chaque phrase (souvent le dernier) et avec les sous-titres, je les lis et comprend sans écouter. Bref, ça ne marche pas avec moi parce que je suis trop nul pour amorcer le cercle vertueux de la compréhension orale. Après une petite étude de l'existant sous Linux, j'ai conclus que si je voulais un logiciel pour améliorer mon anglais, disponible sous Linux et libre, il fallait que je le crée moi-même.
Ainsi naquit Perroquet.
Tous les détails dans la seconde partie de la dépêche. Principe
Le principe de Perroquet est de créer des exercices de compréhension à partir d'une vidéo en anglais (mais ça marche aussi avec un fichier son) et un fichier de sous-titres lui aussi en anglais. À partir des timecodes des fichiers de sous-titres, le logiciel fait écouter de courtes séquences du film en présentant un texte à trous que l'utilisateur doit compléter pour continuer le visionnage. L'utilisateur peut répéter chaque séquence autant de fois qu'il est nécessaire pour trouver les réponses ou pour abandonner et demander la correction. En effet, Perroquet peut aider les plus nuls en complétant partiellement puis totalement certains mots ou en affichant la traduction française si on a pris le soin de fournir en plus un sous-titre français. On peut aussi chercher un mot dans la liste des mots à trouver dans tout l'exercice (bien sûr, le filtre prend des expressions régulières).
Voici pour le principe de Perroquet. Certains diront que ça doit être très long voir un film avec ce système, mais il ne faut pas perdre de vu qu'il s'agit d'un logiciel éducatif et que le but premier est d'apprendre une autre langue. Perroquet n'est actuellement « compatible » que pour apprendre l'anglais mais il suffira de peu pour permettre de travailler avec d'autres langues.
Première publication
Comme Perroquet ne plantait plus sur les 4 postes différents auxquels j'ai eu accès et avec mes 3 fichiers vidéos de test, je me suis dis qu'il était temps d'en faire profiter aux autres. Voici donc la première version de Perroquet, la symbolique 1.0.0, distribuée sous GPL v3.
Le site officiel propose une explication peut-être plus claire du logiciel, une capture d'écran (j'ai abandonné la capture vidéo, il faudra peut être faire un journal concernant le son sous Linux), une documentation et des informations pour le téléchargement et l'installation. Une archive contenant une version très compressée d'Elephant Dream avec les sous-titres vous attend ici pour tester rapidement.
Technologies utilisées
Pour développer, j'ai essayer de récupérer le maximum de choses, j'utilise donc :
- Python ;
- Gstreamer pour la lecture vidéo ;
- Gtk via pygtk via gtkbuider via Glade ;
- Gettext et Launchpad pour les traductions (il permet de récupérer les pot et de commiter automatiquement les po issues des traductions fait sur Launchpad) ;
La partie qui m'a posé le plus de problème a été la mise en place des autotools afin qu'un ./configure, make, make install (ou dist) mette tout (icône, code python, fichier de traduction...) automatiquement au bon endroit. Tout ceci afin que la création de paquet devienne un jeu d'enfant (je n'ai pas encore trouvé comment ne pas avoir à faire de make install pour tester mes modifications d'UI maintenant que le fichier se trouve dans /usr/). N'ayant pas trouvé de documentation concluante sur les autotools et python, j'ai dû en comprendre le fonctionnement grâce à beaucoup d'apt-get source.
Légalités
Les DVD sapucépalibre, mais si il n'y avait que ça...
J'ai eu beaucoup d'hésitations avant de faire ce logiciel à cause de la légalités des « divx ». Au départ, je pensais lire directement les DVD pour y trouver des films et leur sous-titres. Malheureusement l'organisation d'un DVD semble être faite pour dissuader quiconque de les lire (mon logiciel aurait dû trouver les pistes vidéos, audio et les bon sous-titres et lancer tout ça, sans parler de la précision de la recherche temporelle sur un DVD...). De plus les sous-titres sont stockés sous forme d'images, et leur conversion en un format texte exploitable pour mes exercices passe par des systèmes de reconnaissance de caractères à paramétrer à la main pour chaque DVD. L'extraction des sous-titres d'un DVD prend plusieurs heures.
D'un autre coté, on a les « divx » qui se lisent très simplement en quelques lignes avec Gstreamer et les fichier *.srt qui se parsent en quelques lignes. Malheureusement, je n'ai pas trouvé d'informations claires sur la légalité de la possession et de la récupération d'un « divx » dont on détient un DVD. Savez-vous ce qu'il en est ?
Maintenant, que je connais par cœur Elephant Dream, j'espère qu'il y aura beaucoup de dialogues dans Durian, parce que Big Buck Bunny n'aura pas beaucoup aidé mon projet.
Conclusion
Je remercie Yekcim, que je connais en tant que grand chef graphiste de Wormux, pour avoir respecté à la lettre la GPL pour ses images en fournissant les sources SVG (ce qui est rare). Grâce à cela, j'ai modifié le « Thunderbird » de Wormux pour faire une icône présentable en quelques minutes sans avoir utilisé Inkscape auparavant.
Donc, maintenant, j'attends les retours de bugs, les patchs, le port KDE et des liens vers des films libres de droit pour pourvoir s'entrainer en tout légalité :)
Aller plus loin
- Journal à l'origine de la dépêche (50 clics)
- Accueil du site de Perroquet (276 clics)
- Capture d'écran (82 clics)
- Documentation (89 clics)
- Demo Elephant Dream (83 clics)
# Debian Lenny
Posté par Michael Bonfils . Évalué à 2.
Je viens de télécharger sur mon PC et ça ne marche (j'ai ouvert le bug sur LaunchPad), au besoin je reste à disposition pour aider à résoudre ce problème :)
[^] # Re: Debian Lenny
Posté par Philippe Martin . Évalué à 1.
Bravo pour cette initiative !
# Comme vidéo: The night of the living death
Posté par zzmaxfr . Évalué à 2.
Suite à un défaut d'enregistrement du copyright du film à sa sortie, il se trouve actuellement dans le domaine public. Il est donc librement téléchargeable sur internet :
Les sous titres existent en français et en anglais!
[^] # Re: Comme vidéo: The night of the living death
Posté par Mika Cousin (site web personnel) . Évalué à 2.
Film de qualité et avec beaucoup de dialogues et de chansons (par contre une partie avec l'accent indien).
http://www.sitasingstheblues.com/ pour les détails.
[^] # Re: Comme vidéo: The night of the living death
Posté par brazz . Évalué à 1.
En dehors de ça, je me demande s'il n'y aurait pas moyen de faire de la sorte, un apprentissage du breton. En fait il faudrait film et sous titres, je vais essayer de voir.
En tout cas pour l'anglais ça marche bien.
[^] # Re: Comme vidéo: The night of the living death
Posté par BAud (site web personnel) . Évalué à 2.
n'oublie pas de prendre le clavier CH'WERTY : http://www.drouizig.org/galleg/clavier/clavier-Presentationc(...)
ça serait pas mal un film financé par le conseil régional ou d'une ville bretonne, diffusé sous licence libre avec les sous-titres ;-) (même si c'est un documentaire...).
# Et Pour les matroska ?
Posté par Rémi Pannequin . Évalué à 4.
Cependant, ma petite demande de fonctionnalité, pour une version ultérieure : pouvoir récupérer les flux de sous-titres directement depuis le fichier de média, si celui-ci en comporte. Typiquement, un dvd sauvegardé avec le conteneur mkv contient une ou plusieurs pistes de sous-titres...
[^] # Re: Et Pour les matroska ?
Posté par Brioche4012 (site web personnel) . Évalué à 3.
# Alternatives aux autotools
Posté par Sébastien Wilmet . Évalué à 3.
Une bonne doc pour commencer, mais c'est pour le langage C :
[http://www.unixgarden.com/index.php/programmation/cmake -la-releve-dans-la-construction-de-projets]
Il y a SCons qui peut être intéressant, aussi.
[^] # Re: Alternatives aux autotools
Posté par sifu . Évalué à 1.
# Solution
Posté par J Avd . Évalué à 1.
Ma solution : Mettre les sous titre en anglais! Je trouve que ça forme bien l'oreille, surtout quand le texte est un peu différent des phrases prononcées.
"Gentoo" is an ancient african word, meaning "Read the F*ckin' Manual". "Gentoo" also means "I am what I am because you all are freaky n3rdz"
[^] # Re: Solution
Posté par aedrin . Évalué à 3.
et avec les sous-titres, je les lis et comprend sans écouter.
... et je suis assez d'accord avec lui.
[^] # Re: Solution
Posté par zyphos . Évalué à 1.
Il me semble que le cerveau enregistre quand même.
Personnellement, j'ai fait deux années intensives au cinéma (tous les mercredi). Tout en Version Originale (anglais la plupart du temps).
Je me suis fait avoir avec Night Watch, un film russe, mais ça, c'est une autre histoire. ;)
[^] # Re: Solution
Posté par Dr BG . Évalué à 2.
[^] # Re: Solution
Posté par Zarmakuizz (site web personnel) . Évalué à 1.
En ce qui me concerne, j'ai exactement ce problème (je dois regarder le même film en sous-titré trois-quatre fois pour arriver à un résultat), et j'ai quelques films tipiakés pour tester.
Quoique Supersize Me a l'air ouvert au public, quelques sites contenant des documentaires en streaming l'affichent... je connais pas son statut exact, je dois être une buse pour chercher, mais tout de même.
Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
# Génial
Posté par sylvain cherrier (site web personnel) . Évalué à 2.
et justement, cela permet de bien mesurer sa capacité à comprendre..
superbe boulot..
install sans problème sur ma ubuntu 64 bits...
c'est parfait.
[^] # Re: Génial
Posté par Zarmakuizz (site web personnel) . Évalué à 1.
Et la section des bugs s'est vite remplie sur launchpad depuis cette news !
Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
# Numéro de version
Posté par Sébastien Wilmet . Évalué à 2.
Enfin bon, chaque développeur est libre de choisir la numérotation des versions, y en a bien qui choisissent de les faire converger vers PI...
Sinon, il n'y a pas une roadmap quelque part ? Pour voir si des améliorations possibles sont prévues.
En tout cas bravo pour le logiciel, je vais pouvoir m'entrainer un peu avant d'aller au FOSDEM ;)
[^] # Re: Numéro de version
Posté par Frédéric Bertolus (site web personnel) . Évalué à 10.
Si j'avais fais une 0.1, ça serait dans l'optique d'une 1.0. Je n'ai pas d'autre optique de des petits amélioration qui feront de 1.1, 1.2, etc
Voilà.
# Excellente idée...
Posté par Alek_Lyon . Évalué à 4.
Encore une fois, cela montre l'utilité d'avoir des divx + srt, par rapport à un système du genre BlueRay ou DVD, où tout est fait pour décourager l'utilisateur d'en faire un autre usage que celui qui est prévu. D'ailleurs, je ne serais pas surpris qu'utiliser un DVD ou BlueRay avec ce logiciel ne rentre pas dans le cadre de la licence.
Je ne serais pas non plus étonné que ce logiciel mette la puce à l'oreille à des éditeurs propriétaires et à ceux qui détiennent les droits sur des films ou des séries. C'est vraiment chouette de l'avoir fait en libre du coup. :-)
Alek.
[^] # Re: Excellente idée...
Posté par aedrin . Évalué à 2.
si tu penses à l'anglais en sortant cette phrase, pense qu'il te reste encore quelques langues à travailler : l'espagnol, l'allemand, l'italien, le chinois, etc.
Comme le dit l'auteur, rien n'empêche techniquement de spécifier la langue "source" et la langue "cible" pour progresser.
# Debian & python2.6
Posté par __o . Évalué à 1.
Sinon l'idée est vraiment géniale :)
[^] # Re: Debian & python2.6
Posté par koxinga . Évalué à 1.
Je n'ai pas vérifié (encore) que le logiciel fonctionnait comme prévu après le lancement, mais si c'est le seul endroit qui se sert des fonctionnalités de 2.6, ça doit être possible de le rendre utilisable avec python 2.5 non ?
[^] # Re: Debian & python2.6
Posté par Frédéric Bertolus (site web personnel) . Évalué à 2.
Il y a un moyen de tester facilement en python 2.5 sous Ubuntu sans virer python 2.6 ?
[^] # Re: Debian & python2.6
Posté par __o . Évalué à 1.
Normalement les deux versions de python peuvent cohabiter (les paquets python2.5 et python2.6 peuvent être installés en même temps); il suffit ensuite d'appeler python2.5 ou python2.6 (/usr/bin/python est un lien symbolique).
# Librairie manquante ?
Posté par xamax . Évalué à 1.
Il manquait la librairie gst :/
Par contre je ne peut pas lire mes divx. Quelle lib installer pour que mes divx soit lu ? Quelqu'un sait ?
PS : j'ai installer les libs suivantes : gstreamer0.10-ffmpeg gstreamer0.10-fluendo-mp3 gstreamer0.10-pitfdll gstreamer0.10-sdl gstreamer0.10-plugins-ugly gstreamer0.10-plugins-ugly-multiverse gstreamer0.10-plugins-bad gstreamer0.10-plugins-bad-multiverse mpg321
(installé d'après le wiki)
[^] # Re: Librairie manquante ?
Posté par Zarmakuizz (site web personnel) . Évalué à 1.
Au-dessus quelqu'un a indiqué la manip à faire sous Debian, tu as regardé ?
Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
[^] # Re: Librairie manquante ?
Posté par xamax . Évalué à 1.
J'ai réglé le problème du son, et redémarré. Depuis ça marche :)
[du coup j'ai pas vraiment compris pourquoi ça marchait pas :/]
# pour bien comprendre l'anglais
Posté par marahi . Évalué à 4.
Bon c'est peut-être hors sujet mais j'ai un petit conseil pour ceux qui veulent comprendre l'anglais. Le problème de la langue de Shakespeare est double : d'une part le vocabulaire est très large et d'autre part l'anglais est une langue dite accentuée (a stressed language), un mot ne se prononce pas de la même façon selon qu'il soit mot ou verbe (même avec la même graphie), en début , en milieu ou en fin de phrase. Mais il y a (heureusement) des règles. Il y a un livre English pronunciation in use qui est très facile à lire et qui explique ces règles aux non-anglophones, en plus il y a un CD avec pour travailler sa compréhension et sa prononciation. Les morceaux sont, certes, en anglais britannique mais le livre explique aussi les subtilités de l'anglais américain.
Après l'avoir lu on comprend bien plus facilement (en tout cas bien moins difficilement) les anglophones natifs.
Voilà, c'était juste une parenthèse.
[^] # Re: pour bien comprendre l'anglais
Posté par Mat (site web personnel) . Évalué à 1.
Je ne suis loin d'être un ''angliciste distingué'', merci de me corriger si vous voyez des erreurs!
* L'anglais est une langue non phonétique : on ne peut savoir prononcer un mot sans l'avoir déjà entendu. il existe des règles (qu'on trouvera dans certains livres), mais avec tellement d'exceptions que ça ne change pas grand chose au problème. Il est donc quasi inutile de chercher à faire une association de son avec une graphie connu (voir la série ''ough'' par ex.).
Notamment 2 mots écrits de la même façon peuvent très bien se prononcer différemment.
* l'anglais est une langue à accent tonique (word stress), or cet accent tonique change la prononciation. Seul souci : il n'y a quasiment aucune règle pour le placer ou disons que son placement est chaotique. Soyez attentif à l'accent tonique quand vous écoutez une vidéo, ça peut faire la différence entre être compris et ne pas être compris.
Les francophones sont souvent peu sensibles à l'accent tonique, car il est peu prononcé en français (le français possède également moins de phonèmes)
Ne perdez donc pas de temps à essayer de comprendre un mot avec son écriture. C'est un peu comme les verbes irréguliers, il faut les apprendre.
* D'autres difficultés s'ajoutent encore à celles purement phonétiques : l'anglais est une langue contextuelle et à double origine (germanique avec un vocabulaire latinisé). Quelle différence entre freedom et liberty? Ne perdez pas de temps à comprendre pourquoi il ya 2 mots.
La simplification de la grammaire, présentée comme un atout de l'anglais, devient vite un handicap par l'absence de règles claires quand on veut progresser ''l'anglais est la langue la plus facile à mal parler'' Cela a en outre a mené à une quantité impressionnante d'expressions idiomatiques : inutile de chercher à les comprendre! Il faut les apprendre.
*les particules qui s'attachent aux verbes pour donner les ''phrasals verbs'' (il y en a plusieurs milliers) sont souvent présentées comme une des facilités de l'anglais, mais là encore aucune règle. Il faut les savoir.
*Le fait que le verbe puisse être identique au mot est aussi présenté comme une facilité. Mais là encore, aucune règle : parfois ça marche, parfois non, et il n'y a pas de règles (de causalité ou autre) entre le verbe et le mot. Il vaut donc mieux les apprendre.
# fonctionne pas
Posté par mart-e (site web personnel) . Évalué à 1.
j'ai compilé depuis les sources
dommage ça avait l'air bien
$ /usr/local/bin/perroquet
Traceback (most recent call last):
File "/usr/local/bin/perroquet", line 21, in
from Perroquet.perroquet import Perroquet
ImportError: No module named Perroquet.perroquet
[^] # Re: fonctionne pas
Posté par Zarmakuizz (site web personnel) . Évalué à 1.
Je viens de réinstaller et j'ai obtenu ça :
$ python3 /usr/bin/perroquet
Traceback (most recent call last):
File "/usr/bin/perroquet", line 21, in
from Perroquet.perroquet import Perroquet
ImportError: No module named Perroquet.perroquet
Le projet utilise Python2.6 pour l'instant.
Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
[^] # Re: fonctionne pas
Posté par Frédéric Bertolus (site web personnel) . Évalué à 2.
Peux tu vérifier que ce chemin est dans path python et que les sources y sont bien ?
[^] # Re: fonctionne pas
Posté par Sébastien Wilmet . Évalué à 2.
$ export PYTHONPATH=/usr/local/lib/python2.6/site-packages/
Après ça fonctionne.
Ce serait bien que le path soit réglé automatiquement lors de l'installation (paquet obligatoire ?), ou en tout cas l'indiquer dans le fichier README ou INSTALL.
# Excellente initiative !
Posté par Sharpshooter . Évalué à 1.
En tout cas je me suis tout à fait reconnu dans la présentation en début de News. :-)
[^] # Re: Excellente initiative !
Posté par Mat (site web personnel) . Évalué à 1.
Ensuite, comparer des pays dont la langue a une origine commune avec l'anglais est un biais. Je serais curieux de voir le niveau des suédois en espagnol comparé aux français.
Enfin, les français peuvent aujourd'hui avoir la VO s'ils le veulent (satellite, DVD...etc). Il ya juste qu'on leur propose le choix, ce qui me semble plus sain que d'imposer l'anglais.
# Mandriva
Posté par pamputt . Évalué à 1.
[^] # Re: Mandriva
Posté par pamputt . Évalué à 1.
[^] # Re: Mandriva
Posté par locnet . Évalué à 1.
Pas de paquetage nommé perroquet
Dan rpmdrake, il trouve bien le package, mais quand je demande son installation :
"Aucun package trouvé pour son installation, désolé."
[^] # Re: Mandriva
Posté par locnet . Évalué à 1.
Merci pour ce boulot.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.