Allan Simon a écrit 94 commentaires

  • [^] # Re: À propos de la Chine

    Posté par  (site web personnel) . En réponse au journal OpenStreetMap, une idée comme ça. Évalué à 2.

    Bon alors je suis bon pour le peloton d'execution avec les cartes que je fais de mon coin.

    Sinon le service de map de Baidu semble être très très précis (il y a par exemple dedans les chemins pietons de l'intérieur de l'université où j'enseigne, après je n'ai pas vérifié s'il y avait un decalage entre mes amis et leurs applis chinoises baidu map et moi avec mon relevé sur OSM)

    Pour rajouter ses propres points, exact, pas bête, je sais qu'une des applis OSM que j'utilise (OSMand) me permette de faire ça (j'ai fait ça lorsque je me perds en ville en flânant pour trouver des restaurants que j'ai déjà testé et approuvé)

  • [^] # Re: Jolie nimage

    Posté par  (site web personnel) . En réponse au journal Le coup final de l´esclavage des peuples, par l’endettement. Évalué à 2.

    C’est la reproduction d’une sorte de marbre sur lequel est écrit l’article 35 de la déclaration des droits de l’homme et du citoyen de 1789 :

    Cette article est dans la constitution de 1793 si je ne m'abuse et non dans celle de 1789

    source

  • [^] # Re: Petites remarques

    Posté par  (site web personnel) . En réponse au journal Apprendre à lire et taper en chinois avec des outils libres. Évalué à 1.

    si l'erreur est possible aussi en Chinois, même en tapant

    par exemple pour acquiescer, normalement c'est "嗯" mais beaucoup de gens tapent 恩

    sinon en faute d'orthographe, si il y a parfois à l'écrit, à la main ou à la machine, les fautes 的/得/地 (je l'accorde avec wubi, que je ne connais que de principe, la faute ne doit pas etre possible) qui se tapent tous "de" en pinyin, et qui sont des mots de liaisons, et les jeunes chinois ont vraiment du mal avec

  • [^] # Re: Autre segmenteur

    Posté par  (site web personnel) . En réponse au journal Apprendre à lire et taper en chinois avec des outils libres. Évalué à 1.

    En fait à la base je l'ai fait car j'utilisais adso pour tatoeba, mais adso à tendance à faire des segfault, à avoir des problèmes d'encodages, des bugs un peu chelou, au début je lui faisais des rapports de bugs, mais depuis quelque temps il n'a plus trop l'air de répondre, et vu que j'avais besoin d'étendre adso pour avoir une segmentation du shanghaien et du cantonnais (et à présent chinois classique), et que le code d'adso fait vraiment peur, j'ai du coup repris la base de donnée (qui est sous cc-by-sa), nettoyé un peu, et reconstruit un logiciel aussi

    Pour l'instant le fonctionnement est naïf à l'extrême

    On segmente sur la ponctuation

    ensuite si on a une phrase ABCDEFGHIJK il va, partant de A, trouver la chaîne la plus longue qu'il a dans sa base de donnée.

    admettons que la plus longue soit ABCDE (note: il n'y a pas besoin que ABC soit aussi dans la base, en gros il va tester A , AB , ABC etc. jusqu'à A...K, vu que les segments sont relativement court, surtout dans tatoeba, c'est "soutenable", NOTE à moi-même, on pourrait rendre le truc un peu plus malin en arrêtant de chercher une fois qu'il a atteint la plus grande chaine de la base de donnée)

    il recommence mais cette fois en partant de F etc.

    Amélioration possible

    plutôt que de faire une segmentation gauche droite, il faudrait plutôt tester tous les segments possibles, avec des pondérations (qu'on pourrait obtenir en faisant une validation des segmentations faites dans tatoeba), car pour l'instant il y a quelque cas pathologique où il faudrait faire un découpage A BC CD mais l'algo fait un découpage A BCD E alors que E n'est jamais tout seul (après il y a des cas ou le découpage change le sens de la phrase,voir cette article (en chinois) rajouté des "他妈的" (putain de) pour diminuer l'ambiguïté des phrases chinoises)

    Après c'est moins une question de segmentation que de "romanisation", mais pour l'instant l'algo a du mal avec les caractères qui peuvent être utilisé de manière isolé ET ayant plusieurs prononciation possible par exemple 得 qui peut être "de" ou "dei" , là il faudrait une analyze un peu plus poussé, en ayant la classe grammaticale possible des membres à gauche et à droite + quelques schémas de phrases.

    Donc voilà tu l'auras compris, ce logiciel fait le café, transformation en pinyin, conversion traditionnel/simplifié etc. et il est adaptable à n'importe quel dialecte chinois, si on lui fourni un fichier de donnée adéquat.

    Par contre vu que je m'en sers en tant que service web et qu'il est optimisé dans ce sens. il charge d'abord tout en mémoire, ce qui pour un usage unique est un peu "lourd"

    J'essaie de documenter cela un peu et de pousser ça sur github ce weekend

  • [^] # Re: CEDICT

    Posté par  (site web personnel) . En réponse au journal Apprendre à lire et taper en chinois avec des outils libres. Évalué à 1.

    (d'ailleurs je voulais dire CFdict, l'équivalent français de CEdict, qui est maintenant aussi "gros" que CEdict )

    J'avoue ne pas avoir vu de "perte" en qualité en inversant, évidemment dans la liste de mot, il y en a toujours qui sont reservé à des cas très particulier, des sens un peu métaphorique etc., mais c'est déjà le cas dans le sens "premier", même si je suis d'accord que ça ne vaut pas un dictionnaire dans le sens inverse fais explicitement dans ce sens.

    De toutes manières pour le chinois, souvent il faut de toute manière couplé la recherche dans le dictionnaire, avec une recherche de phrase (recherche google (mais faut déjà avoir un niveau suffisant pour comprendre le reste des phrases), tatoeba, le dico en ligne de bing est pas mal ausi même si pas libre, surtout car il aligne les phrases chinoises/anglaises)

  • [^] # Re: CEDICT

    Posté par  (site web personnel) . En réponse au journal Apprendre à lire et taper en chinois avec des outils libres. Évalué à 2.

    D'ailleurs je l'ai "inversé", pour avoir dans stardict un dico libre français->chinois / chinois français, encore une fois, il faut que je trouve le temps de mettre le script quelque part.

  • # Autre segmenteur

    Posté par  (site web personnel) . En réponse au journal Apprendre à lire et taper en chinois avec des outils libres. Évalué à 2.

    Note à moi meme: penser à mettre le code du segmenteur de Tatoeba sur github.

  • [^] # Re: Hey cool

    Posté par  (site web personnel) . En réponse au journal Humble Frozen Synapse Bundle. Évalué à 1.

    Pas de version de démo, tu veux dire cela http://www.fileplanet.com/221545/220000/fileinfo/Frozen-Synapse-Demo ?

  • [^] # Re: Eo fail

    Posté par  (site web personnel) . En réponse à la dépêche GeneticInvasion : des algorithmes évolutionnaires pour un meilleur jeu. Évalué à 3.

    Spring RTS (également libre) a certaine AI qui apprennent d'une partie a une autre, certaines gardent des cartes en niveau de gris selon là ou il y a eu des impacts de tirs. Cela fait deux trois que je n'y ai pas joué mais je me souviens encore avoir été surpris de voir au bout de la deuxième partie, l'ordinateur contourner ma ligne de défense habituelle (oui moi je n'apprends pas) et faire évolué la composition de ses escadrons.

  • # autres projets

    Posté par  (site web personnel) . En réponse à la dépêche WikiBabel - des wikicasts libres pour apprendre les langues. Évalué à 8.

    Très bonne idée, reste plus qu'à espérer que ça va s'étoffer.

    Pour les collaborations avec d'autres projets, faisant parti du projet Tatoeba (http://tatoeba.org ) il doit y avoir moyen de bosser ensemble sur le contenu textuel, on doit avoir la plupart des phrases basiques dans une bonne soixantaine de langue, et idem en ne se focalisant pas sur des couples de langues, et pour celles qui manquent, ça s'ajoute :p . Après le seul petit souci c'est la différence de licence (CC-By pour tatoeba), ce qui à ma compréhension de la chose (corrigez-moi si je me trompe) permet d'utiliser le contenu de tatoeba dans wikibabel mais pas l'inverse (vu qu'on n'oblige pas le partage à l'identique)
  • [^] # Re: swac tools, projet shtooka

    Posté par  (site web personnel) . En réponse au journal Forvo: faut-il contribuer?. Évalué à 3.

    Je me réponds pour dire que l'université chinoise ou je suis me permets d'utiliser leur laboratoire de langue, où ils ont vraiment du matériel pro (micro statique, salle de mixage, salle d'enregistrement avec moins de 20dB de bruit de fond). Donc delta mon emploi du temps / le leur, à présent je peux enregistrer des phrases / mots français avec une qualité d'écoute parfaite :)

    Ils ont bien aimé swac-recorder d'ailleurs, et m'ont dit qu'ils l'utiliseraient sûrement à l'avenir pour leurs propres besoin, j'essaierai de négocier pour récupérer les enregistrements qu'eux font.

    comme quoi suffit juste de demander
  • [^] # Re: Contribue aux projets Wikimedia

    Posté par  (site web personnel) . En réponse au journal Forvo: faut-il contribuer?. Évalué à 3.

    http://swac-collections.org/download.php il y a une partie licence associée à chaque paquet.
    la licence n'est pas obligatoirement la même d'un paquet à un autre, mais c'est toujours une licence libre (CC-by ou cc-by-sa ou autre), après c'est au bon vouloir de la personne qui a enregistré.
  • [^] # Re: swac tools, projet shtooka

    Posté par  (site web personnel) . En réponse au journal Forvo: faut-il contribuer?. Évalué à 5.

    à terme l'ensemble des audios de tatoeba (je suis un des admins et la voix française), seront disponible sur swac-collection vu que c'est grâce à eux et aux matériels qu'ils nous ont prêté qu'on peut fournir des audios. Comme ça il y aura un endroit où "tout pomper" (et sur swac collection on peut voir les "métas" des audios, choses que pour des questions d'ergonomies on n'affiche sur tatoeba), c'est juste que l'admin de swac-collection n'a pas encore eu le temps de packager mes audios (au besoin je peux héberger en attendant un tar de tous les audios)

    ah oui les audios sont sous CC-BY (comme les phrases), donc mangez-en

    et normalement l'université où j'enseigne actuellement devrait me fournir incessamment sous pneu du matériel pour enregistrer, donc je devrais être en mesure de fournir plus.
  • # swac tools, projet shtooka

    Posté par  (site web personnel) . En réponse au journal Forvo: faut-il contribuer?. Évalué à 5.

    Pour les outils, il y a le swac recorder
    http://shtooka.net/soft/shtooka_recorder/en/
    un petit tuto (en anglais ici)
    http://www.youtube.com/watch?v=AcJoLBjUOaY

    par contre il est windows-only et ne vire pas le bruit de son, mais pour connaitre les gens du projet, il me semble que l'un d'eux travaillait sur une nouvelle version, portable, du code, donc peut-être voir avec eux où ça en est etc.

    et l'ensemble des collections qu'ils ont enregistrés sont disponibles ici
    http://swac-collections.org/

    Après il est vrai que le projet en lui même porte une attention très particulière sur la qualités des audios (rien à voir avec Forvo, je vous laisse écouter), et que donc ils n'acceptent pas n'importe quels enregistrements, mais rien n'empêche de créer un petit frère à ce site plus orienté "quantité que qualité".

    mes 2 centimes
  • [^] # Re: Orthographe

    Posté par  (site web personnel) . En réponse à la dépêche Tatoeba.org, base de données de phrases d'exemple. Évalué à 1.

    Non c'est une bonne idée, après je ne pense pas que ce sera très difficile à implémenter dans le liste (itérer sur la liste avec le moteur de recherche et voir ceux qui retourne 0 résultat, et après faire une page, pour ceux en mal d'inspiration pour ajouter de nouvelles phrases, "mots n'étant présent dans aucune phrase" )
    Par contre au vu de la longue liste de chose qu'il nous reste à faire, je ne sais pas quand cela sera fait, mais en tout cas ce sera fait un jour, merci pour l'idée :)
  • [^] # Re: Export vers Anki

    Posté par  (site web personnel) . En réponse à la dépêche Tatoeba.org, base de données de phrases d'exemple. Évalué à 2.

    pour l'instant la fonctionnalité tel que tu l'as décrite n'existe pas

    mais
    l'export vers anki est possible à partir des listes,
    exemple
    http://tatoeba.org/fre/sentences_lists/show/1/deu
    ensuite bouton download, et on se laisse guider

    donc après, si tu demandes gentiment, on peut te générer une liste (en attendant d'avoir la fonction automatique qui va bien), de toutes les phrases en X ayant une traduction en Y à un instant T, et tu n'auras plus qu'à l'exporter au format anki comme n'importe quelle liste sur tatoeba

    voila :)
  • [^] # Re: Orthographe

    Posté par  (site web personnel) . En réponse à la dépêche Tatoeba.org, base de données de phrases d'exemple. Évalué à 2.

    En fait il est possible d'activer la correction orthographique dans les inputs en faisant (dans firefox)
    about:config

    chercher la valeur

    layout.spellcheckDefault , et passer la valeur à deux, et tout de suite après, la correction orthographique sera disponible dans les champs input text

    mais je plussoie que nous devrions les remplacer par un textarea, vu que tout le monde ne connait pas cette petite astuce (d'ailleurs @trang, peut être mettre ce petit tips sur notre blog)
  • [^] # Re: Comment son gérées les erreurs ?

    Posté par  (site web personnel) . En réponse à la dépêche Tatoeba.org, base de données de phrases d'exemple. Évalué à 7.

    Très bonne remarque, je vois ce que tu veux dire ^^

    deux cas de figure :

    la phrase a été mal traduite et est fausse en elle même, (faute de français etc.) dans ce cas il suffit juste de "bien" retraduire la phrase

    la phrase est correct en elle même mais n'est pas une traduction, et visiblement d'autre personne ont traduit cette phrase
    du coup on se retrouve avec par exemple

    Phrase "pivot" I eat an apple
    Traduction directe : 我在吃苹果 (je mange une pomme, en chinois, donc bonne traduction)
    Traduction directe: Le ciel est bleu
    Traduction indirecte : Sky is blue


    Dès lors nous avons un mécanisme qui nous permet de "délier" des phrases
    et dans ce cas, il suffit juste de mettre un commentaire sur la phrase française "les traductions ne collent pas/translation doesn't match), et un modérateur, ou un utilisateur ayant les droits, déliera les "le ciel est bleu" de "I eat an apple"
    et le probleme sera réglé, sans avoir besoin de modifier les phrases, qui en elles mêmes étaient toutes bonnes

    voila, j'espère que cela répond à ta question
  • [^] # Re: Amusant à petite dose

    Posté par  (site web personnel) . En réponse à la dépêche Tatoeba.org, base de données de phrases d'exemple. Évalué à 3.

    oui, c'est vrai, plusieurs fonctionnalités, comme les tags, l'affinage de la recherche, ont été ajoutées il y a peu, et l'interface a encore besoin d'être adaptée pour les trouver facilement.

    Pour l'affinage de la recherche, pour l'instant on peut y accéder en cliquant sur un drapeau dans le petit carré "nombre de phrase par langue", cela amène à la page listant toutes les phrases dans la langue sélectionnée, avec possibilité de filtrage (voir uniquement les phrases ayant un audio etc.)
    par exemple http://tatoeba.org/fre/sentences/show_all_in/fra/und/eng/ind(...)
    toutes les phrases françaises n'ayant pas de traductions directes en français (avec toutes les traductions d'affichés)

    Sinon j'ai oublié de l'ajouter dans la dépêche, mais le blog du projet (en anglais) où sont mis nos "changelogs" http://blog.tatoeba.org/

    En tout cas merci pour les retours, et un plus grand merci encore à ceux qui ont ajouté des phrases.

    PS: encore oublié de le préciser mais on a un canal #tatoeba sur freenode