Journal apprendre à lire et à dactylographier en chinois avec des outils libres

Posté par  . Licence CC By‑SA.
27
25
juil.
2012

Sommaire

Introduction

Cet article se donne pour but de présenter une mise à jour dans le domaine de l'apprentissage en autodidacte de la lecture et de la dactylographie du chinois par le biais d'outils libres. Il reprend une structure identique au premier, et se focalise sur les mises à jour significatives qui n'existaient pas encore , ou qui n'étaient pas encore portées à ma connaissance. Lorsqu'aucun changement majeur n'est intervenu, il sera fait un renvoi à l'article précédent.

Bien que certains domaines ne soient pas encore pleinement couverts par le libre, l'utilisation de logiciel libre dans un contexte d'apprentissage et de découverte du chinois devient de plus en plus abordable, les sources d'informations ainsi que les outils commencent à devenir matures et pleinement fonctionnels. Ce foisonnement nous amènera à rationaliser le système d'apprentissage lors de la mise sur pied effective du processus par le biais de critères distinctifs.

La première partie présentera les différents outils d'aide à l'apprentissage de la lecture, la seconde sera consacrée à la partie dactylographie (qui poursuit le double objectif de rendre durable la compétence de lecture et rapide la saisie du chinois au clavier ) et la dernière section à la mise en oeuvre concrète de cette suite de logiciels. À ce dernier stade, quelques observations préalables seront posées afin de fournir des critères d'évaluation pertinents face à la multitude des méthodes.

I. Lire le chinois

1.1 l'objectif : associer un sens à un idéogramme

1.1.1 les dictionnaires électroniques avec Firefox

Deux plug-ins sont en concurrence : Cantofish et Perapakun, et cela se comprend Cantofish est un fork de Perapakun.

Ils ne se différencient que par quelques détails qui peuvent néanmoins avoir toutes leurs importances.

Cantofish d'une part semble utiliser un dictionnaire plus fourni, et d'autre part , il permet d'enregistrer facilement dans un fichier en texte brut les mots ou groupes de mots qui nous semblent importants. Les options par défaut respectent le formatage Unix et le séparateur de champ et une Tabulation.

Perakun quant à lui se donne pour objectif de supporter d'autres langues asiatiques outre le chinois (japonais, coréen ). Son principal avantage réside dans le fait qu'il affiche les mots dans différentes couleurs en fonction de la tonalité de leur prononciation, une sorte de coloration syntaxique pour la phonétique.

L'inconvénient c'est qu'il ne comporte plus d'options d'enregistrement simple tel que Cantofish, par défaut Perapakun enregistre dans un menu qu'il affiche dans Firefox. Il peut exporter en txt, mais il est nécessaire de cocher au préalable les cases afin de sélectionner les mots à exporter, ce qui est moins rapide et plus fastidieux qu'un enregistrement automatique dans un fichier.

J'utilise les dictionnaires chinois anglais de Cantofish majoritairement, mais celui de Perapakun se vaut tout autant. J'ai aussi testé le dictionnaire chinois-français de Perapakun basé sur ( CFDIT) , la précision des traductions ne valent pas encore son homologue anglais. J'imagine que cela va en s'améliorant, à de rares exceptions près , je remarque en générale que les outils anglophones ont toujours une longueur d'avance.

1.1.1 les dictionnaires électroniques sans Firefox

Goldendict reste un très bon logiciel de gestion de dictionnaire, autant en ligne qu'hors ligne. L'usage que j'en ai est l'utilisation de la fonction scan. Celle-ci permet lorsqu'elle est activée d'avoir la même fonction que les dictionnaires rollover venant des plug-ins Firefox. La seule différence c'est qu'elle n'est pas limitée au web. Elle peut scanner n'importe quel champ texte. Cela élargit considérablement l'étendue de la traduction (notamment les fichiers gérer par d'autres logiciels qu'un navigateur). L'on peut dans l'option assigner une touche pour éviter que le scan ne s'active intempestivement (assez gênant lorsque l'on ne souhaite pas l'utiliser et que la fenêtre de traduction s'affiche comme un popup publicitaire). Je lui ai assigné la touche Windows , étant donné qu'aucune fonction ne lui était assignée sous GNU/Linux. L'ajout de dictionnaire en ligne ou hors-ligne reste identique (cfr. article precédent )

La base de données open source adsotrans, vient du projet popup chinese, qui est un autre dictionnaire rollover (non libre ) en greffon sous Firefox. Le projet principalement enregistre les mots dont les utilisateurs souhaitent garder la trace sur leur serveur. De sorte que la base de données adsotrans s'enrichit des listes des mots glannées par leurs usagers sur le net. Cela ajoute les néologismes venant de phénomène de la pop culture (notamment la cyberculture venant des netizens ) qui ne sont pas encore enregistrés dans les dictionnaires traditionnels. La dernière version a été releaser le 3 février 2012.

dans le tarball adso-v5.079.tar.gz

L'usage que j'en fais se situe principalement dans la constitution d'un champ sémantique spécialisé. Par exemple :

                   gnu@robby:~/Downloads$ cat adso.dat | grep "computer"



        上电脑 上電腦 [shang4  dian4nao3 ] /to use the computer/

        上电脑游戏 上電腦游戲 [shang4dian4  nao3 you2xi4 ] /to play computer games/

        个人电脑 個人電腦 [ge4ren2  dian4nao3 ] /personal computer/

        个人计算机 個人計算機 [ge5ren2ji4suan4ji1] /personal computer/

        人机交互 人機交互 [ren2ji1jiao1hu4] /human-computer interaction/

        低级语言 低級語言 [di1ji2yu3yan2] /low level computer language/

        低阶语言 低階語言 [di1jie1yu3yan2] /low level computer language/

Caractéristique : la version précédente datant du 16 aout 2010 comportait 186 973 entrées (disponible ici , la version en date du 3 février 2012 comporte 132 206 entrées. J'ignore la raison de cette diminution.

le script ajoutant le champ wubi86 devrait encore fonctionné et devrait donner le résultat suivant

一下 一下 [yi1xia4] /a little/ :g.gh.:

一下儿 一下兒 [yi1xia4r5] /a little bit/ :g.gh.qt.:

一下击鼓声 一下擊鼓聲 [yi1xia4ji1gu3sheng1] /dub/ :g.gh.fmk.fkuc.fnr.:

一下子 一下子 [yi1xia4zi5] /in a short while/ :g.gh.bb.:

一不做二不休  [] /if you set a goal for yourself, persevere until you accomplish it/ :g.gi.wdt.fg.gi.ws.:

一丘之貉  [] /weasels from the same nest/ :g.rgd.pp.eetk.:

一丛柔毛 一叢柔毛 [yi1cong2rou2mao2] /flocculus/ :g.wwg.cbts.tfn.:

一丝一丝 一絲一絲 [] /thread by thread/ :g.xxg.g.xxg.:

Il devrait aussi être possible de le convertir en dictionnaire au format stardict pour le faire gérer par goldendict. Je réserve la question pour un autre épisode. Si quelqu'un souhaite expérimenter, le blog Jalastha montre la démarche, principalement il faut convertir les séparateurs de champ en Tabulation et faire convertir le fichier par stardict-editor , il en ressortira les 3 fichiers permettant l'indexation nécessaire à goldendict ( adso.dict.dz, adso.idx and adso.ifo ). I

Glossaire des interprètes des Nations-Unies :

Dans le domaine spécialisé , différents glossaires ont été compilés , notamment par les interprètes des Nations Unis. Selon les conditions générales d'utilisation , il est possible de les télécharger pour un usage personnel. Pas de reproduction dans un but commercial. Le domaine couvert étant très large je met en lien les glossaires susceptibles d' intéresser les libristes.

Droits de l'Homme
Information, Committee
Information security , (E-F)
Internet Governance:
Latin Expressions, (D to H), (I to O), (P to V)
Legal Terms (Latin-Chinese):

NGOs
UNCITRAL Electronic Commerce
Statistics

De plus l'institution s'est constitué un moteur de recherche des terminologies utilisé nommé l'' United Nations Multilingual Terminology Database. Le site ne semble pas (encore ? ) être passé à la mode criarde du web 2.0. Il est sobre , simple et permet l'accès rapidement à l'information. Il demande qu'un navigateur ayant le minimum requît pour comprendre le HTML. Cerise sur le gâteau , il recommande dans sa Faq de passer à des navigateurs supportant l'utf8 , et il en explique la raison (la nécessite d'une gestion des langues non alphabétiques de manière uniforme et standardisée).

Il est possible de l'ajouter à Goldendict pour pouvoir faire une recherche automatiquement, la ligne à ajouter dans les options des dictionnaires en ligne  : http://unterm.un.org/dgaacs/unterm.nsf/WebView?SearchView&Query=%GDWORD%&SearchOrder=1&SearchMax=250&SearchWV=TRUE&SearchFuzzy=FALSE&Start=1&Count=0

1.1.1.1 étymologie

Zhongwen

Pour l'étymologie , j'utilise toujours zhongwen.net à travers le script harb.sh (cfr. article précédent) venant du site suivant, dont le contenu  :

            #! /bin/bash -e



if [ -z "$@" ]; then

  echo Usage:./harb char1 char2 ...

  echo

  echo Will print the zhongwen.com URL for the characters and pass them to browser

fi



while [ $# -gt 0 ]; do

  url=$(

      echo $1| iconv -t big5| \

      perl -lne '@c=unpack("CC", $_); print "http://zhongwen.com/d/$c[0]/x$c[1].htm"'

  )

  echo $URL

  browser "$URL"

  shift

done

Archchinese

Archchinese est un site qui se propose de mettre différents outils disponibles en ligne à la portée de l'étudiant. Certains services sont payants (notamment la composition de son glossaire personnelle) , mais l'usage qui nous intéresse est le tracé des traits et l'analyse des radicaux (en accès libre).

Le script pour accéder de la même manière  : harb2.sh

    #! /bin/bash -e
    read Zh 

      url=http://www.archchinese.com/chinese_english_dictionary.html?find=$Zh 

      echo $URL

      browser "$URL"

      shift

Le script ouvre directement le caractère recherché par un query , et va montrer le tracé (animation en flash ). l'accès à l'information est plus rapide, et son contenue plus complet (que certain site qui n'ont pas l'animation des traits pour chaque caractère ,dont chinesetools.eu/)

Chinese TOOLS.EU

Ce site à l'avantage de montrer la configuration du caractère (sa structure générale) et sa décomposition en radicaux, ainsi que les caractères Wubi correspondants. Ce qui favorise la vitesse de mémorisation étant donné que toutes les informations pertinentes sont rassemblées au même endroit.

La non-standardisation de l'encodage ne m'a pas permis d'écrire un script car j'ignore la correspondance du query utf8 vers l'autre encodage(exemple : la requête du caractère 右 me retourne l'URL sous cette forme http://www.chinesetools.eu/chinese-dictionary/?q=%26%2321491%3B&champs=all&Submit=Search&ca=&tr= (le query n'est pas compréhensible ).

1.1.1.2 les moteurs de recherche d‘exemple de phrase :

Nciku et Jukuu

J'ai testé les site Nciuk et Jukuu dont la fonction principale est d'afficher des exemples de phrases selon l'idéogramme ou le groupe d'idéogrammes recherché. Bien que je ne ressente pas encore le besoin de les utiliser couramment. Nciuk offre en plus la synthèse vocale sur les réponses. J'ai été assez impressionné par le niveau de langue de ces deux moteurs de recherches, avec un niveau plus élevé pour Nciuk. A titre d'exemple les idéogrammes  : 判断 (qui signifie juger, jugement, décider )

Nciuk
实测和目测是有差距的,我们不应根据目测的数据来作判断。
There are differences between actual measurement and visual inspection, so we shouldn't make judgments based on the data from visual inspections
.

Jukuu
We would all like to have an intelligent and self-motivated assistant who shows initiative, drive, good judgment, and a keen memory. 我们都希望有个聪明且自觉的助手,具有灵敏的直觉、源源不断的动力和好的判断,以及值得信赖的记忆。

Quant à Jukuu il donne ,outre les exemples, la distribution de l'usage de l'idéogramme dans la langue , ainsi que les mots avec lequel il est le plus associé . La recherche précédente nous indique les adjectifs avec lesquels ces caractères sont le plus fréquemment qualifié (正确 : adéquat ) , les verbes auxquels ils se conjuguent régulièrement ( 作出 : prendre , prendre une décision ) ainsi que les noms auxquels ils s'associent facilement.

1.1.2 les dictionnaires papier

Je ne reviendrais pas sur chinese character finder , qui et véritablement un outil tout terrain. Si vous avez déjà essayé de chercher dans un dictionnaire ou une encyclopédie chinoise un mot, et que vous ne connaissais pas son pinyin, ni la manière dont la table Kangxi est organisé , vous comprendrez que retrouver un caractère rapidement dans ces conditions est une gageure. Le livre permet d'arriver à retrouver le caractère (les caractères du HSK ) en un temps record (quelques minutes ), grâce à sa méthode d'indexation par structure. Je vous renvoie pour les détails à l'article précédent.

Caractère chinois d'Edoardo Fazzioli, est un ouvrage (qui était vendu en occasion) qui recense les 214 radicaux et leur donne une explication étymologique en français, j'imagine que d'autres livres du même genre existent. Je le mentionne pour information. Il a pour particularité de classer les idéogrammes en fonction de leurs champs lexicaux, cela à pour but de faire revenir au processus de pensée de classement analogique utilisé lors de la reconnaissance de caractère.la seule chose c'est qu'il n'y figure pas la numérotation selon leur ordre kangxi (est-ce une omission de la linéarité ? ). J'ai ajouter les numéro à la main, et imprimer un pdf pour y retrouver les pages.

1.1.3. Grammaire

Electronique

Pour la grammaire , je n'ai pas encore trouvé d'outil équivalent à Assert-c. Ce fait ne m'étonne pas étant donné que celui-ci est lui-même un projet de recherche universitaire , quelques recherches m'ont confirmé qu'il ne semble pas encore exister sur le marché ou sur internet d'outil de POS tag automatique ayant un niveau supérieur à Assert-c. Je renvoie pour les détails au premier article. Il est savoir que je n'ai pas réussis à l'installer sous ubuntu 12.04 (en outre, je trouve que celui-ci manque un certain nombre de logiciels dans leurs dépôts , j'ignore pourquoi d'ailleurs ). Denière précision , il est basé sur un projet du MIT utilisant les réseaux de neurones eux-mêmes sous GPL (et qui est focalisé sur l'anglais ).

WUBI

Mon utilisation, après la sortie du fichier en POS, je le mets dans un script qui permet d'ajouter une ligne wubi86 en dessous de chaque caractère. Ensuite je convertis le fichier cSv en HTML , pour avoir un meilleur rendu et pouvoir utiliser les dictionnaires rollover (cantofish et perakun) sous Firefox.
La conversion en HTML se fait via le service CSV converter : http://area23.brightbyte.de/csv2wp.php. Si quelqu'un à un script bash simple qui fait le même résultat je suis preneur (le séparateur de champ est la tabulation ).

Papier

Une découverte assez majeure dans le domaine. Si vous avez appris ou tenté d'apprendre le chinois avec les livres qui sont traditionnellement dans le commerce (ou même dans une haute école dédiée à la traduction et à l'interprétariat). Vous trouverez peut-être que la manière d'enseigner le chinois reste très basique et mène rapidement à certaines confusions du point de vue grammatical. Par hasard, chez un libraire spécialisé, j'ai trouvé un ouvrage nommé guide grammatical du chinois. J'étais assez curieux et un peu dubitatif (au vu du matériel généralement mis sur le marché ) au départ. Je pensais avoir à faire soit à un quasi-traité dans le domaine de la recherche en linguistique (ultra pointu et difficilement utilisable en tant que guide ) , soit un autre livre de type le chinois-sans-peine (mais sans contenu aussi ). Hé bien, je dois dire que j'ai été agréablement surpris , ce livre est véritablement un guide de grammaire. Il s'adresse véritablement aux francophones, c'est-à-dire que l'auteur explique correctement et très précisément les différents points de grammaire, dans une forme accessible et familière à tous étudiants ayant dû apprendre la grammaire française sur les bancs de l'école. le prix est très largement compensé par la qualité du matériel. L'auteur Jean-Jacques Hédelin a été correcteur-traducteur pour une maison d'édition chinoise. Il a aussi été enseignant de français en Chine et de chinois en France.

Le livre chinese-english frequency dictionnary complète assez bien l'ouvrage précédent. En effet, étant donné son classement par ordre de fréquence , permet de connaitre précisément les mots plus importants à maitriser. Ainsi que ses usages les plus courants, y compris les dérivées. Armées de cette information , il ne suffit plus que de consulter le guide grammatical du chinois pour aborder clairement le point de grammaire le concernant. (cf article précédent pour les détails )

1.2 l'objectif : associer un son à un idéogramme

Flashcard.0.2.sh

L'idée est d'utiliser la méthode nommée en anglais "flashcard" , c'est à dire l'affichage d'un idéogramme et la répétition du son qui lui est associée. En outre ces logiciels comportent souvent un aspect "contrôle de connaissance" basé sur diverses méthodes statistiques. Ceux-ci ont pour but de déterminer la fréquence optimale de répétition afin d'ancrer dans la mémoire à long terme les nouveaux concepts. Je sais qu'il existe un certain nombre de logiciels en la matière, dont le plus fameux est Ankhi. Je n'ai pu utiliser ce dernier car des bugs subsistaient dans ma version (sous ubuntu 11.04 ).
Google m'a proposé d'autres logiciels, dont Mnemosyne Project, Pauker, jVLT, granule, FlashQard, KWordQuiz et Parley. Chacun de ses programmes à ses qualités et défauts, mais il ne m'ont pas convaincue pour l'usage que je voulais en faire (je les ai testés sommairement, mais certaines fonctionnalités manquait déjà à la base).
Étant donné que la synthèse vocale était déjà présente (ekho cf article précédent ) , et qu'il se trouvait sous la magnifique forme d'une ligne de commande. Dès lors, il suffisait d'afficher selon une liste donnée le caractère chinois à l'écran (manipuler du texte c'est ce que la philosophie Unix fait de mieux). J'ai commencé à écrire un script Bash qui synchronise l'affichage à la synthèse vocale en fonction d'un fichier CSV (en tabulation) prédéfinie.
Je ne dirais pas que c'est un bijou Shell script, mais il fait ce qu'il est sensé faire de manière simple et rapide (selon la philosophie KISS).

En sortie cela donne l'affichage au centre de l'écran dans une boite en ASCII art (merci à boxes) des mots , phrases du fichier CSV,la prononciation par la synthèse vocale se fait après 2 secondes. On peut choisir la partie que l'on souhaite voir répéter ainsi que le nombre d'occurrences de la voix. Dans un terminal il faut au préalable zoomer assez fort pour pouvoir avoir les caractères dans une taille lisible (j'utilise terminator qui permet des zoom plus grand que le terminal de gnome ).

le code source  :

#!/bin/bash


#flashcard pour chinois audio 2 visuel

#set -xv 

x=1

        while [ $x -gt "0" ]

                do



_COLUMNS=$(tput cols)
_LINES=$(tput lines)

# Set default message if $1 input not provided
_MESSAGE="${1:-Linux Shell Scripting Flashcard v0.2}"

# Calculate x and y coordinates so that we can display $MESSAGE
# centered in the screen 
x=$(( $_LINES / 2 ))
y=$(( ( $_COLUMNS - ${#_MESSAGE} )  / 2 ))

# Clear the screen
tput clear

# set x and y position
tput cup $x $y

listeflag=0

#echo "chemin du fichier csv ?"
#read path
#sourceFilecsv=$path

vocabdir=/tmp/vocabdir_$(date +%d_%m_%Y)
vocabwubilast=vocab.wubi.final.0.1.csv

Defaultpath=$vocabdir/$vocabwubilast

pathflag=1

echo "Chemin par défaut ? (Oui=1  ; Non=0)"
read path
pathflag=$path
if [ $pathflag -eq "0" ] 
    then
        echo "Entrer le chemin complet vers le fichier :"
        read filepath
        sourceFilecsv=$filepath
    else
        sourceFilecsv=$Defaultpath
fi


echo "le Nombre de mots est de "$( cut -f1  $sourceFilecsv | wc -l )

echo "Afficher la liste des mots ? (Oui=1  ; Non=0)"
read liste
listeflag=$liste
if [ $listeflag -gt "0" ]
    then
    cut -f1  $sourceFilecsv | awk '{ print FNR "." $0 }' | less
fi



wubiflag=0




boxfileInput=/tmp/boxfileInput.txt
boxfileInputWubi=/tmp/boxfileInputWubi.txt
OneWordisplay=/tmp/OneWordisplay.txt
OneWordisplayWubi=/tmp/OneWordisplayWubi.txt
pause=2
sequence=/tmp/seq.txt





echo "Entrer le début de la séquence :"
read entrer 
debut=$entrer
clear
tput cup $x $y

echo "Entrer la fin de la séquence :"
read entrerfin
fin=$entrerfin
clear
tput cup $x $y

echo "Entrer l'interval entre les mots :"
read interval
clear
tput cup $x $y

echo "Afficher le code Wubi86 ? (Oui=1  ; Non=0)"
read wubi 
wubiflag=$wubi
clear
tput cup $x $y

cut -f1  $sourceFilecsv |  awk NR==$debut,NR==$fin > $boxfileInput
cut -f3  $sourceFilecsv |  awk NR==$debut,NR==$fin > $boxfileInputWubi

cat $boxfileInput | wc -l > $sequence

for i in $( seq $( cat $sequence ) ) ;
do  

echo $i. $( cat $boxfileInput       | awk NR==$i ) > $OneWordisplay
echo $i. $( cat $boxfileInputWubi   | awk NR==$i ) > $OneWordisplayWubi



    if [ $wubiflag -gt "0"  ] 
        then 
            cat $OneWordisplayWubi >> $OneWordisplay

            clear
            boxes -d peek -a c -s $( echo $( echo $_COLUMNS)x$( echo $_LINES) ) $OneWordisplay
            sleep $pause
            ekho $( cut -d ' ' -f2 $OneWordisplay | awk NR==1 )

        else
            clear
            boxes -d peek -a c -s $( echo $( echo $_COLUMNS)x$( echo $_LINES) ) $OneWordisplay
            sleep $pause
            ekho $( cut -d ' ' -f2 $OneWordisplay | awk NR==1 )


    fi


sleep $interval

done        

echo "Recommencer ? (Oui=1  ; Non=0)"
read choice
x=$choice






        #while done
        done

A noter que les champs pris pour les mots sont le champ numéro 2 (cut -f2 ) et que le champ pour le wubi est le 3 (cut -f3 ).

Figlet et toilet

Lors de ma réflexion sur flashcard.0.2.sh , j'avais au départ pensé à utiliser figlet pour afficher en ASCII art (et de manière plus lisible ) les caractères , mais je me suis aperçu que celui-ci ne gérait pas l'utf8. Je me suis tourné vers le logiciel"toilet" qui lui permettait ce support. Son site montrait un support des caractères japonais , alors je me suis dit que cela devrait fonctionner pour les caractères chinois. Mais cela n'était pas le cas. J'ai été sur le channel irc de #libcaca pour demander de l'aide. Sam Hocevar à modifié les sources pour y ajouté le support CJK , et faire afficher les fonts. le résultat :

La procédure : télécharger la dernière version de libcaca-0.99.beta18.tar.gz , ainsi que toilet-0.3.tar.gz. Aller dans libcaca/tools/ modifié le fichier makefont.c ajouté la ligne 0x4e00, 0xa000, en dessous de la ligne 0x30a0, 0x3100, /* Katakana: ロ ル */

faire :
./bootstrap &&./configure && make && make update-fonts && make ; sudo make install

puis dans le répertoire toilet faire :

make clean &&  make && makefonts && make ; sudo make install. 

./toilet -d fonts -f mono12 你好

Googletts

Au niveau de la traduction vocale, le moteur de Google prononce fréquemment les bonnes tonalités , en fonction de la phrase donnée. Cela s'approche d'une euphonie plus naturelle. l'entreprise permet un accès à son logiciel de synthèse vocale en ligne limité à un certain nombre de caractères, il donne en sortie un fichier mp3.
Commandelinefu donne un certain nombre de lignes de commande pour l'utiliser à travers son terminal.
notamment : la fonction suivante :

say(){ mplayer -user-agent Mozilla "http://translate.google.com/translate_tts?tl=en&q=$(echo $* | sed 's#\ #\+#g')" > /dev/null 2>&1 ;  }. 

Une autre fonction pour enregistrer sur le disque dur

curl -À "Mozilla" "http://translate.google.com/translate_tts?tl=en&q=hello+world" > hello.mp3

Le script Perl speak.pl permet d'enregistrer le fichier mp3 lorsqu'on donne en entrée un fichier texte brut. ( Usage:./speak.pl LANGUAGE IN.txt OUT.mp3 ) disponible ici : https://gist.github.com/3110049. Il ne m'est pas particulièrement utile actuellement vu la limitation au nombre de caractère, en outre il est nécessaire ligne pour pouvoir bénéficier du Googletts ce qui est un inconvénient au niveau de la flexibilité.

II. Taper en chinois

2.1 l'objectif : entrer au clavier un idéogramme

2.1.1 Le Wubi : une saisie au clavier qui favorise la mémorisation.

Je ne reviendrais pas sur le fonctionnement du Wubi et l'esprit qui le sous-tend ainsi que les effets sur la mémoire à long terme du point de vue de l'apprentissage de la lecture (cf article précédent ). Néanmoins J'ajoute certaines considérations dans la partie observations préalables. Je mentionne ici les nouveautés que j'ai vues en la matière. Dans l'article précédent, je parlais de la manière d'utiliser le Wubi sous Ubutu via Ibus. J'ai remarqué (et l'on m'a posé la question par email ), que celui-ci n'était pas encore complet au niveau de la table de saisi, certain caractère ne sont pas encore encodées. Par exemple l'email que j'ai reçu me démontrait que la frappe de la combinaison. "dee - " ne donnait rien sous ibus, alors que sous un autre logiciel de saisi la sortie est comme prévu la suivante "dee - 历".

FCITX

Cet autre logiciel, est un programme de saisi qui existe depuis en fait déjà fort longtemps (je l'ai connue sous une Knoppix 3.2 chinoise vers 2003 , c'est dire). Elle se nomme fcitx pour free chinese input toy for X. La première raison pour laquelle j'ai basculé sous ce logiciel (qui est devenu mature) est bien entendu sa relative exhaustivité des tables. La seconde se situe dans le fait qu'elle propose depuis récemment une table assez particulière : la Wubipinyin. Celle-ci à l'avantage de pouvoir accepter à la fois l'entrée en Wubi et en pinyin simultanément. Mais au-delà, elle affiche le code correspondant en Wubi lorsqu'on saisit un code pinyin. En fait elle fait "parser" en même temps que méthode de saisi. Ce qui favorise l'apprentissage progressif du Wubi d'une part et d'autre part de pouvoir répondre à l'urgence d'une saisie (les codes Pinyin étant annoté partout -dictionnaire , site - , on peut avoir le caractère assez facilement (avec le désavantage de l'homophonie …). Mais on peut le saisir plus rapidement dans ce cas que si l'on a pas encore du tout le code wubi (qui est rarement noté). Le blog Asiatiques montre une procédure d'installation si fcitx n'est pas encore dans les dépôts.

Le projet fcitx est sur le point de se trouver un autre nom pour décrire ses objectifs, en chinois on le traduit par 小企鹅输入法, qui signifie littéralement la méthode de saisie du petit
pingouin, en référence à son logo composé d' un Tux exhibant un pinceau de calligraphie. Il a aussi de nouveaux binding notamment fcitx-fbterm (que je n'ai pas encore testé ).

YUDIT

Yudit quant à lui reste l'utilitaire de saisi multiplateforme, petit éditeur qui à la couleur d'un terminal et en imite certain fonctionnement et qui s'installe rapidement et sans dépendances système , ni dépendances à des logiciels tiers. Il dépanne très rapidement (notamment sous Windows )  ;

FireInput

Fireinput quant à lui est un greffon Firefox qui ajoute à celui-ci les différentes méthodes de saisi dont le wubi86 et 98. Il embarque aussi un petit éditeur texte.  . Le site propose différentes versions , la version complète se trouve à l'adresse suivante : http://www.fireinput.com/releases/fireinput-2.6l.xpi

Logiciel d'apprentissage du Wubi :

Ayant écrit le script flashcard.sh, il me suffisait de l'adopté pour le transformer en aide à l'apprentissage des touches du clavier wubi. J'ai repris le poème wubi disponible sur Wikipedia. Le script se comporte de la même manière qu'avec une flashcard.0.2. le but est de mémoriser ici le type de radicaux et leur emplacement sur le clavier. Le fichier ascii art:

[ ][ ][ ][ ][G](1.1)    王旁青头戋五一
[ ][ ][ ][F][<](1.2)    土士二干十寸雨
[ ][ ][D][<][<](1.3)    大犬三羊古石厂
[ ][S][<][<][<](1.4)    木丁西
[A][<][<][<][<](1.5)    工戈草头右框七
(2.1)[H][ ][ ][ ][ ]    目具上止卜虎皮
(2.2)[>][J][ ][ ][ ]    日早两竖与虫依
(2.3)[>][>][K][ ][ ]    口与川,字根稀
(2.4)[>][>][>][L][ ]    田甲方框四车力
(2.5)[>][>][>][>][M]    山由贝,下框几
[ ][ ][ ][ ][T](3.1)    禾竹一撇双人立,反文条头共三一
[ ][ ][ ][R][<](3.2)    白手看头三二斤
[ ][ ][E][<][<](3.3)    月彡(衫)乃用家衣底
[ ][W][<][<][<](3.4)    人和八,登祭头
[Q][<][<][<][<](3.5)    金勺缺点无尾鱼,犬旁留义儿一点夕,氏无七
(4.1)[Y][ ][ ][ ][ ]    言文方广在四一,高头一捺谁人去
(4.2)[>][U][ ][ ][ ]    立辛两点六门疒(病)
(4.3)[>][>][I][ ][ ]    水旁兴头小倒立
(4.4)[>][>][>][O][ ]    火业头,四点米
(4.5)[>][>][>][>][P]    之宝盖,摘示衣
[ ][ ][ ][ ][N](5.1)    已半巳满不出己,左框折尸心和羽
[ ][ ][ ][B][<](5.2)    子耳了也框向上
[ ][ ][V][<][<](5.3)    女刀九臼山朝西
[ ][C][<][<][<](5.4)    又巴马,丢矢矣
[X][<][<][<][<](5.5)    慈母无心弓和匕,幼无力

le code source :

#!/bin/bash


#flashcard pour wubi keyboard

#set -xv 

x=1

        while [ $x -gt "0" ]

                do



_COLUMNS=$(tput cols)
_LINES=$(tput lines)

# Set default message if $1 input not provided
_MESSAGE="${1:-Linux Shell Scripting Flashcard v0.1}"

# Calculate x and y coordinates so that we can display $MESSAGE
# centered in the screen 
x=$(( $_LINES / 2 ))
y=$(( ( $_COLUMNS - ${#_MESSAGE} )  / 2 ))

# Clear the screen
tput clear

# set x and y position
tput cup $x $y

listeflag=0

#echo "chemin du fichier csv ?"
#read path
#sourceFilecsv=$path



Defaultpath=/home/gnu/Documents/wubi.keymap.0.2.csv

pathflag=1

echo "Chemin par défaut ? (Oui=1  ; Non=0)"
read path
pathflag=$path
if [ $pathflag -eq "0" ] 
    then
        echo "Entrer le chemin complet vers le fichier :"
        read filepath
        sourceFilecsv=$filepath
    else
        sourceFilecsv=$Defaultpath
fi


echo "le Nombre de mots est de "$( cut -f1  $sourceFilecsv | wc -l )

echo "Afficher la liste des mots ? (Oui=1  ; Non=0)"
read liste
listeflag=$liste
if [ $listeflag -gt "0" ]
    then
    cut -f2  $sourceFilecsv | awk '{ print FNR "." $0 }' | less
fi



wubiflag=0




boxfileInput=/tmp/boxfileInput.txt
boxfileInputWubi=/tmp/boxfileInputWubi.txt
OneWordisplay=/tmp/OneWordisplay.txt
OneWordisplayWubi=/tmp/OneWordisplayWubi.txt
pause=2
sequence=/tmp/seq.txt





echo "Entrer le début de la séquence :"
read entrer 
debut=$entrer
clear
tput cup $x $y

echo "Entrer la fin de la séquence :"
read entrerfin
fin=$entrerfin
clear
tput cup $x $y

echo "Entrer l'interval entre les mots :"
read interval
clear
tput cup $x $y

echo "Entrer le nombre de répétition ( minimum 1 )"
read repeat
repetition=$repeat
clear
tput cup $x $y

echo "Afficher le code Wubi86 ? (Oui=1  ; Non=0)"
read wubi 
wubiflag=$wubi
clear
tput cup $x $y

cut -f2  $sourceFilecsv |  awk NR==$debut,NR==$fin > $boxfileInput
cut -f1  $sourceFilecsv |  awk NR==$debut,NR==$fin > $boxfileInputWubi

cat $boxfileInput | wc -l > $sequence

for i in $( seq $( cat $sequence ) ) ;
do  

echo $i. $( cat $boxfileInput       | awk NR==$i ) > $OneWordisplay
echo $i. $( cat $boxfileInputWubi   | awk NR==$i ) > $OneWordisplayWubi



    if [ $wubiflag -gt "0"  ] 
        then 
            cat $OneWordisplayWubi >> $OneWordisplay

            clear
            boxes -d peek -a c -s $( echo $( echo $_COLUMNS)x$( echo $_LINES) ) $OneWordisplay
            sleep $pause
            for r in $( seq $repetition ) ; do
                ekho $( cut -d ' ' -f2 $OneWordisplay | awk NR==1 ) ;
                sleep 2
            done

        else
            clear
            boxes -d peek -a c -s $( echo $( echo $_COLUMNS)x$( echo $_LINES) ) $OneWordisplay
            sleep $pause
            for r in $( seq $repetition ) ; do
                ekho $( cut -d ' ' -f2 $OneWordisplay | awk NR==1 ) ;
                sleep 2
            done



    fi


sleep $interval

done        

echo "Recommencer ? (Oui=1  ; Non=0)"
read choice
x=$choice






        #while done
        done

Considération sur Tuxtyping

Il existe dans le monde du logiciel propriétaire un grand nombre de programmes (en chinois essentiellement) orienté vers l'apprentissage du Wubi. Il n'existe à ma connaissance pas encore de logiciel de ce type dans le libre.

La dernière fois j'avais émis l'hypothèse que Tuxtyping pourrait en tant que logiciel d'apprentissage de la dactylographie, y adjoindre une section Wubi,(cf article précédent ). J'avais vu qu'il y avait eu une internationalisation en chinois de celui-ci et j'en avais contacté l'auteur. Il m'a répondu que le paquet en pinyin n'avait pas été envoyé en upstream. Et qu'en outre un problème de codage existait (dont j'ignore la nature ).Tout cela est bien triste pour le libre.

Considération sur la méthode de saisie par simulation d'écriture (handwriting) :

Il existe à côté des méthodes de saisies par clavier , la méthode de saisi par dessin. Celle-ci consiste via soit la souris , ou une tablette graphique munie d'un stylet ou sur un écran tactile à dessiner directement les traits , par imitation avec le processus d'écriture. C'est la raison pour laquelle les Anglais l'appellent handwriting. Lors de la saisi le logiciel est sensé reconnaitre automatiquement en fonction des traits , le mot adéquats. Celui-ci m'intéresse dans un seul cas de figure, dans la situation où le temps est compté et que l'on ne trouve ni le code Wubi, ni le code Pinyin , ni la définition , ni la traduction d'un idéogramme spécifique , alors il ne reste plus qu'à le dessiner. Dans le logiciel propriétaire le leader en la matière est PenPower , je ne l'ai jamais utilisé personnellement. Je sais simplement qu'il est utilisé par la génération des personnes dont l'ordinateur était plus difficile d'accès que la nôtre (je fais référence aux cinquantenaires et plus ). Ceux-ci non habitué au clavier , sont plus à l'aise avec la simulation de l'écriture. En outre , je me souviens que la société éditrice de PenPower a proposé ses logiciels sur la plateforme du Nokia N900 Maemo.

Dans le domaine du libre, les deux logiciels que j'utilise si je me retrouve dans ce cas de figure (qui est rare ), c'est Yudit et Hanzilookup. Yudit possède une mini méthode de saisie à la main. Celle-ci néanmoins est relativement limitée, elle s'accommode mal des caractères à l'enchainement de traits plus complexes. Quant à Hanzilookup , il fait la même chose , mais de manière plus précise. Le problème c'est qu'il donne en sortie le caractère au format … image ! Il donne aussi la définition de celui-ci, ce qui permet de le retrouver par la traduction. Pour terminer , j'ai testé Teragaki qui est un logiciel qui semble avoir pour but de devenir le PenPower du libre, pour le moment le logiciel est encore dans une phase Béta version.

Considération sur la reconnaissance optique de caractère ( OCR )

Le principal moteur d'OCR libre est tesseract (libéré par HP), il existe des datasets pour le chinois simplifié et traditionnel , il existe aussi une interface graphique en GTK nommé Ocrfeeder. Celui-ci bug lors de sa configuration. Le résultat en l'état n'est pas exploitable. Il est actuellement impossible de l'utiliser pour numériser des textes. À ce niveau je n'ai d'autre solution que de me tourner vers le logiciel propriétaire en la matière , à savoir ABBY. Je l'utilise sous Virtualbox sous Windows XP.

III Le Contrôle des connaissances :

Après la phase d'apprentissage vient la phase de contrôle de connaissance. Cette phase de feedback à pour but de s'assurer de l'ancrage de l'apprentissage dans la mémoire à long terme.

la Phonétique
avec flashcard.0.2.sh
L'on peut facilement contrôler la prononciation avec flashcard, il suffit d'allonger les pauses.

Vocabulaire, grammaire, syntaxe et Wubi

Parley

Dans les logiciels que m'ont été proposé pour les flashcard, il en est un qui après test est particulièrement utile.

C'est le programme "Parley'. Celui-ci a pour but d'aider à la mémorisation de manière généraliste et avec différente méthode de contrôle, quel que soit le domaine. Il embarque bien entendu une méthode d'optimalisation de la répétition ( la documentation parley -) en fonction des erreurs et du niveau.
Dans un contexte d'apprentissage linguistique, sa plus grande utilité se situe dans le fait qu'il possède aussi d'autres méthodes d'apprentissage à côté du flashcard. Il permet de s'autoévalue via soit un questionnaire à choix multiples, les phrase exemple, le genre des noms, la comparaison des formes , la conjugaison et le «  Mixed letters.  »
Ce dernier est particulièrement intéressant , en ce sens qu'il affiche par exemple une définition (par exemple America's compagnies) et affiche aussi la réponse, mais sous forme de caractères mélangés. Il faut retapé dans l'ordre adéquat les caractères chinois correspondants. Cela permet d'une part de réviser son vocabulaire, ses points de grammaire (en y mettant des phrases exemples) sa syntaxe (remettre dans l'ordre correct les mots ), ainsi que son Wubi (étant donné qu'il faut l'entrée au clavier).

Parley est un logiciel fesant partie de la suite orienté éduction de KDE.

Par sa flexibilité , c'est le projet le plus prometteur dans l'auto-évaluation d'un apprentissage en général et en chinois en particulier.

IV.Interface généraliste et utilitaire

J’aborde ici non pas des logiciels spécifiquement destinés à l'apprentissage du chinois, mais des utilitaires qui rendent des services bien appréciables lorsqu'on souhaite aller vite.

Clicompanion

Ce logiciel de terminal qui enregistre dans une liste les commandes que l'utilisateur définit et qui permet de les retrouver rapidement (plus rapide et plus sur que de faire un grep sur son history ). Il gère aussi les entrées utilisateurs (à l'instar de la fonction read de bash ). Je l'utilise comme une sorte d'interface à mes commandes. Surtout pour les commandes invoquées fréquemment notamment la conversion du chinois en Wubi. Enter pour envoyé la ligne de commande , il m'affiche une fenêtre pour y entrer les caractères , enter et il m'affiche le tout. S'utilise aussi avec ekho.

Terminator

Terminator : a l'avantage de diviser l'espace de son terminal en différent compartiment accueillant des gettys. un click et il me sectionne ma fenêtre en deux dans le sens de la longueur , un click et il refait la même chose pour la nouvelle fenêtre, cela va plus vite qu'ouvrir une tabulation à chaque fois qu'on lance une commande et que l'on souhaite y garder un oeil dessus.

Touchpadindicator 

Le touchpad de mon ordinateur portable à la fâcheuse habitude de se mettre en travers mon chemin lorsque je tape du texte, ce logiciel permettra de le désactiver (je n'utilise que la souris de toute façon).
installation  :
sudo add-apt-repository ppa:atareao/atareao
sudo apt-get update
sudo apt-get install touchpad-indicator

V. Mise en oeuvre :

5.1. Critères d'appréciations.

Il est nécessaire pour pouvoir mettre sur pied un système cohérent de dégager des critères qui permettront d'organiser la suite de logiciel de manière rationnelle.

5.1.1.Observations préalables et premier critère

En général , lors de l'usage de sa langue maternelle, le locuteur ou le lecteur à un accès instantané à la compréhension pleine et entière de la sémantique d'une expression ou d'un texte, sur une étendue relativement vaste.

Lors de l'usage d'une seconde langue apprise (non maternelle), le locuteur ou le lecteur à un accès
soit  : différé à la sémantique d'un texte ou d'une expression. Il a par exemple besoin de support (dictionnaire de traduction, etc..) pour avoir y accès (ce qui ralentie le processus ). Soit un accès instantané, mais sur une étendue moins grande (limité à l'étendue de son vocabulaire et de son sujet). En général les deux facteurs se combinent.

Ainsi ce qui différencie le premier locuteur du second , est «  la vitesse d'accès à la compréhension  » ( que je dénommerais pas l'acronyme V.A.C. ). Dans l'idéal , le but serait d'avoir un accès à la compréhension de la seconde langue à la même vitesse que dans sa langue maternelle.

Le système d'apprentissage doit dès lors dans sa méthodologie et ses processus favoriser l'augmentation de cette vitesse d'accès.

On peut sans trop se tromper définir la maitrise d'une langue ou même d'un sujet par le rapport de cette vitesse en fonction de la portée du sujet. Pour prendre un exemple  : les marques de politesse , la portée du sujet est limité (variant en fonction des cultures) , et la V.A.C peut être très grande. La vitesse d'accès à la compréhension de 你好,再见,谢谢你,请 ( bonjour , au revoir, merci , s'il vous plait ) est très rapide (sinon instantané) . A contrario la vitesse d'accès à la compréhension de 道沖而用之或不盈 ( Le Tao est vide  ; si l'on en fait usage, il paraît inépuisable. ) Est de beaucoup ralentie (autant par la question sémantique, que le contexte culturel, l'étendu de la phrase, ses tenants et aboutissants, etc. ).

La vitesse d'accès à la compréhension dépend nécessairement de la rapidité d'accès à l'information pertinente. Cette rapidité dépend-elle même des conditions et des modalités d'accès offert par les supports. Ainsi taper dans un traducteur logiciel un mot prendra moins de temps que de devoir le rechercher dans son équivalent papier (toute chose par ailleurs égale ). En outre le mode d'organisation du support jouera un rôle déterminant dans l'accès à l'information pertinente.
Par exemple la méthode de classement par structure visuelle du livre fast character finder , permet d'avoir une vitesse d'accès à l'information pertinente qui bat la méthode Kangxi et même pinyin (car la portée est limitée au HSK et que la reconnaissance visuelle est ce qui a de plus intuitif ).

5.1.1.1 Ajout de considération sur le Wubi et le Pinyin

Dans cette perspective , l'on devrait de prime abord favoriser l'usage du pinyin en tant que système de saisi au clavier , car elle permet effectivement plusieurs choses , pour un Européen d'avoir une continuité dans la traduction de l'alphabet dans sa partie phonétique à sa partie visuelle (le signe ).
Ce qui est vrai lorsqu'on aborde la question de manière superficielle, mais le problème principal du pinyin c'est qu'elle est distingue mal les nombreux homophones et dès lors constamment nécessitent l'intervention de l'utilisateur pour valider sa frappe (ce qui est une sorte de mini interruption, alors que cette interruption n'existe pas dans les langues alphabétiques , la frappe de la touche affiche le caractère voulu directement et sans détour ). Ce qui sur le long terme lui fait perdre les bénéfices de départ, et ce, de manière géométrique. Plus on l'utilise de manière approfondie dans des domaines d'étude spécialisés , et plus il sera lent. Cette direction au regard du critère de vitesse n'est pas souhaitable. Puisqu'on peut déduire facilement que plus l'on accumulera de la connaissance plus l'on se spécialisera.

Le Wubi au regard du critère de vitesse permet en fait une équation radicalement inversée. Plus son utilisation sera fréquente plus la vitesse de frappe augmentera, ce qui est la relation logique dans un apprentissage. En outre, il ne dépend pas du tout de la prononciation (variable selon les régions et dialectes ) ce qui le rend universel (facteur de rapidité). Finalement une personne maitrisant la méthode pourra avoir une vitesse de frappe de 160 caractères par minutes , ratio qui excède même les langues basées sur l' alphabet. J'ajoute aussi qu'au regard de la vitesse d'accès à la compréhension , il aménage , en même temps que la frappe, des couloirs sémantiques qui seront utilisables pour la compréhension. C'est-à-dire qu'il permet de facilité et de se familiariser grandement avec l'étymologie.

Le critère de la vitesse d'accès à la compréhension étant posé, il nous suffit que de combiner les logiciels en fonctions de celu i-ci.

5.1.2 Second critère

Dans l'ensemble des 80 000 caractères chinois, quels seront ceux qui seront l'objet de notre attention ?

Il est nécessaire de privilégier l'étude des caractères dont l'usage est le plus fréquent, étant donné que la probabilité de les rencontrer est plus grande, dès lors de se retrouver plus fréquemment dans une situation d'incompréhension si l'on ne les maitrise pas.

Dès lors le second critère d'appréciation se situe dans la fréquence statistique.

VI. La suite de logiciel que j'utilise

6.1 le vocabulaire, la grammaire et la syntaxe:

Il existe sur internet des listes de fréquence des caractères, pour ma part j'utilise le dictionnaire chinese-english fréquence qui me donne les caractères, et leur grammaire et syntaxe générale.
Ensuite je numérise les pages avec ABBY , et je les ajoute à mon répertoire Gradint, particulièrement les exemples.

6.2 l'association phonétique

Gradint me permet d'avoir la prononciation de ces segments sémantiques.
Son seul inconvénient se situe dans l'absence d'ascenseur pour la liste, celle-ci est dès lors limitée aux 11 derniers entrés.

Pour contourner le problème, j'ai écrit un script vocab.wubi.sh qui convertit la liste Gradint en fichier cSv ,cela me permet de l'utiliser dans flashcard.0.2.sh et de le répéter avec les caractères Wubi inclus.

6.3 la dactylographie

je dactylographie en même temps que flashcard tourne sur Yudit
J'ajoute l'utilisation du script harb.sh et du harb2.sh pour approfondir l'étymologie, ainsi que chinese-tools.eu

6.4 Pendant le surf

Lorsque je surf et que je souhaite apprendre de nouveaux mots , je les enregistre avec Cantofish , qui le fait direct en format Unix compatible. J'utilise le script cantodict.sh" qui permet de ne prendre que les champs pertinents , ensuite le script final.sh permet de fusionner le fichier CSV de Gradint au fichier CSV de Cantofish. Je peux aussi n'utiliser qu'un seul de ces fichiers , il suffit de le spécifier à flashcard.0.2.sh

6.5 le contrôle des connaissances

L'importation du fichier précédent se fait sans problème dans Parley , qui me permet de faire un contrôle de connaissance sur le tout.

6.6 approfondissement de la grammaire

j'utilise le guide de grammaire du chinois.

7.1 analyse de texte

Lorsqu'on souhaite lire et analyser un texte entier , j'utilise d'abord Assert-c qui me fait la segmentation sémantique, puis j'utilise le script Chinese.sh qui permet d'y adjoindre une ligne au code wubi en dessous de chaque idéogramme. Finalement je convertis le fichier cSv en HTML et je l'ouvre avec Firefox qui me permet d'utiliser Cantofish et Perapakun.

Pendant l'analyse du texte, je peux aussi utiliser les différents dictionnaires en ligne et hors-ligne gérer par Goldendict.

7.2 le contrôle de l'analyse

Comment contrôler l'exactitude de sa propre analyse ? En utilisant un texte dont on maitrise le sujet.

VII Conclusion provisoire

Par rapport au premier article , un certain nombre d'améliorations à été apporter au système d'apprentissage, notamment via le contrôle de connaissance, de tel sorte qu'il devient plus cohérent et plus intuitif, tout en pouvant répondre à l'urgence si nécessaire.

La classification selon le double critère de la vitesse d'accès à la compréhension et de la fréquence d'occurrences des caractères rationalise l'ensemble de l'architecture. Certains substituts ont été trouvés (notamment flashcard.sh) à certains manques passés (Tuxtyping en Wubi ). Ce qui manquait était aussi un plug-in Firefox ayant le code Wubi directement inclut, l'utilisation de Clicompanion associé au parser uniconv réponds à cette lacune. Quant à la segmentation sémantique vue que le domaine est toujours en recherche , il faudra surement attendre encore un bout de temps avant d'avoir un segmenter parfait (mais assert-c remplit déjà bien son rôle).

Pour l'étudiant sérieux, le domaine d'apprentissage s’est assez enrichi pour pouvoir passer outre les problèmes techniques, il ne reste plus qu'à s'en donner la motivation et à l'inscrire dans son agenda adéquat pour concrétiser sa propre démarche d'apprentissage.

  • # ajout

    Posté par  . Évalué à 4.

    Dans ma précipitation j'ai oublié de mettre les 3 scripts que j'évoque dans la partie Mise en oeuvre

    L'étudiant doit etre bien outillé pour aborder correctement son champ d'étude, voila le patch :

    conversion du fichier vocab.txt de gradint : vocab2wubi.sh

    #!/bin/bash
    
    
    
    vocabdir=/tmp/vocabdir_$(date +%d_%m_%Y)
    source=vocab.txt
    vocabtmp=vocab_tmp.txt
    vocabtmp2=vocab_tmp2.txt
    vocab2csv=vocabcsv.csv
    
    
    vocabwubi1=vocab_wubi_1.txt
    vocabwubi2=vocab_wubi_2.txt
    
    vocabwubifinal=vocab.wubi.final.csv
    vocabwubilast=vocab.wubi.final.0.1.csv
    
    ./vocab.2.csv.sh
    
    
    cd $vocabdir/
    
    cp $vocab2csv  $vocabwubi1
    
    
    cut -f1 $vocabdir/$vocab2csv  | uniconv -encode Chinese-WB | tr ' ' '.' > $vocabwubi2
    paste $vocabwubi1 $vocabwubi2  > $vocabwubifinal
    
    cat $vocabwubifinal | awk 'NF > 0'> $vocabwubilast
    
    echo "le fichier est dans" $vocabdir/$vocabwubilast
    
    

    canto2csv.sh pour la conversion du fichier de cantofish

    #!/bin/bash
    
    
    
    cantodir=/tmp/$cantodir_$(date +%d_%m_%Y)
    source=canto.txt
    cantofish=cantofish.txt
    cantoField1=cantoField_1_tmp.txt
    cantoField3=cantoField_3_tmp.txt
    cantoCSV=cantocsv.0.1.csv
    
    mkdir $cantodir
    
    
    cp $source  $cantodir/$cantofish
    
    
    cd $cantodir
    
    
    
    cut -f1  $cantofish  > $cantoField1
    
    cut -f3 $cantofish | cut -d "," -f1 > $cantoField3
    
    paste $cantoField1 $cantoField3 > $cantoCSV
    
    echo "le fichier est dans" $cantodir/$cantoCSV
    
    

    et final.csv pour fusionner les deux si nécessaire :

    #!/bin/bash
    vocabdir=/tmp/vocabdir_$(date +%d_%m_%Y)
    vocab2csv=vocabcsv.csv
    
    
    cantodir=/tmp/$cantodir_$(date +%d_%m_%Y)
    cantoCSV=cantocsv.0.1.csv
    
    finalvoc=/tmp/final.voc_$(date +%d_%m_%Y).csv
    
    
    cat  $vocabdir/$vocab2csv  > $finalvoc
    cat $cantodir/$cantoCSV >> $finalvoc
    
    echo "le fichier est dans" $finalvoc 
    
    
    • [^] # Re: ajout

      Posté par  . Évalué à 3.

      … Et le script d'ajout de la ligne Wubi après analyse de texte :

      Chinese.2.wubi.sh (dénommé Chinese.sh dans le texte )

      #!/bin/bash
      #   set -xv 
      # prend en entré un fichier txt formaté par cantofish 
      
      # cantofish  à fait office de segmenteur manuel 
      rm -rf /tmp/chinese2Wubi/ 
      mkdir /tmp/chinese2Wubi/
      echo "Entrez le chemin du fichier : "
      read cantoDicInput
      # enregistrer le path dans un fichier
      echo "$cantoDicInput" > /tmp/chinese2Wubi/cantoDic.var.0.1.txt
      
      cantoDic=$(cat /tmp/chinese2Wubi/cantoDic.var.0.1.txt)
      chineseWubi=/tmp/chinese2Wubi/chinese.wubi.code.0.1.txt
      
      
      cantoDicWc=/tmp/chinese2Wubi/cantoDicWc.0.1.txt
      chineseWubi2=/tmp/chinese2Wubi/chinese.wubi.code.0.2.txt
      chineseWubi3=/tmp/chinese2Wubi/chinese.wubi.code.0.3.txt
      chineseZhWb=/tmp/chinese2Wubi/chinese.zh.wb.0.1.txt
      chineseCol=/tmp/chinese2Wubi/chineseCol.0.1.txt
      
      # chineseZhong=/tmp/chinese.zhongwen.0.1.txt
      
      #chineseZhWb=/tmp/chinese.zh.wb.0.1.txt
      
      
      #Format content and create second file for wubi code 
      
      # prend seulement les signes chinois de la premieère colonne et les placer en horizontal 
      #cut -f2  "$cantoDic"  | cut -d " " -f1 | tr '\n' '\t'   >  "$chineseZhong" 
      
      tr -d '\n' < $cantoDic > $chineseWubi
      
      #cp "$cantoDic"  "$chineseWubi"
      
      # nombre de signes (necessaire pour les colonnes sous awk  ) 
      cat "$chineseWubi" | wc -w > "$cantoDicWc"
      
      # remplacement dans le fichier copie de l'originaire des espaces par des tabulations pour remplacer créer fichier "csv-like" 
      
      cat $chineseWubi | tr ' ' '\t' > $chineseWubi3
      
      # # Inventaire En sortie 
      # # 
      # # 1 fichier path ( /tmp/cantoDic.var.0.1.txt ) , but utiliser pour copier fichier originaire 
      # # 1 copie du fichier originaire ( /tmp/chinese.wubi.code.0.1.txt ) , but utiliser pour convertir en wubi tout en préservant fichier originaire 
      # # 1 fichier nombre de mot (wc , wordcount :/tmp/cantoDicWc.0.1.txt ) , but utiliser pour calculer le nombre de colonne pour awk
      
      
      
      # # # zh2wubi format section 
      
      # conversion en wubi ( /tmp/chinese.wubi.code.0.1.txt ) 
      
      cat $chineseWubi3 | uniconv -encode Chinese-WB >> "$chineseWubi2"
      
      
      # remplacement dans le fichier wubi des espaces par des points pour séparer les groupes de mots en code wubi
      
      cat "$chineseWubi2" | tr ' '  '.' > "$chineseZhWb"
      
      
      # Inventaire sortie 
      # le fichier wubi est convertie 
      # l'espace est remplacé par un point entre les codes wubi
      
      
      
      # # # wubi mix section
      
      # Add wubi line 
      cat  "$chineseWubi3"  > "$chineseCol"
      echo -e "" >> "$chineseCol"
      cat "$chineseZhWb" >> "$chineseCol"
      echo -e "" >> "$chineseCol"
      echo -e "" >> "$chineseCol"
      
      
      #firefox "/tmp/chinese.test.0.1.txt" & 
      
      
      
      cantoDic=$(cat /tmp/chinese2Wubi/cantoDic.var.0.1.txt)
      cantoDicWc=/tmp/chinese2Wubi/cantoDicWc.0.1.txt
      
      
      wubiFinal=/tmp/chinese2Wubi/wubi.txt
      wubiFinalTab=/tmp/chinese2Wubi/wubi.final.0.1.txt
      wubiFinalTab2=/tmp/chinese2Wubi/wubi.final.0.2.txt
      
      
      chineseZhWb=/tmp/chinese2Wubi/chinese.zh.wb.0.1.txt
      
      compteur=1
      
      nombre_de_colonne=9
      
      borne_fin=$(expr $(cat "$cantoDicWc" ) / "$nombre_de_colonne" )
      
      
      debut=1
      suite=9
      
      #touch $wubiFinal
      while [ "$compteur" -le   "$borne_fin" ]
      do 
      
      
      
      awk -v f="$debut" -v t="$suite" '{ for (i=f; i<=t;i++) printf("%s%s", $i,(i==t) ? "\n" : OFS) }'  "$chineseCol"  >> "$wubiFinal"
      
      echo -e "" >> "$wubiFinal"
      
      
      
      
      
      compteur=$(expr "$compteur" + 1)
      
      
      debut=$(expr "$suite" + 1 ) 
      suite=$(expr "$nombre_de_colonne" \* "$compteur" )
      done
      
      
      
      
      
      cat "$wubiFinal" | tr  ' ' '\t' > "$wubiFinalTab"
      
      #cat "$wubiFinalTab" | tr  '.' ' ' > "$wubiFinalTab2"
      
      
      
      echo "le fichier est dans" "$wubiFinalTab"
      
      
    • [^] # Re: ajout

      Posté par  . Évalué à 2.

      le fichier ./vocab.2.csv.sh invoqué par vocab2wubi.sh

       #!/bin/bash
      
      
      
      vocabdir=/tmp/vocabdir_$(date +%d_%m_%Y)
      source=vocab.txt
      vocabtmp=vocab_tmp.txt
      vocabtmp2=vocab_tmp2.txt
      vocab2csv=vocabcsv.csv
      
      mkdir $vocabdir
      
      
      cp $source  $vocabdir/$vocabtmp
      
      
      cd $vocabdir
      
      sed '/#/d' $vocabtmp > $vocabtmp2
      
      tr  '=' '\t' < $vocabtmp2 > $vocab2csv
      
      echo "le fichier est dans" $vocabdir/$vocab2csv
      
      
  • # se souvenir des idéogrammes

    Posté par  (site web personnel) . Évalué à 4.

    c'est bien, mais une méthode pour cela est utile : pour le japonais il y a cet excellent livre de Maniette "les Kanjis dans la tête", qui est une adaptation de "remembering the kanjis"

    http://www.maniette.fr/
    http://en.wikipedia.org/wiki/Remembering_the_Kanji_and_Remembering_the_Hanzi

    Sinon on se retrouve à regarder un idéogramme, et à se dire "je le connais, mais c'est quoi son sens/sa prononciation…
    Je ne sais pas si cela existe pour le chinois (il y a des différences, plus cosmétiques qu'autre chose).

    A part cela, gros travail, ça mériterait une dépêche ton journal.

    ウィズコロナ

    • [^] # Re: se souvenir des idéogrammes

      Posté par  . Évalué à 2. Dernière modification le 26 juillet 2012 à 09:56.

      D'après wikipedia les kanjis sont :

      Les kanjis (漢字, kanji?) sont les caractères (字, ji?) chinois (ou sinogrammes) empruntés à l'ethnie chinoise Hàn (漢, kan?) et utilisés en langue japonaise. Les kanjis contiennent également une très petite proportion de caractères créés au Japon, appelés kokuji. Pour chaque kanji, on distingue trois attributs fondamentaux, que sont ses significations (jigi), ses prononciations (kanji no yomikata, lectures) et ses formes2 (jitai). Au sein de l'ensemble des caractères, des listes officielles régissent l'usage pour les textes courants et les prénoms.

      Chaque kanji possède une ou plusieurs significations, de même qu'une ou plusieurs lectures ; le contexte dicte la signification et la lecture à adopter.

      Un kanji peut avoir plusieurs formes, en particulier une forme ancienne et une forme réformée (officielle). En effet, la forme officielle des kanjis a évolué au travers de réformes de simplification décrétées successivement à partir de 1923 (appliquées après la fin de la Seconde Guerre mondiale). Globalement, les réformes des kanjis au Japon ont été moins draconiennes que celles appliquées aux sinogrammes dans la Chine communiste.

      Merci pour le lien, je pense que les Kanjis sont l'équivalent des radicaux en chinois. Justement le système que propose le journal a pour objectif de mettre en oeuvre ces radicaux d'une manière qui optimise sa vitesse d'apprentissage tout en à la rendant plus durable. Et dans ce système le Wubi en est la clés de voute puisque lui meme basé sur la logique des radicaux.

  • # Wubi

    Posté par  (site web personnel) . Évalué à 3.

    Pour le problème du "dee" 历 , il s'avère qu'il est bien présent dans la table ibus. Mais comme trop de caractères / mots commencent par dee, celui-ci n'est pas affiché.

    Donc
    * Peut être un problème dans les fréquences indiquées dans la table (fréquences associées à chaque caractères)
    * Peut être un point à améliorer dans ibus-table directement : commencer par afficher les résultats pour "dee" , puis seulement les résultats de 4 caractères commençant par dee.
    Voir la discussion à ce sujet : http://code.google.com/p/ibus/issues/detail?id=1164

    Au passage : un paquet Wubi 98 a été proposé pour fedora mais la revue ne peut avancer pour l'instant (je crois qu'on en a encore pour un an de copyright).
    https://bugzilla.redhat.com/show_bug.cgi?id=841352

    • [^] # Re: Wubi

      Posté par  . Évalué à 2. Dernière modification le 27 juillet 2012 à 13:56.

      Il semble que cela soit dû à un problème de brevet logiciel.

  • # Merci

    Posté par  . Évalué à 1.

    Je tiens à te remercier pour cet incroyable compte rendu de tes recherches sur l'apprentissage et l'utilisation du chinois sous Linux. Je tiens à t'exprimer toute ma gratitude. C'est quand même un travail énorme que tu as fait.
    Je suis en train d'apprendre le chinois et je vais d'ailleurs aller en Chine pour la première fois dans les jours qui viennent. J'espère pouvoir convertir des amis chinois à Linux dans le futur et aussi apprendre le wubi…

    • [^] # Re: Merci

      Posté par  . Évalué à 2. Dernière modification le 27 juillet 2012 à 13:09.

      De rien, c'est juste ma façon de contribuer à la communauté. En tous cas ça fait plaisir à entendre :).

      Aussi lorsque tu seras en chine, ce serait intéressant que tu puisses y trouver des Lugs locaux (l'idéal ce serait dans les grandes villes ) et nous faire un topo de la manière dont les libristes chinois percoivent la situation du logiciel libre dans leurs pays (l'angle sous lesquels la majorité l'envisage - (économique, politique , technique etc… )) Ainsi que des Ubuntu store qui se sont ouvert ( http://blog.canonical.com/2011/10/27/retail-stores-in-china/ ). Je soupçonne qu'en creusant le sujet cela puissent nous éclairer sur l'essor du libre en asie :).

      Au fait si c'est pas indiscret, tu vas où ?

  • # Pleco

    Posté par  . Évalué à 1.

    Je ne sais pas si tu n'en as pas parlé parce qu'il n'est pas libre ou parce que tu ne l'as jamais rencontré, mais le dictionnaire Pleco est un incontournable pour apprendre le chinois (http://www.pleco.com). L'interface est sympathique mais ce qui fait la différence est la très bonne qualité des dictionnaires. Même si tu ne peux pas l'inclure dans ta liste, cela mérite une note ou une comparaison, beaucoup de gens vont juger tout nouveau dictionnaire par rapport à Pleco.

    Plus généralement, avoir des outils sur un ordinateur c'est bien, mais (et notamment pour les gens vivant dans un environnement sinophone) avoir un dictionnaire électronique tout le temps sur soi est un énorme gain. Au quotidien, je n'ai pas d'outils spécifiques pour le chinois sur mon ordinateur, je n'ai que la saisie pinyin avec Ibus (et le wubi qui me nargue et que j'attaque périodiquement mais qui me résiste encore …). Si je cherche un mot que je ne connais pas, je sors juste mon téléphone. Ah si, j'ai eu une phase flashcard assez intense, où j'utilisais Anki religieusement, à l'époque où j'apprenais sérieusement au lieu de juste chercher les mots nécessaires.

    Au fait, tu apprends (as appris) le chinois où? Depuis quand? Comment?

    • [^] # Re: Pleco

      Posté par  . Évalué à 2.

      D'après le site, Pleco est un dictionnaire électronique disponnible uniquement sur iphone, andoid et windows mobile (en tous cas c'est ce que propose la section download ). Je ne connais pas Pleco, mais si celui-ci est destiné à la plateforme mobile uniquement, alors il n'est pas adaptés aux objectifs que je m'étais assignés. A savoir apprendre à lire un long texte en chinois sur un sujet donné. Ce que je veux dire c'est qu'il semble que le logiciel (qui j'imagine comporte d'excellent dictionnaires), apparaît adapté à l'execution d'une tache simple rapidement (donner la traduction d'un caractère ou d'un mot composé ). Hors l'objectif ici est l'éxecution de manière la plus optimale possible d'une tâche complexe (apprentissage de la lecture dans une langue dont quasi aucun postulat sémantique ne nous relie). Pour l'éxecution de tâche complexe , l'ordinateur reste la plateforme la plus rapide. Tant par sa vitesse d'éxecution découlant de sa configuration (processeur , ram etc… ) que par son ergonomie (souries, clavier taille adapté, écran plus grand … ) et sa souplesse (script bash en particuler ).

      La traduction n'est qu'une partie du problème à résoudre, et comme tu en as fait l'expérience, il y a une grande différence entre le processus d'apprentissage et la nécessité de répondre à l'urgence du terrain par un traducteur mobile.

      Le fait qu'il ne soit pas libre ne m'interdit pas de le testé et de le comparé avec les solutions libres. Pour mesurer l'étendu de chacunes d'entre-elles. Bien entendu, l'idéal est d'avoir des logiciels libres pour toutes ces tâches, mais leurs absences ne doit pas devenir un frein insurmontable.

      • [^] # Re: Pleco

        Posté par  . Évalué à 1.

        En effet, c'est uniquement sur plateforme mobile. Cependant, il ne donne pas uniquement la traduction d'un mot donné, il intègre aussi un lecteur qui permet de lire un texte en utilisant le dictionnaire si on besoin pour un caractère (à la Peraperakun (que tu as un peu tendance à écorcher dans ton journal)). Je le mentionne précisément parce que ton objectif est de lire un texte long. Mon premier roman complet en chinois, je l'ai chargé dans mon téléphone et je l'ai lu pendant mes heures de métro. Je ne l'aurais jamais lu s'il avait fallu que je m'assoie à mon desktop pour m'y mettre. Et maintenant, quelque soit le texte que je lis (livre papier, ordinateur, panneau publicitaire, recette de cuisine, explication d'un tableau, etc.) ou même dans une discussion, j'utilise mon téléphone comme dictionnaire. Je ne veux pas avoir l'air de faire trop de la pub pour ce logiciel, j'insiste juste sur le fait qu'avoir un dictionnaire de qualité et efficace en permanence sur soi me semble beaucoup plus important qu'avoir des outils efficaces sur un ordinateur (ce qui est très utile aussi, mais dans un cadre plus restreint).

        il y a une grande différence entre le processus d'apprentissage et la nécessité de répondre à l'urgence du terrain par un traducteur mobile.

        Je ne suis pas vraiment d'accord en fait. La plus grande partie de mon processus d'apprentissage s'est faite dans l'urgence du terrain. J'ai appris un peu de chinois en France en suivant des cours, mais cela fait quelques années que je n'ai pas eu de cours formels de chinois et que j'apprends en étudiant seul, c'est-à-dire surtout en lisant, en discutant, en écoutant dans la vie de tous les jours et le travail. C'est d'ailleurs pour ça que je demandais où tu apprends le chinois, parce que tu as une vision beaucoup plus abstraite et théorique.

        Enfin bref, si tu as trouvé une méthode qui fonctionne, tant mieux ! J'espère que tu vas faire des émules !

        Une dernière note, connais-tu le site nciku.com qui permet notamment de tracer le caractère à la souris et de le retrouver? C'est ce que j'utilise quand mon téléphone n'est pas disponible et cela marche pas mal.

        • [^] # Re: Pleco

          Posté par  . Évalué à 2. Dernière modification le 29 juillet 2012 à 10:24.

          Je suis parfaitement d'accord de dire que la rapidité d'accès à l'information est plus grande lorsque tu as un dictionnaire électronique mobile avec toi (toute chose égale par ailleurs ). Il est évidemment plus rapide d'ouvrir son smartphone et de lire dessus lors des déplacement que de le faire avec un laptop ou meme un netbook. Cela est dû à la taille du smartphone. Cet argument est particulièrement pertinent lorsqu'on est constamment en déplacement.

          Si l'on compare l'ordinateur et le smartphone (qui est un mini ordinateur adapté à son usage) sur les autres critères que la mobilité, l'ordinateur devance néanmoins les smartphones.

          Puissance de calcul: la cadence d'un processeur sur un ordinateur actuel dépasse toujours celle d'un smartphone.
          Stockage : Un disque dur d'ordinateur dépasse en général les 32 GB d'une carte SD (qui est le maximum actuel je pense)
          Ergonomie : l'écran d'un ordinateur est plus grand que n'importe quel smartphone.
          flexibilité : il m'est plus rapide d'écrire un script bash devant mon ordinateur , que devant un smartphone (notamment à cause du clavier ).

          Dans le contexte ou l'on est constamment en mobilité , je suis tout à fait d'accord que le smartphone est plus efficace. L'efficacité est fonction de l'objectif à atteindre qui lui même est fonction du contexte dans lequel il s'inscrit. Je suis partie de l'hypothèse de quelqu'un qui est devant son ordinateur et donc qui dispose de toutes la puissance nécessaire pour faire les traitement , et qui souhaite apprendre le chinois sous un système libre.

          Cela signifie que la profondeur de l'apprentissage sera grandement influencé par l'urgence du terrain, le choix de l'utilisateur se réduit. Ce que je veux dire par là , c'est que si l'on fait dépendre son apprentissage de la seule urgence du terrain, alors on ne pourra pas aller plus loin que ce que l'urgence amène à un moment donnée (c'est à dire j'apprends parce qu'il faut bien répondre à l'urgence, contra : j'apprends cette matière parce que j'ai décidé que c'est celle-ci qui m'intéresse ).

          En quoi ma vision est elle théorique ?

          J'ai pas pour but de faire des émules, juste de partager mon expérience. Je n'ai pas la prétention qu'elle soit adaptés à tous les cas de figure. Je fais un rapport de ce que j'expérimente.

          Oui je connais nciku, je l'ai mentionné dans l'article. Je l'utilise pour trouver des exemples de phrases. Mais comme tu le mentionnes il supporte aussi en l'input en trait.

    • [^] # Re: Pleco

      Posté par  . Évalué à 3. Dernière modification le 28 juillet 2012 à 11:37.

      J'ai toujous baigné de manière passive dans le chinois, a chaque fois que l'on m'a fait apprendre cette langue, j'en suis repartit dégouté :)
      Jusqu'à ce que je comprenne qu'en fait le problème ne se trouvait pas dans la langue mais dans la méthode. L'approche.
      La majorité des méthodes traditionnelles que j'ai testé (école de chinois, école de traduction-interprétariat… ) comporte deux lacunes majeures à mes yeux. Elles ne suscite ni l'intérêt de son public lors de l'apprentissage, ni n'est adaptés au niveau méthodologique au contexte culturelle. En sommes elles essaient de faire adapter le public à la méthode et non l'inverse.

      On ne peut pas faire apprendre le chinois à des enfants de la même manière en chine , qu'en europe, car le contexte culturelle est radicalement différent. Ne pas prendre cette univers culturelle de base en compte c'est simplement sous optimisé la méthode d'apprentissage. ( pour être caricatural C'est comme installer une Slackware chez ma grand mère, et lui laisser gérer ses dépendances elles mêmes.)

      On ne peut pas faire apprendre le chinois à des adultes de la même manière qu'a des enfants, même remarque. Les centres d'intérêt et la manière diffèrent radicalement.

      Partant de ce constat, j'ai décidé de faire les choses moi même au niveau de la méthodologie. Et bon , les résultats sont bien plus positifs maintenant de mon point de vue.

      Cette langue devient vraiment intéressante lorsqu'on arrive à percer ses mystères. C'est comme apprendre un nouveau langage de programmation avec des paradigmes qui nous étaient totalement inconnus. Pour arriver à mettre en pleine lumière les secrets d'un langage qui se dérobe , il est capitale de se doter des bons outils.
      Comment ? De la manière dont je décris mes démarche dans les journaux à ce sujet.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.