Journal Apprendre à lire et taper en chinois avec des outils libres

Posté par eastwind☯ le 06 octobre 2011 à 00:42. Licence CC By‑SA.

Étiquettes :

oct.

2011

Sommaire

Conclusion provisoire :

Introduction

Chers lecteurs , chères lectrices

Aujourd'hui je souhaitais vous faire partager mon expérience dans la recherche d'outil le plus libre possible pour l'apprentissage du chinois. La compétence particulière sur laquelle je me focaliserai est celle de la lecture et de l'entrée au clavier de caractère chinois. Le but principal est à terme de pouvoir lire des textes chinois courant (genre wikipedia ) et de pouvoir taper des mots chinois rapidement (essentiellement pour faire des recherches sur Internet , pas vraiment pour y écrire une thèse de doctorat )

I. Lire le chinois

Plusieurs avantages et inconvénients se posent dès le départ :

Les avantages :

il n'est pas possible de faire de fautes d'orthographe (une faute d'orthographe correspondrait en même temps à une faute sémantique ) .
les conjugaisons n'ont pas autant de formes aussi subtiles que celle de notre Beschrelle. La grammaire aussi est plus simple.
La forme est très analogique ce qui est assez esthétique et très plaisant intellectuellement lorsqu'on aime l'étymologie .

les inconvénients

il faut tout réapprendre à partir de zéro .
- au départ, il est déroutant de ne pouvoir prononcer un mot inconnu (étant donné que les sons ne sont pas associés de manière systématique au caractère - même s'il y a une certaine association par analogie - ) -en français quel que soit le mot nouveau inconnu, il est possible de le prononcer plus ou moins correctement -ce qui est déjà une manière de se l'approprier.
- l'espace n'est pas utilisé pour séparer les différents mots, d'où la difficulté à tracer la frontière entre ceux-ci (cf. les segmenteurs)
Il existe deux systèmes d'écriture en chinois ,
- le système traditionnel et le système simplifié. Le système d'écriture simplifié est comme son nom l'indique une simplification du système traditionnel qui était en vigueur. La chine en majorité utilise ce système. Le système traditionnel a été maintenu à Taïwan et à Hong Kong . L'avantage du traditionnel est de pouvoir revenir facilement à l'étymologie, et pouvoir encore lire des textes très anciens (quelque milliers d'années) car il n'a pas vraiment changé. Le système simplifié est plus clair et lisible mais perd une partie de son lien avec les "ancêtres".

1.1 l'objectif : associer un sens à un idéogramme

1.1.1 les dictionnaires électroniques avec Firefox

traduction d'expression chinoise

sous firefox les greffons Cantofish et Perakun sont des dictionnaires contextuels par "rollover ". En passant la souris sur les idéogrammes, un popup contextuel coloré s'affiche. Il contient la traduction en anglais, la transcription en phonétique pinyin et la représentation tant en chinois simplifié que traditionnel de l'idéogramme.

 traduction chinois traditionnelle vers simplifié et vice versa

Le greffon New Tong Wen Tang a pour but de convertir une page web codée en chinois traditionnel vers le chinois simplifié et vice versa.

J'ai aussi testé d'autres greffons mais ils ne m'ont pas convaincu.

1.1.1 les dictionnaires électroniques sans Firefox

**Goldendict hors ligne**

Au niveau des dictionnaires non liés à Firefox, il y a Goldendict. Goldendict est le remplaçant du fameux stardict qui semblerait avoir eu des problèmes de "propriété intellectuelle", selon son site officiel. C'est dommage car le libre "perd" véritablement des dictionnaires très bien fournis. Neanmoins pour ceux qui possèdent encore des dictionnaires au format Stardict, Goldendict reconnait le format de son prédécesseur.

**Goldendict en  ligne**

Goldendict outre les dictionnaires hors ligne, l'on peut aussi y ajouter des dictionnaire en ligne. J'ai pour ma part ajouté le dictionnaire étymologique chinois chinese etymology, ainsi que le site Animated chineses characters .

respectivement chinese etymology retrace l'étymologie de l'idéogramme. Animated character : montre sous forme de gif animé les tracés des traits du caractère.
Zhongwen.com permet de voir l'arbre généalogique d'un caractère (étant donné que les caractère sont le plus souvent composé de radicaux cela permet de remonter à la source de sa dénomination actuelle. - un peu comme lorsqu'on essaye de comprendre les racines d'un mot composé en français (ex : cybernétique).

Ajouter un dictionnaire en ligne

pour ajouter un dictionnaire en ligne il suffit d'y copier-coller l'url qui envoie la requête de l'idéogramme voulu, et d'y remplacer par la chaîne de caractère %GDWORD%
pour chinese etymology cela donne : http://www.chineseetymology.org/CharacterEtymology.aspx?submitButton1=Etymology&characterInput=%GDWORD%. Animated chineses characters : http://lost-theory.org/ocrat/chargif/search.py?string=%GDWORD%. J'ai aussi voulu y ajouter zhongwenlookup mais cela ne fonctionne pas tout à fait, il donne bien le mots mais la page n'affiche pas la page de zhongwen.com. Il existe un script bash nommé harb qui permet d'entrer au terminal le caractère et celui-ci ouvre la page firefox de zhonwen.com avec le caractère concerné

gnu@robby:~$ ./harb.sh 法　
http://zhongwen.com/d/170/x107.htm
gnu@robby:~$

L'autre raison pour laquelle zhongwen.com est problématique, c'est qu'il ne gère pas encore l'utf8. Le même auteur a créé un outil en ligne pour trouver rapidement un caractère sur zhonwen.com sans les limitations de celui-ci : zhonwenlookup

1.1.1.1 considérations sur les segmenteurs

Une des difficultés avec le chinois, c'est qu'il n'y a quasi jamais d'utilisation de l'espace en tant que séparateur entre deux mots ou groupe de mots. Ce fait entraîne une difficulté à tracer la frontière sémantique entre deux idéogrammes ou groupes d'idéogrammes. D'autant plus difficile qu'il y a facilement, par le truchement d'un certain néologisme, des mots composés.
C'est une difficulté non négligeable. Les chinois n'ont pas ce problème car ils reconnaissent les différents groupes de mots intuitivement, la séparation se fait mentalement grâce au contexte culturel. Mais ce support n'est pas disponible si l'on ne baigne pas dans ce contexte (cf. dictionnaire non électronique ), ce qui en fait un handicap dans l'apprentissage de la langue.
Pour rendre explicite l'implicite, des segmenteurs ont été inventés. Le but de ces logiciels est de pouvoir mettre un espace entre les différents groupes d'idéogrammes.

Segmenteurs classiques

J'ai essayé plusieurs segmenteurs, et il semble qu'aucun de ceux-ci ne soit encore parfaitement au point. Dès qu'on s'éloigne un tant soit peu de phrases générales du langage courant (la météo, le temps, les marques de politesses...), ils n'arrivent plus à tracer la frontière correctement. Ceci est dû au type de méthode utilisé lors de la segmentation (fichier faisant office de base de données statique de correspondance).
Je mentionne les logiciels que j'ai testés pour simple information :

tree tagger un segmenteur indépedant de la langue à traiter
un segmenteur écrit en java qui gère l'utf8 nommé segemnter hebergé sur le site mandarintools. Une version en perl est aussi dispo mais je ne la conseille pas car elle ne gère pas l'utf8 et il manque des fichiers.

Segmenteur sémantique

             Introduction

Pendant mes pérégrinations sur le net, j'ai aussi découvert un segmenteur sémantique.
Celui-ci non seulement ajoute les espaces entres les mots, mais aussi analyse le texte selon son contexte lexical et sémantique pour y adjoindre un tag indiquant la nature/fonction des idéogrammes. Ce projet de recherche nommé ASSERT (Automatic Statistical SEmantic Role Tagger) de l'université de Hong Kong basé sur différentes bases de données (tree pennsylvania bank, et beijing university) utilise les travaux publié par le MIT sur la segmentation sémantique en chinois par réseaux de neurones.

               Installation

L'installation est assez longue et assez fastidieuse car il semblerait qu'il y ait des problèmes dans le script bash d'installation (notamment cut et la vérification des dépendances nécessaires), j'ai corrigé l'erreur de syntaxe sur cut (cut 1-7 à la place de cut-0-7) et j'ai installé toutes les différentes dépendances nécessaires, j'ai commenté la vérification des dépendances (car il y a aussi une erreur même si la dépendance est bien installée). J'ignore précisément où sont les problèmes mais cela semble fonctionné correctement. L'analyse d'un texte prend un peu de temps. Parfois il y a des "warnings" concernant un hypothétique manque de mémoire allouée à jvm, mais je n'ai pas eu de problème même sur de longs textes.

               Utilisation

Il donne plusieurs fichier en sortie, les plus intéressants sont le fichier .pos (Part-of-Speech) et éventuellement le fichier ".tree". Le fichier .pos contient l'analyse grammatical du texte, et le fichier tree contient l'analyse de l'arborescence textuelle. Voici ce que cela donne en sortie du fichier pos :

En prenant pour exemple la première phrase de l'article wikipedia sur Linux :

Linux是一種自由和開放源碼的類Unix計算機操作系統

Ｌｉｎｕｘ_NR 是_VC 一_CD 种_M 自由_NN 和_CC 开放_VV 源码_VV 的_DEC 类_NN Ｕｎｉｘ_NN 计算机_NN 操作_VV 系统_NN

À la page 38 du fichier "guide sur le part of speach" se trouve le tableau des abréviations (NR nom propre , NN nom commun , CC conjonction de coordination...).

Cette analyse sémantique est très utile mais du fait que le segmenteur a été entrainé sur des articles de journaux généralistes chinois des dix dernières années. Il segmente parfois des mots composés, cela permet de voir la composition des mots , mais n'est pas tout à fait correcte niveau grammatical . Cantofish est beaucoup plus précis. Cela permet néanmoins de découvrir des mots qu'on peut utiisé dans d'autre contexte et d'enrichir son vocabulaire .
par exemple c'est comme s'il segmentait le mot c'est-à-dire en c'est | à | dire et qu'il mettait verbe pour dire alors que l'unité de sens est l'ensemble de l'expression "c'est-à-dire" . On peut le voir pour " 操作_VV 系统_NN " qu'il a segmenter en , exploiterVV, systèmeNN (ce qui serait juste en français pour désigner le mot système d'exploitation ) mais en chinois il forme un mot composé qui aurait du être tagger de cette manière : 操作系统__NN , ce que reconnait Cantofish.

1.1.2 les dictionnaires papiers

Ce ne sont pas à priorie des dictionnaires libres hélas. Je le mentionne pour référence car ils restent très utiles par leurs approches originales des idéogrammes. Je ne mentionne pas les dictionnaires classique ici. Mais des dictionnaires qui par leur méthodologie différente du classements des signes permettent de faciliter grandement l'accès à la compréhension et à la lecture. Si par contre certain souhaite faire des dictionnaires libres , je suis sûr que les deux modèles ci-dessous pourraient les inspirées.

      **Dictionnaire permettant "d'adjoindre le contexte culturelle"**

Ce contexte culturelle qui fait défaut, peut être en partie palier avec le dictionnaire Chinese-English Frequency Dictionary: A Study Guide to Mandarin Chinese's 500 Most Frequently Used Words (English and Mandarin Chinese Edition) par Yong Ho.

Le livre sélectionne les 500 idéogrammes les plus fréquents et les classe par ordres de fréquence, mise à part la traduction littéral de l'idéogramme, il y adjoint une explication des différents usages fréquemment utilisé dans le contexte culturelle actuelle.
L'auteur est professeur d'anthropologie et de linguistique à New york (ceci expliquant cela sans doute ). Le livre est concu à la fois comme un dictionnaire et à la fois comme un support d'étude auto-didacte.

    **Dictionnaire permettant de décomposé rapidement les caractères en radicaux**

Le second dictionnaire est le Chinese Character Fast Finder: Simplified Characters. L'auteur à classé les 3200 idéogrammes nécessaire au test officiel de chinois HSK en une liste permettant de retrouver un idéogramme en se basant uniquement sur la structure propre de celui-ci.
Le classement de la structure général de l'idégramme par rapport à son radical, jusqu'au plus précis. par l'idéogramme "法"　（la loi) , a une structure tel que l'on peut la décomposé en "氵" (a droite ) et a gauche au dessus "土" et en dessous "厶". 氵+ 土 + 厶 , ce qui se ramène à 氵 + 去 . La décomposition d'un idéogramme en ses différents radicaux donne plusieurs avantage :

il permet d'avoir accès à l'étymologie (et donc de faciliter la mémorisation de son sens )
il permet de se rappeler du son lorsque c'est un idéo-phonogrammes
il permet de taper en wubi86 (méthode d'entrée au clavier basé sur la décomposition des radicaux )
- cela permet d'avoir indirectement un entrainement à l'enchainement des traits (et donc à l'écriture de l'idéogramme )
l'on retrouve le caractère rapidement sans devoir connaitre son pinyin, mais simplement en l'ayant vue.

L'ouvrage est imprimé sur du papier cartonné et est aussi destiné a être utilisé en voyage.

Note sur la traduction automatique de Google

Je n'ai à ce jour pas encore trouvé de traducteur automatique qui satisfasse pleinement les exigences qu'on pourrait attendre d'un traducteur humain. Le traducteur de google semble s'améliorer, mais pour ce qui est de se substituer à une personne cela ne me paraît pas encore acquis. Ce que je peux néanmoins souligner c'est que la prononciation de google translate m'a beaucoup surpris aujourd'hui. Elle commence à s'approcher fortement du mandarin parlé qui sonne juste. Ce qui est une bonne chose pour s'entrainer sa compréhension à l'audition ainsi que pour l'association du son à l'idéogramme.

1.2 l'objectif : associé un son à un idéogramme

Après avoir associer un sens à un idéogramme l'autre versant de la lecture est d'y lié un son donné. Pour ce faire il est necessaire d'avoir un logiciel de synthèse vocal.
j'ai utilisé ekho en premier lieu, celui ci est un logiciel qui à la base est destiné à l'acessibilité des malvoyants au web. Néanmoins il remplie très bien son office pour les étudiants en chinois aussi. Il suffit de lui donné en entré les idéogrammes voulus et il en ressort la prononciation.

L'on peut testé le logiciel via une l'interface web du site. Il possède aussi des fonctions d'export de la prononciation en fichier mp3 ou bien ogg.

exemple :
gnu@robby:~$ ekho 源码

Ensuite il y a aussi Gradint (qui est un lien mentionné sur le site d'ekho ). Celui ci est une interface en python-tk ou l'on a pour but de créer son répertoire personnelle de vocabulaire et de se le faire réciter suivant des lessons. J'utilise simplement sa fonction de stockage.
Le dernier est le moteur de traduction de Google, comme mentionné précédemment la prononciation est devenu très correcte au fil du temps, après un test sommaire aujourd'hui je pense que celui-ci est un bon complément au logiciel précédent.
Seul déception : il n'est pas libre.

II. Taper en chinois

Le système de saisi aura aussi pour autre but de renforcé l'acquisition de la compétence de lecture. Le second objectif est bien entendu de pouvoir saisir rapidement des idéogrammes lorsqu'une recherche est nécesssaire. Différents système pour entrée des caractères chinois existe. Le plus populaire est le pinyin, qui est une informatisation du système de romanisation de la langue chinoise par phonétique .
Ce système est majoritairement utilisé par monsieur tout-le-monde en chine. Mais d'autres systèmes existent. Notamment le wubi dans une version 86 et 98 .

2.1 l'objectif : entrer au clavier un idéogramme

je ne choisirais pas le système du pinyin pour l'entrée au clavier . et je vais m'en expliquer. Plusieurs problèmes se posent avec le pinyin en tant que système de saisie.
le premier c'est que le pinyin après avoir saisie le mot en phonétique, il est nécessaire de choisir dans une liste le mots qui correspond réellement à celui voulu. Dû au fait qu'il y a beaucoup d'homophones .
D'autre part si l'on ne connait pas la prononciation d'un caractère il est impossible de l'entrée au clavier.
La romanisation, utile pour la prononciation, ne permet pas d'appréhender la richesse des idéogrammes. L'on perd beaucoup des points mentionné à la décomposition de l'idéogramme (l'étymologie , l'idéo-phonogramme, l'enchainement des traits ) qui permette une acquisition de la compétence de lecture plus approfondie et plus durable.

Pour faire bref : Le pinyin est au wubi, ce que Latex est à Microsoft Word :)

2.1.1 Le Wubi : une saisi au clavier qui favorise la mémorisation .

le wubi permet de favoriser la reconnaissance de caractères, des compétence d'écriture , et de sémantique (par étymologie ) en même temps qu'il est utilisé. Il permet aussi d'arriver après apprentissage, une frappe au clavier d'une vitesse supérieur au pinyin.

 **Le foncitonnement du wubi.**

j'ai abordé dans mon paragraphe sur les dictionnaires non électronique la décompoisiton d'un idéogramme.
Prenons un autre exemple le mot "code source" : 源码
le premier caractère signifiant "source" "源" est composé de plusieurs radicaux .
氵+ 厂 + 臼 + 小 .
Chaque radicals est associé à une touche au clavier qui est prédifinie dans la keymap du wubi86. Il suffit dès lors simplement de taper chaque radicaux les uns à la suite des autres , littéralement comme une addition.
Ce qui donne dans notre cas 源 = 氵+ 厂 + 臼 + 小 = i + d + r + i = idri

En tapant "idri", on obtient le caractère voulu , il est aussi possible de simplifier , l'on peut taper simplement idr (premier , milieu , dernier ) par abréviation.

pour l'idéogramme code = 码 = 石 + 马 + 一 = dcg

  **Reflexion sur ce type de fonctionnement**

La première raison pour laquelle je trouve que c'est puissant , simple et éléguant , c'est qu'il n'est pas du tout nécessaire de savoir prononcer l'idéogramme (informations non disponible dans le caractère en tant que tel ) mais simplement de décomposé la structure visuelle par radicaux (cf dictionnaire non electronique ). De plus cette décomposition donne accès a un univers de sens étymologique qui permet de mieux comprendre la signification sous jacente. C'est participer au processus de formation de l'idéogramme qu'on retranscrit par la frappe.
Le nombre de combinaison à taper est très limité : on tape maximum 4 touches pour un caractères , en général le caractère est de trois touche. Il y a des combinaison avec 2 touches et une touche. Cela accroit la vitesse de frappe.
Finalement ce système de saisi se rapproche du paradigme Unix: faire une seule chose et le faire bien, combiner les différents modules entre eux .

On peut comparé la composition de l'idéogramme à l'entré d'une ligne de commande :

"ls | grep file | less " = "output"
"dcg" =  石 + 马 + 一  =   "码"

cela permet aux libristes familiers de la ligne de commande de revenir dans un système au postulats épystémologiques déjà connu : la philosophie Unix .

**Les cinq zones du claviers**

_Au commencement était le clavier_

La keymap wubi86 classe les différents radicaux sur un clavier qwerty . le clavier est divisé en cinq grandes zones auxquelles correspondent les différents traits de base.

1.Les radicaux ayant pour premier trait , un trait horizontal (一) font partie de la zone ASDFG

Les radicaux ayant pour premier trait , un trait vertical (丨) font partie de la zone HJKLM
Les radicaux ayant pour premier trait , un trait descendant à gauche (丿) font partie de la zone QWERT
Les radicaux ayant pour premier trait , un trait descendant à droite (丶) font partie de la zone YUIOP
Les radicaux ayant pour premier trait , un trait en crochet (丿) font partie de la zone XCVBN

La touche Z sert à différencier des caractères chinois proches

Chacunes des touches est gouverné par un idéogramme fréquemment utilisé et qui commence par les traits de la zone. subsidiairement une numérotation positionnelle est donnée à chaque touche du clavier (mais elle n'est pas très utiles). La lettre G a la numérotation 11, tels que zone 1, première lettre 1 , la lettre F 12 zone 1 deuxième lettre (en fait 1.2 ) etc ...

    Accès aux combinaisons

la question qui se pose maintenant est de savoir comment peut on connaitre la combinaison de touche qui amène a un caractère donnée. Il y a ici à mon avis une très grande lacune à combler pour le libre.

Fort heureusement il existe certain logiciel qui donne accès au code du caractère nommé : Yudit et Goldendict

Un dictionnaire stardict qui affiche les codes correspondant peut être utilisé dans Goldendict

Yudit est un éditeur texte qui a une interface qui s'approche de la ligne de commande, qui a été écrit au temps ou l'utf8 n'existait pas encore. l'auteur du logiciel a du jongler entre les caractères japonais et hongrois . actuellement yudit supporte l'utf8 en standard. Yudit possède un parser qui s'appelle uniconv, il permet de transformer n'importe quel suite de caractère du chinois simplifié en son équivalent wubi86
bien entendu dans la tradition unix :

gnu@robby:~/Downloads$ echo 源码 | uniconv -encode Chinese-WB idr dcg

et l'opération inverse

gnu@robby:~/Downloads$ echo idr dcg \  | uniconv -decode Chinese-WB
源码

Ce que j'avais dans un premier temps fait pour convertir un texte dans sa version wubi86 était

d'enregistrer via cantodict la liste des mots (en fait je segmentait à la souris via cantodict ) et ensuite je le mettais dans un script qui donnait en sortie un fichier csv avec deux rangé, l'une d'idéogramme et en dessous de wubi. Le .csv était convertie ensuite en html via un service en ligne pour bénéficier d'un rendu correct sous firefox et du plugin cantofish. Cela fonctionnait assez bien mais le problème principal se trouvait dans le fait de segmenter à la main les groupes de mots.
N'étant pas un professionnelle du bash scripting, ceux ci sont assez rudimentaire et mal érit, le script principal est zh2wb.0.2.sh
C'était la raison pour laquelle j'ai commencé à me tourner vers des segmenteurs automatiques.

l'autre manque que j'ai constaté se trouve dans l'absence d'affichage du code wubi86 dans les dictionnaires rollover (cantodict, perakun...). Bien qu' ayant cherché le moyen d'intégrer une nouvelle rangé avec du wubi86 dans cantodict, je n'ai pas continuer étant donné que mes connaissance en developpement de plugin firefox sont plus que limité.

Néanmoins j'ai déjà auparavant convertie la base de mot du plugin chinese popup, un autre dictionnaire rollover, en y intégrant une deuxième colonne délimité par ":" pour le code wubi86. Mais ce n'est qu'après que je me suis rendu compte que ce plugin n'était pas un libre. J'ai envoyé un email à l'auteur contenant la base nouvellement enrichie et le script bash, espérant voir cette contribution utilisé, bien que celui ci m'ai assuré de l'intégrer au plugin, rien n'a été fait jusqu'à ce jour.

III. la suite de logiciel que j'utilise

3.1 l 'association sémantique

le workflow :

firefox > tong wen tang > terminal sed > terminal accert-c > rednotebook > firefox > cantofish

Trois colonne délimité par la ponctuation du texte.
la première rangé de la première colonne est le texte original
la seconde est son équivalent wubi
la troisième est l'analyse sémantique ensuite je passe sur les mots dont j'ai oublié le sens, et je dactylographie en regardant la keymap wubi86

voila ce que cela donne sous rednotebook* :
| Linux是一种自由和开放源码的类Unix计算机操作系统 | 。 | 目前存在着许多不同的Linux | , | 但它们全都使用了Linux内核 | 。 |

| Linuxj g tkh thd mh t ga yt idr dcg r od Unixyf tha sm rkk wt txi xyc | 。 | hhhh ue dhb d udh ytf qq gi mg r Linux | , | wjg px wu wg ftjb wgkq et b Linuxmw synw | 。 |

| Ｌｉｎｕｘ_NR 是_VC 一_CD 种_M 自由_NN 和_CC 开放_VV 源码_VV 的_DEC 类_NN Ｕｎｉｘ_NN 计算机_NN 操作_VV 系统_NN | 。 | _PU 目前_NT 存在_VV 着_AS 许多_CD 不同_VA 的_DEC Ｌｉｎｕｘ_NN | , | _PU 但_AD 它们_PN 全_AD 都_AD 使用_VV 了_AS Ｌｉｎｕｘ_NN 内核_NN | 。 | _PU

*rednotebook utilise la syntaxe de txt2tag pour le formatage.

et en exportant en html

3.2 pour la dactylo :

firefox > tong wen tang > terminal sed > terminal wubi > ubuntu qwerty > ibus wubi86

ou
firefox > tong wen tang > terminal sed > terminal wubi > ubuntu qwerty > yudit

3.3 l'association phonétique

firefox > terminal ekho
firefox > google translate

répertoire de vocabulaire
firefox > gradint

3.4 ce qui manque :

firefox > cantofish avec code wubi
texte > script bash qui permet la segmentation sémantique via la base de cantofish ou perakun
Une version wubi86 de tuxtyping

Il semblerait qu'il y ait une version localisé en chinois de Tuxtyping avec support du pinyin. Mais je n'ai jamais testé, ni vu les packets dans les dépots. J'ignore s'ils sont accessible quelque part sur le net.

Une version du logiciel d'apprentissage à la dactylographie intégrant le code wubi pourrait avoir deux fonctionnalités adaptés :

celle sur les mots :
on verrait un idéogramme tomber avec le code en dessous , chaque fois que l'on pousserait sur un radicale, il deviendrait en surbrillance, et bien sur en bout de course Tux mangerait le poissons bien dactylographié.
celle sur les phrases:

l'utilisateur pourrait y entrer ses propres phrases . La même fonctionnalité de surbrillance des radicaux pourrait y être ajouté.

Conclusion provisoire :

Lorsqu'on prend connaissance d'un texte différent niveau de généralités et de subdivisions existent , chacun aidant à mieux pénétrer le sens du message.
j'ai classé les différents niveau du plus général au plus particulier et à chacun j'ai tenté d'y apporter une réponse.

le premier : la ponctuation (sed )*
le deuxième : le contexte culturelle (dictionnaire fréquency)
le troisième : le domaine spécifiquement couvert par le texte (le sujet)
le quatrième : la grammaire (assert-c)
le cinquième : les groupes d'idéogrammes (cantofish)
le sixième : l'entrée au clavier d'idéogrammes (wubi86)
le septième : l'étymologie via les radicaux (chinese etymo et zhongwen.com-)

choisir un sujet dont on maitrise bien les tenants et aboutissants permet de s'assurer de base solide et de n'avoir qu'un travail de mémorisation des caractères à faire , aucun de travail de compréhension n'est nécessaire (étant donné qu'on connais le sujet ) cela enlève énormément. Mais choisir un sujet peu passionnant , démotive assez rapidement car l'on trouve le niveau trop bas (genre bonjour , au revoir ... ) ou bien l'on a l'impression que c'est inutile.

Bien qu'il y ait des lacunes à combler dans le domaine, l'apprentissage en auto-didacte de la lecture en chinois avec des outils quasi tous libres est à porté de main. Maitenant il ne reste plus qu'à l'étudiant sérieux d'organiser son planning pour s'y mettre. Si ces manques venaient à être comblés, je pense que cela faciliterait et accélérerait considérablement le processus d'assimilation de connaissance.

_
ps : *la ponctuation n'est pas autant utilisé qu'en français mais reste identique à celle du français. Néanmoins les signes de ponctuations n'ont pas le même encodage que le notre : par exemple le point (。). J'utilse simplement sed pour remplacé un encodage par un autre.

sed 's/\uff1a/ | : | /g' | sed 's/\uff0c/ | , | /g' | sed 's/\u3002/ | 。 /g'
_
ps2 : le site http://www.yale.edu/chinesemac/wubi/xing.html est très bien pour comprendre les subtilités du wubi.

# CEDICT

Posté par Perthmâd (site web personnel) le 06 octobre 2011 à 00:46. Évalué à 3.

En dico libre, il y a CEDICT aussi.
- [^] # Re: CEDICT
  
  Posté par Allan Simon (site web personnel) le 06 octobre 2011 à 01:17. Évalué à 2.
  
  D'ailleurs je l'ai "inversé", pour avoir dans stardict un dico libre français->chinois / chinois français, encore une fois, il faut que je trouve le temps de mettre le script quelque part.
  - [^] # Re: CEDICT
    
    Posté par vermillon le 06 octobre 2011 à 10:30. Évalué à 1.
    
    Participant à CEdict depuis un moment, je peux dire que CEdict est prévu pour être un dictionnaire chinois->anglais et jamais pensé pour faire l'inverse. Bien sûr, pour pas mal de mots on peut simplement inverser le dictionnaire, mais ça risque de poser des problèmes dans certaines situations, notamment dès que les mots sont un peu compliqués ou qu'il n'y a pas de correspondance parfaite des concepts.
    
    Sinon, en effet, c'est bizarre que ce dictionnaire manque au journal, surtout à un journal qui dit chercher à être le plus libre possible. Licence CC-by-sa
    - [^] # Re: CEDICT
      
      Posté par eastwind☯ le 06 octobre 2011 à 12:28. Évalué à 2.
      
      J'ai en fait utilisé Cedict via stardict et puis via Goldendict, il est très bien, c'est juste que j'ai majoritairement utilisé Cantodict.
    - [^] # Re: CEDICT
      
      Posté par Allan Simon (site web personnel) le 06 octobre 2011 à 12:38. Évalué à 1.
      
      (d'ailleurs je voulais dire CFdict, l'équivalent français de CEdict, qui est maintenant aussi "gros" que CEdict )
      
      J'avoue ne pas avoir vu de "perte" en qualité en inversant, évidemment dans la liste de mot, il y en a toujours qui sont reservé à des cas très particulier, des sens un peu métaphorique etc., mais c'est déjà le cas dans le sens "premier", même si je suis d'accord que ça ne vaut pas un dictionnaire dans le sens inverse fais explicitement dans ce sens.
      
      De toutes manières pour le chinois, souvent il faut de toute manière couplé la recherche dans le dictionnaire, avec une recherche de phrase (recherche google (mais faut déjà avoir un niveau suffisant pour comprendre le reste des phrases), tatoeba, le dico en ligne de bing est pas mal ausi même si pas libre, surtout car il aligne les phrases chinoises/anglaises)
      - [^] # Re: CEDICT
        
        Posté par vermillon le 06 octobre 2011 à 15:59. Évalué à 1.
        
        Pour les phrases,tu as Tatoeba bien sûr, mais tu peux aussi aller voir sur www.jukuu.com qui a un bon répertoire, si tu n'es pas gêné par l'anglais. www.nciku.com n'est généralement pas mal non plus.
        
        J'ignorais par contre que CFdict avait pris de l'ampleur, je savais que le projet (du moins, sous le nom CFdict) avait démarré plusieurs fois mais il me semblait que plusieurs fois ça avait avorté. Cela dit, je viens de jeter un coup d'oeil au fichier, et c'est tout de même loin d'être génial. Il manque le pinyin a des tas d'entrées, certaines entrées sont vraiment étranges : 一人得道，雞犬升天一人得道，鸡犬升天 [yi1 ren2 de2 dao4 , ji1 quan3 sheng1 tian1] /Liu An/ (je m'attends plus à trouver une traduction de l'expression que son auteur). Bon, je suppose que le projet est encore jeune et qu'il a le temps de mûrir. Pour le moment, CEdict répond mieux à mes besoins.
# C'est du chinois ce nal !

Posté par VictorAche le 06 octobre 2011 à 00:56. Évalué à 3.

Bonsoir,
Déjà, j'ai lu ce journal avec intérêt, du début à la fin. Toutefois, mes jolis yeux bleus sont tout ensanglantés par les très, très nombreuses fautes de grammaire (er/é principalement) qui parsèment ce journal, ce qui est compréhensible pour un texte de cette longueur. Un gentil modérateur voudrait bien faire une rapide correction ?

"The trouble with quotes on the internet is that it’s difficult to discern whether or not they are genuine.” Abraham Lincoln
- [^] # Re: C'est du chinois ce nal !
  
  Posté par eastwind☯ le 06 octobre 2011 à 01:11. Évalué à 4.
  
  je suis aussi pour qu'un relecteur passe par là, moi je suis vané :)
  - [^] # Re: C'est du chinois ce nal !
    
    Posté par BAud (site web personnel) le 06 octobre 2011 à 02:17. Évalué à 3.
    
    eastwind m'a tuer !
    /o\ sérieux entre le traditionnelle et autres accords, sans compter les espaces aléatoires avant les « . » ou même « , » et « ) », si c'était davy< qui était passé par là, il serait mort d'apoplexie (si je n'ai pas de nouvelle ce week-end, penser à lancer les recherches).
    
    Quelqu'un avec autant de problèmes de syntaxe ne pourrait jamais être un programmeur àmha, ni apprendre une autre langue (peut-être à l'oral), merci eastwind< de m'avoir détrompé :)
    
    Je me suis arrêteré au §1.1.2, là je vais dormir (ou pleuréer).
# tu gagnes un séchoir à poivrons

Posté par mr_maurice le 06 octobre 2011 à 00:59. Évalué à 10.

je te pertinente pour l'élégance du geste:
poster un journal aussi riche et fouillé pour quelque chose d'aussi gratuit et dispensable qu'apprendre un langage qui n'est manifestement pas destiné aux humains, le tout à 1h du mat', respect.
# Quand est-ce que ça passe en dépêche ?

Posté par paladar le 06 octobre 2011 à 01:08. Évalué à 8.

Et bravo pour le partage d'autant d'infos importantes (pour qui veut s'y mettre) !
- [^] # Re: Quand est-ce que ça passe en dépêche ?
  
  Posté par Zarmakuizz (site web personnel) le 06 octobre 2011 à 01:28. Évalué à 5.
  
  C'est plein de pistes pour faire de même en japonais, avis aux amateurs. :)
  
  Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
# Autre segmenteur

Posté par Allan Simon (site web personnel) le 06 octobre 2011 à 01:11. Évalué à 2.

Note à moi meme: penser à mettre le code du segmenteur de Tatoeba sur github.
- [^] # Re: Autre segmenteur
  
  Posté par vermillon le 06 octobre 2011 à 10:33. Évalué à 2.
  
  Ah! Ça m'intéresse beaucoup, ça. J'ai commencé à écrire un petit segmenteur pour moi, pour faciliter l'apprentissage de vocabulaire (notamment préparer le vocabulaire nouveau avant la lecture d'articles ou de livres), mais le segmenteur de Tatoeba est vraiment pas mal de mémoire.
  - [^] # Re: Autre segmenteur
    
    Posté par eastwind☯ le 06 octobre 2011 à 12:24. Évalué à 2.
    
    Si tu pouvais décrire les caractéristiques de ce segmenteur, je serais heureux de le tester (lorsqu'il sera sur github )
    - [^] # Re: Autre segmenteur
      
      Posté par Allan Simon (site web personnel) le 06 octobre 2011 à 12:57. Évalué à 1.
      
      En fait à la base je l'ai fait car j'utilisais adso pour tatoeba, mais adso à tendance à faire des segfault, à avoir des problèmes d'encodages, des bugs un peu chelou, au début je lui faisais des rapports de bugs, mais depuis quelque temps il n'a plus trop l'air de répondre, et vu que j'avais besoin d'étendre adso pour avoir une segmentation du shanghaien et du cantonnais (et à présent chinois classique), et que le code d'adso fait vraiment peur, j'ai du coup repris la base de donnée (qui est sous cc-by-sa), nettoyé un peu, et reconstruit un logiciel aussi
      
      Pour l'instant le fonctionnement est naïf à l'extrême
      
      On segmente sur la ponctuation
      
      ensuite si on a une phrase ABCDEFGHIJK il va, partant de A, trouver la chaîne la plus longue qu'il a dans sa base de donnée.
      
      admettons que la plus longue soit ABCDE (note: il n'y a pas besoin que ABC soit aussi dans la base, en gros il va tester A , AB , ABC etc. jusqu'à A...K, vu que les segments sont relativement court, surtout dans tatoeba, c'est "soutenable", NOTE à moi-même, on pourrait rendre le truc un peu plus malin en arrêtant de chercher une fois qu'il a atteint la plus grande chaine de la base de donnée)
      
      il recommence mais cette fois en partant de F etc.
      
      Amélioration possible
      
      plutôt que de faire une segmentation gauche droite, il faudrait plutôt tester tous les segments possibles, avec des pondérations (qu'on pourrait obtenir en faisant une validation des segmentations faites dans tatoeba), car pour l'instant il y a quelque cas pathologique où il faudrait faire un découpage A BC CD mais l'algo fait un découpage A BCD E alors que E n'est jamais tout seul (après il y a des cas ou le découpage change le sens de la phrase，voir cette article (en chinois) rajouté des "他妈的" (putain de) pour diminuer l'ambiguïté des phrases chinoises)
      
      Après c'est moins une question de segmentation que de "romanisation", mais pour l'instant l'algo a du mal avec les caractères qui peuvent être utilisé de manière isolé ET ayant plusieurs prononciation possible par exemple 得 qui peut être "de" ou "dei" , là il faudrait une analyze un peu plus poussé, en ayant la classe grammaticale possible des membres à gauche et à droite + quelques schémas de phrases.
      
      Donc voilà tu l'auras compris, ce logiciel fait le café, transformation en pinyin, conversion traditionnel/simplifié etc. et il est adaptable à n'importe quel dialecte chinois, si on lui fourni un fichier de donnée adéquat.
      
      Par contre vu que je m'en sers en tant que service web et qu'il est optimisé dans ce sens. il charge d'abord tout en mémoire, ce qui pour un usage unique est un peu "lourd"
      
      J'essaie de documenter cela un peu et de pousser ça sur github ce weekend
      - [^] # Re: Autre segmenteur
        
        Posté par eastwind☯ le 06 octobre 2011 à 15:35. Évalué à 2.
        
        je ne sais pas si ca peu aider, mais le fichier que j'ai renvoyé à l'auteur de popup chinese , est un fichier nommé adsotrans
      - [^] # Re: Autre segmenteur
        
        Posté par vermillon le 06 octobre 2011 à 16:04. Évalué à 1.
        
        Est-ce que tu as une base de phrases segmentées "et corrigées" par hasard? Histoire d'avoir un score de segmentation correcte pour mon futur petit segmenteur. Je ne sais pas si j'arriverai à quelque chose de fantastique (et probablement pas, l'approche est simplement de générer les différentes segmentations possibles et de résoudre les ambigüités avec des statistiques), mais ce serait sympa de pouvoir comparer. (Si tu veux me contacter par email, ça doit être dispo sur mon profil...)
        
        [^] # Re: Autre segmenteur
        
        Posté par eastwind☯ le 06 octobre 2011 à 16:31. Évalué à 1.
        
        Que signifie corrigées ?
        
        La base que j'utilise c'est celle de cantofish / perakun , il y a le fichier de base adsotrans de popup chinese .
        
        Sinon niveau segmenteur, le projet que j'ai évoqué du MIT est sous GPL , de mémoire il y a les bases que j'ai mentionné (a vérifier ) la pennsylvania tree bank et la beijing university database; regarde sur le projet Assert
        
        [^] # Re: Autre segmenteur
        
        Posté par vermillon le 06 octobre 2011 à 17:03. Évalué à 1.
        
        Je veux dire que s'il avait une liste de phrases avec leur segmentation correcte (le segmenteur peut se tromper, il faut qu'un humain vérifie que c'est correct), je pourrais voir à quel point mon segmenteur produit des segmentations correctes.
        
        Quant au fichier que tu as mis en lien, je n'ai pas très bien compris pourquoi tu me l'envoyais. Du reste, je ne sais pas non pus quel encodage c'est, mais probablement pas de l'UTF8.
        
        Et merci pour les liens, en effet, les Penn treebanks ça doit faire l'affaire, je vais regarder ça d'un peu plus près.
        
        [^] # Re: Autre segmenteur
        
        Posté par eastwind☯ le 06 octobre 2011 à 17:32. Évalué à 2.
        
        La base de cantofish à l'air d'avoir été bien checké par des humains (en tous cas c'est la ou j'ai les meilleurs résultats de traductions )
        
        selon la note du site , celui serait basé sur le travail de cantodict :
        
        CantoFish is a popup Cantonese-English dictionary for Firefox. It is based on the code from Chinese Perapera-kun, which in turn is based on Rikaichan for Japanese.
        
        A couple of different strategies were used to generate Cantonese readings for the Mandarin based adso (http://adsotrans.com) and CC-CEDICT (http://usa.mdbg.net/chindict/chindict.php?page=cedict) data sets. Along with the generated readings, a very large number of human checked compound word readings were provided by Adam Sheik's CantoDict project (http://www.cantodict.org)
# ubuntu et google

Posté par eastwind☯ le 06 octobre 2011 à 01:18. Évalué à 3. Dernière modification le 06 octobre 2011 à 01:50.

deux choses que j'ai oublié de mentionner dans mon journal :

la prise en charge du wubi86 sous ubuntu 11.04 est très correcte, l'installation est décrite ici : http://www.pinyinjoe.com/linux/ubuntu-11-chinese-setup.htm

Pour la synthèse vocale de google , quelqu'un saurait comment rediriger la sortie pour l'enregistrer en tant que fichier (en ligne de commande de préférence :))
# MERCI

Posté par Maclag le 06 octobre 2011 à 04:14. Évalué à 5.

cf titre!

Tu m'as donné envie de m'y remettre sérieusement, et encore plus fort: tu m'as donné envie d'essayer le wubi, que j'ai toujours considéré comme un truc de littéraires Chinois!

Non, sérieusement, je ne sais comment le dire encore: MERCI!
- [^] # Re: MERCI
  
  Posté par eastwind☯ le 06 octobre 2011 à 07:19. Évalué à 3.
  
  De rien vieux frère :)
- [^] # Lien vers keymap
  
  Posté par eastwind☯ le 06 octobre 2011 à 07:29. Évalué à 2.
  
  j'ai oublié de mettre le liens vers le fichier pdf de la keymap wubi86 que j'utilise
# Petites remarques

Posté par Axioplase ıɥs∀ (site web personnel) le 06 octobre 2011 à 04:21. Évalué à 2.

I. Lire le chinois
il n'est pas possible de faire de fautes d'orthographe (une faute d'orthographe correspondrait en même temps à une faute sémantique ) .

Si tu fais des fautes d'orthographe en lisant c'est que t'es rudement balèze !
Mais sinon, j'imagine qu'il y a des mots qu'on peut confondre, car ils ont (grosso-modo) le même sens et une orthographe similaire (genre, juste la clef diffère). Et ça mène donc bien à des fautes (subtiles !) d'orthographe. Exemple: 験/検, 道/導 en japonais…

les inconvénients
il faut tout réapprendre à partir de zéro .

Va dire ça aux Chinois !
- [^] # Re: Petites remarques
  
  Posté par eastwind☯ le 06 octobre 2011 à 07:42. Évalué à 3.
  
  Dans l'idéogramme 道 (la voie , la vertue , le tao de taoisme ) celui ci se tappe "uthf" et l'autre 導 (guider sur la voie ) se frappe "uthp" . Mais l'étymologie te donne une signification dont l'emprunt est justement l'idéogramme premier (en chinois traditionnel cela se voie ), et a par analogie le fait de guider sur la voie correcte (selon la conception taoiste ). L'un descend de l'autre phonétiquement (ideo-phonogramme - , etymologiquement et sémantiquement ), en tant que faute , s'en est une sur l'homonymie, mais encore tout les indices te permettent de remonter facilement vers le caractère correspondant.
  
  Très différents d'une faute homonymique en français (ex : c'est - ses - ces )
  
  Ok on pinaille hein :)
  - [^] # Re: Petites remarques
    
    Posté par Brunus (Mastodon) le 06 octobre 2011 à 10:13. Évalué à 2.
    
    Ok, mais comment appeler la faute qui consiste en l'oublie d'un trait ou d'un point dans le tracé d'un caractère ?
    Je t'accorde qu'il n'est pas possible de faire ce type d'erreur en tapant du chinois par l'utilisation d'une méthode de saisie.
    Mais c'est une erreur classique lorsqu'on trace au pinceau.
    - [^] # Re: Petites remarques
      
      Posté par Allan Simon (site web personnel) le 06 octobre 2011 à 13:01. Évalué à 1.
      
      si l'erreur est possible aussi en Chinois, même en tapant
      
      par exemple pour acquiescer, normalement c'est "嗯" mais beaucoup de gens tapent 恩
      
      sinon en faute d'orthographe, si il y a parfois à l'écrit, à la main ou à la machine, les fautes 的/得/地 (je l'accorde avec wubi, que je ne connais que de principe, la faute ne doit pas etre possible) qui se tapent tous "de" en pinyin, et qui sont des mots de liaisons, et les jeunes chinois ont vraiment du mal avec
- [^] # Re: Petites remarques
  
  Posté par Sylvain Sauvage le 06 octobre 2011 à 13:07. Évalué à 2.
  
  Va dire ça aux Chinois !
  
  Encore une preuve que c’est une dictature : ils obligent leurs enfants à apprendre le chinois !
# Excellent journal.

Posté par Marotte ⛧ le 06 octobre 2011 à 07:49. Évalué à 2.

Merci pour ce journal fort intéressant.

Juste une question hors sujet, quand tu écris :

Pour faire bref : Le pinyin est au wubi, ce que Latex est à Microsoft Word :)

Tu voulais pas dire l'inverse ? Visiblement le wubi c'est mieux non ?
- [^] # Re: Excellent journal.
  
  Posté par eastwind☯ le 06 octobre 2011 à 07:52. Évalué à 2.
  
  Oui :) Sauf si je considère que MS Word est mieux que Latex (ce qui serait au mieux de l'ironie , au pire du lavage de cerveau )
  - [^] # Re: Excellent journal.
    
    Posté par Eric P. le 06 octobre 2011 à 15:01. Évalué à 3.
    
    A propos de la comparaison entre le pinyin:
    
    D'autre part si l'on ne connait pas la prononciation d'un caractère il est impossible de l'entrée au clavier.
    
    et le wubi:
    
    La première raison pour laquelle je trouve que c'est puissant , simple et éléguant , c'est qu'il n'est pas du tout nécessaire de savoir prononcer l'idéogramme (informations non disponible dans le caractère en tant que tel )
    
    ...tout est question de niveau de langue et de choix d'apprentissage.
    
    Si tu as commence a apprendre le chinois oral, pour pouvoir communiquer rapidement, et que tu apprends l'ecriture/lecture de facon secondaire, tu peux rapidement ecrire en pinyin (ta connaissance limitee de l'ecriture devrait suffire pour choisir entre les homonymes).
    Par contre cette meme connaissance limitee de l'ecriture rend tres difficile et lent l'ecriture en wubi, car il faut se rappeler de l'ecriture, de la structure de chaque caractere.
    
    Par contre le wubi est un superbe outil pour justement progresser en ecriture/lecture, puisque tu es oblige de memoriser/retrouver la structure des caracteres avant de les tapers. Ca permet de passer d'un niveau "je lis en reconnaissant rapidement le dessin du caractere" a un niveau ou tu es capable de l'ecrire completement par toi-meme.
    
    Merci mille fois pour ton journal, il m'a decide a me remettre serieusement au wubi.
    
    Excusez l'absence d'accents dans mes commentaires, j'habite en Australie et n'ai pas de clavier francais sous la main.
    - [^] # Re: Excellent journal.
      
      Posté par eastwind☯ le 06 octobre 2011 à 21:22. Évalué à 2.
      
      keep up good work :)
# Type et disposition du clavier

Posté par pdm le 06 octobre 2011 à 14:46. Évalué à 1.

Ce journal est très intéressant. Merci à son auteur pour le travail de rédaction fourni.
Il semblerait que pour utiliser la méthode Wubi, il faille disposer d'un clavier QWERTY. Est-ce faisable avec un clavier AZERTY configuré par défaut pour le français (xkblayout=fr(oss))? Qu'en est-il de l'apprentissage sachant que toutes les explications que j'ai trouvées sur le web partent du principe que le clavier est un clavier qwerty ?
Plus généralement, j'ai l'impression que la plupart de ces méthodes de saisie ont été implémentées pour des claviers qwerty avec disposition us en laissant souvent de côté les autres types de clavier.
Ainsi pour le pinyin, sur un clavier de portable sans pavé numérique configuré par défaut en fr(oss), j'ai dû personnaliser la disposition du clavier de façon à sélectionner le caractère dans la liste numérotée, directement en tapant le n° sans passer par la touche shift (en inversant "&" et "1", "é" et "2" etc...). Avec la plupart des programmes proposés sous linux que j'ai testés, la combinaison shift+touche_du_numéro ne permet pas d'entrer le caractère voulu de la liste lorsque l'on est en mode de saisie en chinois-méthode pinyin. Car apparemment la saisie ignore shift, et c'est le symbole qui compte, pas la disposition sur le clavier (et j'ai l'impression que pour le Wubi c'est pareil). L'exception à ce comportement est uim-scim, mais j'ai installé scim pour avoir à la fois le pinyin et le wubi (pas de wubi avec uim), même si en pratique l'apprentissage de la méthode wubi est pour l'instant un échec.
- [^] # Re: Type et disposition du clavier
  
  Posté par eastwind☯ le 06 octobre 2011 à 15:20. Évalué à 3.
  slt,
  1. Il est parfaitement possible de taper avec un disposition azerty (ou n'importe quel autre disposition en fait). L'inconvennient c'est que l'on perd en cohérence et en structure. Sachant que cette cohérence et structure a pour but ensuite d'être une aide à la lecture.
  Je m'étais fait la même réflexion au départ, mais lorsqu'on met en balance les avantages et inconvennients a rester en AZTERTY (l'habitude ) et l'utilisation du QWETRY (la cohérence et l'aide à l'apprentissage), je me suis dit qu'il était plus intéressant d'utiliser le QWERTY lorsqu'on tape en wubi86.
  
  entre changer quatre lettres et garder à cohérence du système d'apprentissage ou ne pas changer ses habitudes mais qui risque de donner semer la confusion (pas énormes mais quand même ). Je choisis de garder l'élégance du système par rapport à mes "mauvaises" habitudes . D'autant que ce n'est pas un retournement radical (:)).
  1. Pour le pinyin je pense que ce n'est pas du tout important le type de disposition utilisé étant donné que le système ne prend pas en compte ce facteur.
  2. J'avais utilisé SCIM à u moment sous Ubuntu et Debian, il n'était pas encore mûr pour ce que je voulais en faire (et l'implémentation wubi était assez vacillante ). Actullement j'utilise ibus sous ubuntu 11.04 j'en suis assez satisfait. La procédure d'installation est détaillé dans le liens sur le post ubuntu et google .
  3. L'apprentissage du wubi est plus difficile au début car : il y a l'habitude linguistique* , il y a le manque de logiciel libre d'apprentissage du wubi.
  Je pense que si l'on pouvait combler les trois lacunes que j'ai décrites ,
  - 1.une section wubi86 dans les dictionnaires rollover sous Firefox
  - 2.un segmenteur entrainé sur la base de ces dictionnaires rollover
  - 3. et surtout un logiciel de dactylographie intégrant le wubi86 tels Tuxtyping
  cela faciliterait grandement l'accès à la langue et à sa richesse ainsi qu'a sa culture.
  Parce que l'etymologie mène toujours vers la culture et devient un rempart contre une mémorisation mécanique simpliste.
  
  _*en français et dans les langues occidental l'on tappe ce que l'on entend , étant donné que chaque alphabetique (abstraction visuel) s'association systématiquement à un son abstrait (abstraction phonétique ). Et que ceux ci ont une combinaisons limité de sons connus d'avance. En fait le système est un système d'un très au degré d'abstraction et de découplage son / sens/ visuel , ce qui est l'inverse en chinois . Le pinyin est en fait une transposition de ce découplage en chinois par la phonétisation et la non prise en compte du sémantique. L'on perd du coup toute la richesses historique et signifiante de l'idéogramme et ce qui permettait d'y prendre appuie. On a l'impression que c'est totalement arbitraire sans postulats quelquonques, c'est un peu Kafkaien :)
  
  C'est un peu comme si l'on avait mis un système GNU/Linux et qu'au final l'utilisateur ne se servirait que de VirtualBox avec Windows dedans .Car on aurait essayer de transposer ses habitudes dans un autres contexte culturel. (j'exagère un peu mais la logique est là )_
  - [^] # Re: Type et disposition du clavier
    
    Posté par pdm le 06 octobre 2011 à 16:55. Évalué à 1.
    
    Merci pour cette réponse très détaillée.
    En fait ce n'est pas une question d'apprentissage de la culture ou de la langue car c'est pour ma femme qui est d'origine chinoise. C'est plus une question d'apprentissage de la méthode de saisie (même si j'ai compris le principe dans les grandes lignes, je ne peux pas lui enseigner, car de mon côté je ne connais presque pas le chinois: impossible de lui donner le moindre exemple). Il m'avait bien semblé comprendre que la méthode Wubi repose sur des regroupements sur le clavier et que si on ne pouvait pas réarranger les touches, il valait mieux passer en Qwerty. Cependant, la langue d'adoption de ma femme est bel et bien le français, et je ne voudrais pas compliquer les choses en imposant des dispositions de clavier très différentes (en querty par rapport à l'azerty il n'y a pas que 4 lettres qui sont modifiées - cf. rangée du haut avec les é, è, à etc...). Par ailleurs, ma femme utilise l'ordinateur pour des tâches simples et intuitives (mail, navigation web) et j'hésite à lui imposer un basculement de clavier à chaque fois qu'elle passe en mode de saisie pour le chinois (sauf si ca pouvait se faire automatiquement, je n'ai pas trouvé de telles options avec scim ou uim, peut-être qu'ibus le fait).
    Cependant la lecture de ce journal me donne envie de refaire une tentative. Au préalable je vérifierai si je ne peux pas créer une disposition clavier personnalisée, sur laquelle on pourrait basculer, et qui réarrangerait seulement les touches du clavier qwerty strictement nécessaires à l'utilisation de wubi. Et surtout imprimer des diagrammes du type de ceux qui sont donnés dans le dernier lien dans le journal, en remplaçant les lettres par celles physiquement présentes sur le clavier (ce sont celles que verra ma femme en regardant le clavier).
    - [^] # Re: Type et disposition du clavier
      
      Posté par eastwind☯ le 06 octobre 2011 à 17:08. Évalué à 3.
      
      si cela pouvait se faire automatiquement ce serait génial :)
      
      Sous ubuntu j'ai simplement mis un raccourcie clavier Shift gauche + Ctrl gauche qui me permet de balancé vers le qwerty (sachant que le basculement vers le wubi86 est ctrl gauche + espace ) c'est assez pratique mais faut s'en souvenir (ha les habitudes )
      
      Sinon pour les diagrammes j'ai mis celui que j'utilise ici
      
      version pdf intégrant le poem wubi86 utilisé par les chinois pour se remémorer l'emplacement des radicaux .
# Méthode des quatre coins

Posté par le_poney (Mastodon) le 06 octobre 2011 à 22:02. Évalué à 2.

Bonjour, merci beaucoup pour ces précision j'ai souvent utilisé scim pour le japonais/chinois, je vais voir ce que ça donne avec wubi, j'en profite aussi pour savoir si il y a des solutions sous linux (tant qu'à faire) pour utiliser la méthode des quatre coins :)

http://fr.wikipedia.org/wiki/M%C3%A9thode_des_quatre_coins
- [^] # Re: Méthode des quatre coins
  
  Posté par eastwind☯ le 06 octobre 2011 à 22:19. Évalué à 2.
  
  Je ne pourrais pas te répondre car je n'ai pas approfondie la question.
- [^] # Re: Méthode des quatre coins
  
  Posté par vermillon le 07 octobre 2011 à 00:00. Évalué à 1.
  
  scim-zh-tables contient une table pour la méthode des quatre coins (四角), mais je ne l'ai jamais utilisée... Il y a encore d'autes méthodes comme le Cangjie, bref, plein de possibilités de s'amuser!
# Quid de l'écriture en idéogrammes traditionnels?

Posté par Nefer (site web personnel) le 08 novembre 2011 à 15:26. Évalué à 1.

Bonjour,

L'article aborde le point de vue à partir du chinois à caractères simplifiés, tout en proposant d'éventuels outils pour transformer en traditionnels. Bien que je n'ai pas essayé la méthode wubi, que je n'en ai lu que ce qu'il y a de présenté dans l'article, je me pose la question:

Les racines présentes dans les caractères traditionnelles ne sont pas toujours les mêmes. Voici quelques exemples:

Le caractère "欢" huan se présente ainsi en caractères traditionnels "歡". Autant dire qu'on au lieu d'avoir deux clés, on en a 5, si j'ai bien compris le système wubi. D'ailleurs, le caractère "难" nán présente à gauche la même clé que le caractère simplifié "欢", alors qu'en traditionnels, la clé n'est pas la même: "難". N'y risque-t-on pas de s'emmêler les pinceaux (sans vouloir faire de mauvais jeux de mots)?

De plus, comme il a déjà été souligné, il fonctionne à partir du visuel, ce qui est pratique quand on est uniquement dans le domaine de l'écrit, mais qui pose problème dès qu'une partie d'oral est comprise.

Je me demandais aussi pourquoi l'article n'aborde pas la méthode d'entrée de type Bopomofo. Je n'ai pas la prétention de dire que cette méthode d'entrée est plus facile. Je me pose juste la question. Pour l'instant voici ce que, personnellement, j'ai remarqué:

L’alphabet est basé sur les symboles présents dans les caractères chinois, ou trouvent ses origines dans les signes anciens, ce qui ne défait pas toute sa relation avec la langue et l'image (le caractère 日 se retrouve dans l’alphabet sous la forme ㄖpour écrire la "lettre" ri (pinyin approximatif, lisez la page wiki pour comprendre comment ça marche). Du coup, vu qu'il se base aussi sur la prononciation on peut retrouver un idéogramme à partir de l'audition.

De plus il permet l'insertion de cet alphabet à côté de caractères chinois, de la même manière que le furigana en japonais, voyez ici. Il peut donc s'écrire de droite à gauche, gauche à droite, haut en bas, et bas en haut. Ce qui est très pratique pour faciliter la lecture d'un texte, comme ceux yant expérimenté l'apprentissage du japonais le savent. Le pinyin ne le permet pas parce qu'il ne permet premièrement que la lecture de gauche à droite, et qu'il n'est pas aussi souple dans sa taille que le bopomofo.

Je crois qu'il présente des avantages et des défauts, très certainement. Ici, je ne le dépeins que très brièvement. Mais pourquoi n'a-t-il pas été abordé dans cet article? Qu'en pensez vous?

Voilà, une bonne journée, soirée, ou nuit (puisqu'ici à Taiwan, il est déjà 22h30), et courage pour l'apprentissage.

Nefer
- [^] # Re: Quid de l'écriture en idéogrammes traditionnels?
  
  Posté par eastwind☯ le 09 décembre 2011 à 12:04. Évalué à 2.
  Bonjour ,
  1. La version wubi que j'ai présenté, est celle du wubi86 , je n'ai pas testé les deux autres version (le 98 et le Wubi 18030 ). Il semblerait qu'on puisse à travers eux entrée des caractères traditionnelle, mais de manière un peu limité d'après wikipedia . Pour ma part j'ai meme été chercher plus loin pour trouver un système qui permettrait d'entrée de manière aussi libre le simplifié et le traditionnelle, il y a un système qui est le zhengma . Le concept se base sur l'idée du wubi, mais l'association des radicaux a été pensé de manière très minutieuses pour qu'il corresponde tip top à l'idéogramme autant en simplifié qu'en traditionnelle.
  Hélas ce système n'est pas implémenter de manière généralisé. En fait, peu de personne l'utilise et meme le connaisse. Pour des raisons simplement historique : le wubi est venu avant. Un peu comme linux et windows (mais y a d'autres facteurs qui rentrent en ligne de compte pour linux )
  1. Le sujet de l'article était essentiellement focalisé sur des méthodes et outils libre dans l'apprentissage à la lecture, l'oral n'étant pas vraiment abordée (sauf pour la partie synthèse vocal , mais dans l'optique lecture).
  2. Oui il y a le système bopomofo , j'en parle pas car je ne le connais pas. Et d'autre part une de mes perspective est d'utiliser l'etyhmologie pour accéder au sens, et d'éviter justement tout système de romanisation (tel le pinyin ) pour pouvoir pénétrer tout le sens des caractères chinois sans avoir de préjugés venant de alphabet (car essentiellement l'alphabet est basé sur un autre système de dissociation phonétique/visuel/sémantique alors que le chinois est basé sur l'intégration de ces composants).
  3. Pour en revenir au choix du chinois simplifié plutot que traditionnel dans le sujet de l'article, c'est dans un perspective essentiellement pragmatique. Et j'ai du faire ce choix à regret (car en tant que puriste , j'aime beaucoup l'étymologie et donc forcément plus porté sur le traditionnel ). Mais comme pour quelqu'un qui souhaite lire des articles en chinois , la majorité seront en chinois simplifié . Néanmoins j'ai mentionné un outil qui permet de passer du traditionnel au simplifié et vice versa. Cela peut permettre éventuellement de voir les liens entre les deux.
  Mes choix avait pour but de garder un équilibre subtile entre le pragmatique , le puriste et le libriste, pour en tirer le meilleur des trois. Ce qui n'est pas simple :)
  
  Bien à vous

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.