Abstract Wikipédia

45
5
sept.
2020
Wikimedia

Tout nouveau projet de la fondation Wikimédia, le premier créé depuis des années, Abstract Wikipédia se propose d’écrire des articles d’encyclopédie une unique fois pour toutes les langues. Il propose la création d’une langue d’écriture « abstraite » munie d’une infrastructure de code de traduction, Wikilambda. Ce dernier projet peut se voir comme une sorte de « Wikipédia du code ».

Sommaire

L’idée du projet Abstract Wikipédia est de créer l’équivalent d’articles de Wikipédia sur un peu tous les sujets dans une sorte de « langue pivot », puis de traduire cette langue grâce à du code dans toutes les langues du monde Médiawiki. C’est un vieux rêve d’un des créateurs de Wikidata, qui quitte Google et rejoint la Wikimedia Foundation pour mener le projet.

Abstract Wikipédia s’intégrera à terme dans Wikidata, et utilisera en partie ses données. Le tout s’articulera autour de trois axes principaux : le contenu abstrait, la langue abstraite et le code de traduction. Ce dernier volet sera incarné par un « projet dans le projet » de « Wikipédia du code » si l’on peut dire : Wikilambda. Oui, parce que créer une langue et du contenu universel ce n’était pas déjà suffisamment ambitieux ⸮1

L’existant

Le projet précédent, Wikidata, est maintenant bien lancé et permet de collecter et d’utiliser des données sur une grande quantité d’éléments. Chaque entité dispose d’un identifiant sur Wikidata, par exemple Paris est Q90, Denny est Q18618629, la philosophie Q5891, ou encore la fabrication de polymère est Q453762, pour faire un inventaire à la Prévert. Chaque entité a un « libellé » dans plein de langues (ou pas).

Pourquoi détailler ce point ? Pour deux raisons :

  • la première, cette idée d’avoir des entités identifiées par un code universel descriptible dans plusieurs langues est une des fondations techniques d’Abstract Wikipédia, et on va la retrouver absolument partout ; elle est généralisée dans la notion « d’entités » Wikidata, dont les éléments ne sont qu’un exemple, il existe également les « propriétés » et les « lexèmes » ;
  • la seconde, ces éléments vont être utilisés comme une sorte de « vocabulaire abstrait » pour l’écriture de la Wikipédia abstraite ; ce vocabulaire est extensible à l’envi, avec la simple limite qu’il doit avoir un besoin d’un projet Médiawiki, c’est donc très souple.

Plus récemment, Wikidata s’est également doté de possibilités de stockage d’informations lexicales dans toutes les langues, de manière structurée, avec une base de données des mots dans les différentes langues, les Lexical Masks. Un masque va déterminer, pour une langue donnée, les formes possibles d’un mot, selon son type (nom, adjectif, etc.). Ces masques permettront de valider, pour chaque entité Wikidata, la complétude de ses données dans une langue, en fonction de son type.

Wikidata est déjà un très beau projet multilingue, qui continue de se développer et est très édité, et qui permet déjà de décrire du contenu sur les entités de manière indépendante de la langue. Mais les données associées sont une collection de faits sur l’entité, données en vrac sans ordre ni hiérarchie particulière et pas des articles rédigés et éditorialisés à part entière. Il s’agissait donc d’aller plus loin.

La future langue abstraite

Le plus parlant je pense en ces lieux est de commencer par lire des exemples tirés de https://meta.wikimedia.org/wiki/Abstract_Wikipedia/Examples. Voici un exemple « d’article abstrait » :

 Article(
   content: [
     Instantiation(
       instance: San Francisco (Q62),
       class: Object_with_modifier_and_of(
         object: center,
         modifier: And_modifier(
           conjuncts: [cultural, commercial, financial]
         ),
         of: Northern California (Q1066807)
       )
     ),
     Ranking(
       subject: San Francisco (Q62),
       rank: 4,
       object: city (Q515),
       by: population (Q1613416),
       local_constraint: California (Q99),
       after: [Los Angeles (Q65), San Diego (Q16552), San Jose (Q16553)]
     )
   ]
 )

Ce qui une fois converti donnera en anglais :

San Francisco is the cultural, commercial, and financial center of Northern California. It is the fourth‑most populous city in California, after Los Angeles, San Diego and San Jose.

et en allemand :

San Francisco ist das kulturelle, kommerzielle und finanzielle Zentrum Nordkaliforniens. Es ist, nach Los Angeles, San Diego und San Jose, die viertgrößte Stadt in Kalifornien.

C’est assez parlant pour un informaticien. Un article abstrait ressemblera à une sorte d’arbre de syntaxe abstrait d’un langage de programmation. Les nœuds de cet arbre seront constitués de « constructeurs » , qui seront des entités avec, comme les éléments, un identifiant comme Z1033 pour le constructeur « Instanciation » (fictif, rien de toute cela n’existe encore bien sûr), et aura une signification décidée par la communauté, un libellé dans les différentes langues… Chaque constructeur aurait des « paramètres » (comme « object » dans l’exemple).

Les utilisateurs auront à disposition une interface qui ne les forcera pas à écrire nécessairement du code textuel mais permettra d’utiliser une interface d’édition graphique de cet arbre abstrait, avec complément et propositions des différentes valeurs possibles. Il est également évoqué, à un horizon lointain, un système d’aide à la saisie qui permettra de taper dans sa langue et de voir une proposition abstraite correspondante préremplie.

Wikilambda : le Wikipédia du code ?

Pour le code qui sera chargé de la traduction, mais pas que, un nouveau sous projet sera lancé. Un nouveau type d’entité sera introduit : les fonctions, et un langage de programmation permettra de les écrire. Ce langage sera a priori exécutable, mais des implémentations seront réalisées dans d’autres langages, tels que Lua, déjà présent dans la galaxie Wikimédia comme langage utilisé pour les modèles, JavaScript ou d’autres, pour profiter de meilleures performances.

Il y a fort à parier que ce nouveau langage aura des mots clés qui seront traduits dans toutes les langues. On dirait presque un nouveau langage autant destiné à être une spécification des fonctions qu’un langage de programmation.

On peut se demander la raison de la création d’un nouveau langage, alors qu’il en existe tant d’autres, y compris ceux déjà utilisés par la communauté Wikimédia dans les wikis. La raison est peut‑être de faire rentrer le code dans un cadre similaire au reste de Wikidata : une entité par fonction, les noms des fonctions traduisibles pour un maximum d’accessibilité dans chaque langue tout en garantissant un code commun, le code accessible à tous à partir d’une simple adresse et d’une API… C’est une approche assez originale en tout cas. Est‑ce un pas de plus vers l’interopérabilité des systèmes ?

Il semble qu’une autre motivation soit aussi d’obtenir de la souplesse au niveau de l’infrastructure d’exécution du code.

Le rôle des données lexicographiques ?

Il y a quelque temps Wikidata a lancé une base de données lexicographiques, qui permet par exemple de trouver les mots qui signifient « eau » dans plein de langues ou encore les lexèmes décrivant une couleur (exemples tirés des exemples de requêtes Wikidata).

Ces données ne sont pas encore très développées, un des soucis étant sans doute que ce projet a déjà une contrepartie dans la galaxie Wikipédia, le Wiktionnaire évidemment. Ces deux projets n’ont, à ma connaissance, pas réellement réussi à travailler ensemble et à collaborer. Gageons que si les données lexicographiques de Wikidata deviennent une part importante d’Abstract Wikipédia et lui fournissent les mots, les accords, les conjugaisons, etc., la communauté aura une forte motivation à les améliorer.

État actuel du projet

Les choix du nom et du logo du futur site Web ne sont pas encore définis. Des discussions ont déjà commencé sur ces sujets : sur la page Web définissant le plan de développement et sur forum de discussions.

Les questions

Tout cela pose plein de questions qui pourront lancer la discussion !

L’approche au multilinguisme en vogue en ce moment est celle de la traduction automatique, avec comme socle, l’apprentissage automatique. Des projets comme DeepL se nourrissent de plein d’exemples issus d’Internet et d’autres corpus de textes « parallèles » qui sont proches dans plusieurs langues. Wikipédia indique que les textes de l’Union européenne, disponibles en plusieurs langues, ont, par exemple, servi à Linguee, ainsi que des articles de Wikipédia (on peut le voir en faisant une requête). Les exemples de traductions de ces mots, expressions et phrases de même sens dans deux ou plusieurs langues sont mises en correspondance sont ensuite données à manger à des algorithmes d’apprentissage automatique, par exemple pour les réseaux de neurones profonds, pour donner des programmes comme DeepL.

C’est très différent de l’approche d’abstract Wikipédia basée sur la construction d’un langage commun, qui ne nécessite pas d’exemple de traduction de chacune des langues dans toutes les autres, ainsi que de contenu commun, pour potentiellement fédérer les contenus disponibles dans différentes langues sans avoir à traduire un à un les articles dans toutes les langues. On peut également se demander si ces réseaux de neurones (ou autre modèle) sont ou seront, à terme, capables de créer un tel modèle « pivot » encodé dans la configuration de leurs neurones, et seront tout de même capables d’avoir de bonnes performances de traduction dans des paires de langues pour lesquelles on a peu de textes équivalents disponibles.

La création d’une langue abstraite, et du code pour la traduire, est sans doute aussi un défi. Traditionnellement, les wikis fonctionnent par petits incréments successifs, que la masse des contributions finit par améliorer. Est‑ce une approche qui peut fonctionner pour créer une langue et la faire évoluer ?

Un gros morceau du projet sera évidemment la génération du texte dans toutes les langues, qui dépendra de la langue créée par la communauté et du nombre de locuteurs de la langue concernée. Ça contraint les possibilités d’évolution ; par exemple, s’il y a plus de deux cents traducteurs, il faut conserver ce nombre, sinon ça risque de devenir compliqué en cas de changement majeur.

La communauté saura‑t‑elle gérer tous ces obstacles ? Les différentes communautés linguistiques sauront‑elles collaborer ? Le projet profitera‑t‑il des communautés Wiki(p|m)édiennes existantes ou devra‑t‑il créer sa propre communauté ?

En guise de conclusion

C’est encore une fois un projet intéressant et avec de la suite dans les idées de Denny, qui a montré qu’il savait mener à bien ce genre de chose. Adossé aux communautés Wikimédias, le potentiel de main d’œuvre est là et potentiellement aussi l’enthousiasme communautaire indispensable à la réussite d’un tel projet ! C’est rafraîchissant de voir une approche différente de l’approche purement « apprentissage automatique » actuellement en vogue.

Quelques bémols, car il y en a :

  • c’est un projet qui va demander des compétences techniques avec une barrière importante à la contribution, n’importe qui ne pourra pas se plonger dans l’écriture du code de génération des textes dans une langue, et de bonnes connaissances en matière de linguistique seront demandées à ces codeurs. Le projet réussira‑t‑il à fédérer une communauté autours de ces projets, y compris pour les langues avec peu de locuteurs ? L’avenir le dira, mais dans tout les cas c’est à tenter ;
  • il y a un recouvrement avec les projets Wikipédia, est‑ce qu’un Wikipédia « parallèle » réussira à attirer des contributeurs, qui rédigeront dans une langue exotique ?

Le projet a aussi quelques curiosités qui pourraient être intéressantes même si son objectif ambitieux n’est pas totalement atteint. Wikilambda, par exemple, semble être un projet avec un intérêt propre. Bon vent !


  1. Ce point d’interrogation est un point d’ironie

Aller plus loin

  • # Voie SNCF

    Posté par  (site web personnel) . Évalué à 10.

    J'ai peur que cela finisse comme la machine SNCF qui annonce les trains. C'est propre, c'est nickel mais cela manque de vie. On risque d'avoir des articles un peu trop rigide, automatique, sans beaucoup de variation, avec une seule vision pour toutes les langues…

    Pour l'indexation, c'est super bien, mais pour la richesse de la pensée, je suis sceptique.

    • [^] # Re: Voie SNCF

      Posté par  . Évalué à 10.

      Contrairement à la SNCF, je ne pense pas que le but soit de remplacer les articles Wikipédia existant mais d'avoir des articles basiques sur des sujets qui ne seraient pas traduit dans la langue de l'utilisateur.

      « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

    • [^] # Re: Voie SNCF

      Posté par  . Évalué à 4.

      La "machine" est un ensemble d'enregistrements faits par la même personne au sein de la SNCF. C'est toujours plus humain qu'une synthèse avec pico-TTS, qu'on retrouve souvent sur les boites vocales.

      Emacs le fait depuis 30 ans.

  • # Un projet pour les langues latines uniquement

    Posté par  . Évalué à 6.

    Je pense que ceux qui ont lancer le projet n'ont étudier que très peu de langues. En pratique sur des langues très éloignées il peut être impossible de conserver le sens original car celui-ci n'existe pas dans la langue cible.
    Il est donc probable que le projet ne se limite qu'aux langues européennes qui sont assez proches de l'anglais.

    • [^] # Re: Un projet pour les langues latines uniquement

      Posté par  . Évalué à 4.

      Il faudra peut-être un deuxième ou un troisième projet pour ces autres groupes linguistiques.

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

    • [^] # Re: Un projet pour les langues latines uniquement

      Posté par  (site web personnel) . Évalué à 8.

      Je ne pense pas que que des langues très différentes posent problème pour autant que la source ne soit pas rédigée dans une langue au sens conventionnel mais dans une sorte de langue-code intelligible par la machine. A partir du moment où le logiciel comprend une page, il n'y a pas de raison qu'il y ait plus de difficulté à la traduire dans une langue "sujet verbe objet" que dans une autre (https://fr.wikipedia.org/wiki/Langue_SVO). Idem que la langue ait des notions de genre ou de temps ne doit pas poser de problème, tout est dans la compréhension de la source par la machine.

      En revanche bien sûr, on parle bien d'une simple conversion de faits dans différentes langues, et pas de traduction au sens conventionnel.

      Et ensuite bien sûr il y a le fait que les articles, pour ce que je connais, en anglais et en français, sont structurés très différemment voire expriment des choses différentes, par qu'ils sont rédigés par des personnes résidant dans des pays différents. Mais bon ça j'imagine que pour l'instant c'est out

      • [^] # Re: Un projet pour les langues latines uniquement

        Posté par  . Évalué à 2.

        Il existe au moins une langue, le pirahã qui semble ne pas avoir de notion de nombre ou de façon de compter. Donc comment traduire dans une telle langue que San Francisco est le 4e ville de Californie.

        Alors bien entendu, mon exemple est volontairement très atypique (et découvert grâce à une vidéo de la géniale chaîne Linguisticae).

        Mais tout ça pour dire qu'arriver à assurer avec une certitude une traduction automatique valable dans toutes les langues possibles me semble illusoire si le concept à traduire est inexistant dans la langue cible.

        • [^] # Re: Un projet pour les langues latines uniquement

          Posté par  . Évalué à 3.

          si le concept à traduire est inexistant dans la langue cible.

          Ça arrive tout le temps, c’est pour ça qu’on invente des mots ! En tout cas dans les langues vivantes. En tout cas, ça voudrait dire qu’aucun contenu type article Wikipédia ne serait possible dans cette langue sur ce concept.

          Certes parler d’ordinateur dans une culture qui n’a jamais vu un ordinateur est sans doute un challenge … Mais bon de fait, si les gens se retrouvent à lire des articles d’abstract wikipédia dans leur langue, il y a fort à parier qu’ils aient une telle machine sous la main et qu’il est temps de trouver une manière d’en parler.

        • [^] # Re: Un projet pour les langues latines uniquement

          Posté par  (site web personnel) . Évalué à 8.

          Donc comment traduire dans une telle langue que San Francisco est le 4e ville de Californie.

          C'est la ville qui suit la ville qui suit la ville qui suit la plus grande ville de Californie, en les triant par décroissance de leur taille.

          Adhérer à l'April, ça vous tente ?

        • [^] # Re: Un projet pour les langues latines uniquement

          Posté par  . Évalué à 7.

          En même temps, cette langue n'est pas écrite. Donc je pense que le problème risque de se poser avant de vouloir compter.

          « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

        • [^] # Re: Un projet pour les langues latines uniquement

          Posté par  . Évalué à 3.

          On peut ajouter que cette langue n’est probalement pas visée, si on cite Denny

          On the other side, my understanding is that we won't be aiming for 7000 languages but for 400, and that these 400 languages will in general be better described and have more current research work about them than the other 6600.

          cf. une séquence de questions sur la page de discussion wiki du projet - avec pas mal de détails sur tous ces questionnements, à lire pour les intéressé·e·s

    • [^] # Re: Un projet pour les langues latines uniquement

      Posté par  . Évalué à 5.

      Par contre l'anglais n'est pas une langue latine. C'est une langue germanique avec de nombreux emprunts du français et du latin (https://fr.wikipedia.org/wiki/Histoire_de_la_langue_anglaise).

  • # Esperanto ?

    Posté par  (site web personnel) . Évalué à 1.

    L'espéranto ne pourrait-il pas faire l’affaire ?

    Le pratiquant régulièrement, j'imagine que cette langue pourrait convenir. La langue a ce qu’il faut comme règles pour être expressive sans les complexités inutiles (pour l’usage qui est évoqué ici) des autres langues.

    À vue de nez, extraire le sens d’un texte en espéranto serait bien plus facile qu’autrement.

    • [^] # Re: Esperanto ?

      Posté par  . Évalué à 1. Dernière modification le 05 septembre 2020 à 23:54.

      Le < TA LANGUE QUE TU LA TROUVES LA PLUS MIEUX > ne pourrait-il pas faire l’affaire ?

      Le pratiquant régulièrement, j'imagine que cette langue pourrait convenir. La langue a ce >qu’il faut comme règles pour être expressive sans les complexités inutiles (pour l’usage qui est évoqué ici) des autres langues.

      À vue de nez, extraire le sens d’un texte en espéranto serait bien plus facile qu’autrement.

      Show me the code !

      • [^] # Re: Esperanto ?

        Posté par  . Évalué à 3.

        Ben avec un analyseur type lex/flex, et donc des expressions rationnelles, on pourrait déjà faire ceci:

        \b[a-z]{3,}oj?n?\b return NOM;
        \b[a-z]{3,}aj?n?\b return ADJECTIF;
        \b[a-z]{3,}[aio]s\b return VERBE_CONJUGUÉ;

        Du coup si avec Yacc tu veux écrire phrase: sujet VERBE_CONJUGUÉ complément tu as déjà de quoi reconnaître le verbe. En français ou en anglais, l'expression Yacc qui précède pourrait marcher mais tu n'aurais aucun moyen d'écrire la partie lexicale: un mot comme "élément" n'est pas un verbe malgré sa finale en "ent". Faudrait donc passer par un dictionnaire. Et même avec un dictionnaire on peut trouver des exemples ambigus, qui vont suivre.
        En français, la phrase "la petite brise la glace" peut avoir deux sens suivant que "brise" désigne le nom d'un vent ou l'action de briser. Et je ne parle même pas du sens figuré de "briser la glace"…
        En anglais l'exemple bien connu est "time flies like an arrow". Rien qu'avec les deux premiers mots il y a déjà une ambiguïté: "time flies" peut se traduire par "le temps file" ou "les mouches temporelles" (si on voit time comme un adjectif), et un ami traducteur (vers l'anglais) m'a même dit qu'on pourrait le voir comme un verbe, donc "chronométrez les mouches"!
        Évidemment tu vas te précipiter sur Google Translate pour vérifier qu'il trouve bien la traduction la plus "logique". Sauf que Google translate travaille à partir d'exemples, et tu te doutes bien que ceux là sont suffisamment connus pour que les programmeurs les aient déjà corrigés si besoin!

        • [^] # Re: Esperanto ?

          Posté par  (site web personnel, Mastodon) . Évalué à 2.

          Là, je pense à Deepl (qui fait vraiment du bon boulot, de l'anglais vers le français notamment), les traductions peuvent être faites aussi en fonction du sens qui pourrait être le plus répandu et, du coup, tomber complètement à plat.

          « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

          • [^] # Re: Esperanto ?

            Posté par  (site web personnel) . Évalué à 1.

            mieux que Deepl, https://presidencymt.eu issu de la commission européenne et qui n'a pas de restrictions comme le nombre de caractères, etc

            • [^] # Re: Esperanto ?

              Posté par  (site web personnel, Mastodon) . Évalué à 3. Dernière modification le 09 septembre 2020 à 08:55.

              Merci.

              Intéressant. Je viens de faire un test avec ce traducteur et Deepl.

              Cette phrase du site Ravelry (réseau social spécialisé dans les arts du fil) :

              The idea behind emPower People is simple: knit, crochet, or sew a purple emPower People Bandana, and wear it proudly while speaking against injustice, attending gatherings, marching, and most importantly (for those of us who have the right, wherever we live): voting!

              Par DeepL :

              L'idée derrière emPower People est simple : tricoter, crocheter ou coudre un bandana emPower People violet, et le porter fièrement tout en parlant contre l'injustice, en assistant à des rassemblements, en défilant, et surtout (pour ceux d'entre nous qui ont le droit, où qu'ils vivent) : voter !

              Par le traducteur de l'UE :

              L'idée derrière les Gens emPower est simple : tricotons, crochetons ou cousons un bandana violet des Gens emPower, et portons-le fièrement tout en parlant contre l'injustice, en assistant à des rassemblements, en défilant, et surtout (pour ceux d'entre nous qui en ont le droit, où que nous vivions) : en votant !

              À peu près la même qualité de traduction et tout à fait le même sens mais rendu dans deux optiques un peu différentes.

              Merci pour le tuyau.

              « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

    • [^] # Re: Esperanto ?

      Posté par  (site web personnel, Mastodon) . Évalué à 9.

      jes kaj ne…

      Oui si on est dans l'idée d'utiliser une langue pivot qu'on veut relativement simple et neutre. Sur ce point, j'ai cru comprendre que Google envisageait de se pencher sur la question car les gens de chez Alphabet ont fini par se rendre compte des limites de l'anglais comme langue pivot… (faudrait que je retrouve les liens, mais les usagers peuvent constater des erreurs bénignes de genre aux contre-sens plus large quand on fait mouliner Google Translate sur des langues fort éloignées et moins connues)
      L'espéranto a aussi l'avantage d'avoir assez de locuteurs pour les cas de traductions non automatiques ou pour apporter des nuances stylistiques ou régionales dans les langues cibles.

      Non si, comme je crois comprendre, on est dans l'idée d'annoter grammaticalement et d'avoir tous les éléments possibles et imaginables. Il se trouve qu'une autre conlang qui va dans ce sens (je le trouve un peu ardu à l'usage oral-et-quotidien, mais se prête fort bien aux traitements informatiques) : le lojban

      “It is seldom that liberty of any kind is lost all at once.” ― David Hume

      • [^] # Re: Esperanto ?

        Posté par  (site web personnel) . Évalué à 0.

        Effectivement, je pensais aussi au Lojban. J'ai tenté un moment, mais C’est assez ardu comme tu le dis ^ Et cette langue a un soucis : il y a justement trop peu de locuteurs pour pouvoir apporter des correctifs ; le tout basé sur un consensus assez large.

        L'espéranto reste une langue humaine et expressive, et à mon humble avis aussi pertinente qu'une autre langue pivot.

    • [^] # Re: Esperanto ?

      Posté par  (site web personnel) . Évalué à -10. Dernière modification le 06 septembre 2020 à 15:31.

      L'espéranto ne pourrait-il pas faire l’affaire ?

      Tiens ça faisait un moment que je n'avais pas lu ce mot sur LinuxFr, c'était presque étonnant.
      Il fallait bien qu'un jour il y en ai un qui balance ce mot dans un sujet presque hors sujet pour faire comme si ce mot était utile hors petit plaisir entre amis connaisseurs.

      Bientôt, l'espéranto sera proposé comme langage de programmation tellement cette langue est super méga géniale et passe partout. Quelle langue incomprise :).
      (ha, on me dit que c'est Java qui est réputé être "l'esperanto de la programmation", cf ton lien Wikipedia, zut de la compétition :), et dommage que depuis Python soit à la mode)

      sans les complexités inutiles (pour l’usage qui est évoqué ici) des autres langues.

      Je t'invite à démontrer que l'espéranto serait plus proche de la facilité de la langue abstraite informatique proposée que de l'anglais (ou de l’anglais simple) pour l'analyser dans le cadre de phrase "techniques" comme il est nécessaire pour le projet où tu proposes la chose sans avoir en réalité cherché à savoir si ta proposition était viable ou pas… Bref, qu'il ai une utilité quelque part et non un autre standard même pas vraiment utilisé.

      À vue de nez,

      Le plus gros soucis dans ta proposition est sans doute à cette endroit. Fou que personne ne démontre quoi que ce soit sur cette langue bloquée à ~100k (niveau taille de Andorre) locuteurs plus ou moins avancés, non?

      • [^] # Re: Esperanto ?

        Posté par  . Évalué à 10.

        Plus efficacement, tu aurais pu dire que l'Espéranto, bien que présentant des caractéristiques le rendant plus facile à apprendre que l'anglais pour un plus grand nombre d'humains, ça reste une langue naturelle avec des ambigüités grammaticales et des polysémies. L'Espéranto n'est donc a priori pas particulièrement adapté non plus à un traitement informatique en général et, en particulier, pour l'usage évoqué ici : un langage avec mots anglais mais qui n'est pas de l'anglais.

        Si on veut en dire plus, on pourrait dire que les logiciels de traduction et analyse de langage travaillent déjà, en général, sur des langages internes abstraits qui virent les ambiguïtés des langues naturelles. Ici, l'idée semble d'écrire directement dans un langage plus abstrait. Un parallèle avec la programmation serait d'écrire directement dans un langage de plus bas niveau (comme une représentation AST), plutôt que compiler vers celui-ci depuis un ou plusieurs langages haut-niveau.

        • [^] # Re: Esperanto ?

          Posté par  (site web personnel) . Évalué à 2.

          Bien d'accord avec vous sur le fond et le ton, mais est-ce que la métaphore ne devrait pas être tournée dans l'autre sens ? À savoir que ce qui est recherché serait l'équivalent d'un langage de programmation qui puisse être transformé dans l'idiome de chaque micro architecture ?

          « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

          • [^] # Re: Esperanto ?

            Posté par  . Évalué à 3.

            Oui, c'est un parallèle juste sur le fait de sauter la première étape, car la compilation se poursuit effectivement ensuite en sens inverse : en programmation on veut partir de l'AST vers de l'assembleur (encore plus bas niveau), alors qu'ici on veut repartir vers les langues naturelles (haut niveau).

            • [^] # Re: Esperanto ?

              Posté par  . Évalué à 3.

              On verra comment ça se goupille, mais là dans l’esprit je pense que la communauté pourra concevoir des descripteurs de suffisamment haut niveau, avec une bonne liberté de formes dans la traduction. Si on veut exprimer une idée sur la taille particulièrement importante d’une ville dans un pays, par exemple, ce sera possible d’avoir un descripteur qui exprime cette idée de manière relativement générique à mon avis …

              Le risque avec cette approche serait d’avoir des tonnes d’idées génériques et donc des kilostonnes de traducteurs spécialisés pour tout ça, donc chiant à maintenir et à écrire. Mais il y a surement un compromis à explorer entre la généricité des descripteurs, la spécificité des idées exprimables, le nombre nécessaire de descripteurs et la facilité d’écriture, la maintenance du code …

              Ma crainte c’est que tout ça nécessite un peu des essais/erreurs avant de trouver quelque chose d’acceptable mais que la communauté soit coincée par l’existant de peur de devoir réécrire en permanence tous les contenus et les traducteurs. Mais peut-être que finalement ça se gèrera relativement facilement avec une dépréciation de vieux descripteurs qui seront gardés pour l’existant mais déconseillé/inutilisable pour les nouvelles écritures, qui sait.

        • [^] # Re: Esperanto ?

          Posté par  . Évalué à 4.

          ici : un langage avec mots anglais mais qui n'est pas de l'anglais.

          Il y a méprise et c’est de ma faute je crois : les exemples sont en anglais mais c’est trompeur par rapport à ce qui se fera vraiment.

          Les noeuds de l’arbres ne seront pas des « mots » en anglais avec une sémantique associées, mais des entités Wikidata comme d’autres. Donc ils auront un libellé dans toutes les langues, comme les fonctions Wikilambda ou les élément Wikidata.

    • [^] # Re: Esperanto ?

      Posté par  (site web personnel) . Évalué à 10.

      Le vieux rêve d'une langue pivot se heurte à un problème de taille : cette langue doit être stable, donc non parlée. En effet, toute langue parlée évolue, ce qui est antinomique avec sa stabilité…

      Des exceptions apparaissent avec le temps et des locutions telles que un train de sénateurs
      ne sont pas les plus faciles à transcrire. Cela ne signifie pas un TGV dont les occupants sont élus au sénat.

      Une langue naturelle, très régulière, ayant peu d'exceptions et d’ambigüités est l'euskara (le basque), mais comme c'est aussi une langue parlée et usitée… Il y a aussi le latin pourri d'exceptions avec une douzaine de déclinaisons alors que le basque n'en a que deux selon que le mot se termine par une consonne ou ne voyelle, lesquelles déclinaisons suppriment l'usage de préposition tout en étant plus précis.

      Je croyais beaucoup à une langue pivot il y a 20 ans, maintenant je crois davantage à l'IA pour effectuer des traductions sans pour autant faire une confiance excessive dans cette technique pour laquelle l'humain restera toujours le dernier recours.

      • [^] # Re: Esperanto ?

        Posté par  . Évalué à 3.

        Le critère principal pour une langue pivot (donc à apprendre en LV2 pas LV1) c'est de minimiser le nombre de caractéristiques grammaticales et phonologiques nouvelles pour des locuteurs venant d'un maximum de langues. Le basque de ce point de vu là est inadapté (pour la partie grammaticale, pas la phonologique), tout comme l'anglais ou le français (pour les parties grammaticales et phonologiques). Parmi les langues naturelles ayant un nombre raisonnable de locuteurs, l'Espéranto est un bon candidat.

        Note que je ne parle pas de complexité d'une langue en soi en tant que LV1, fait pas scientifiquement clair pour la plupart des linguistes. Les exceptions sont aussi assez secondaires en pratique, donc pas source réelle d'inquiétude pour l'Espéranto ou autre même si elles surviennent (il y en a déjà).

        • [^] # Re: Esperanto ?

          Posté par  (site web personnel, Mastodon) . Évalué à 3.

          Parmi les langues naturelles ayant un nombre raisonnable de locuteurs, l’Espéranto est un bon candidat.

          Soit on ne parle pas la même langue, soit on n’a pas la même définition du mot « naturel », mais, l’espéranto n’est pas une langue naturelle, mais une langue construite, donc plutôt carrément artificielle, c’est d’ailleurs une dénomination de ce genre de langue.

          Et si l’espéranto pourrait être un bon candidat en tant que langue pivot c’est, justement, parce que c’est une langue construite au même titre qu’un langage informatique et pas une langue naturelle.

          D’un autre côté, l’espéranto, ayant eu un certain succès (assez rare dans le domaine des langues construites) et ayant un nombre de locuteurs assez élevé et répandu dans le monde entier, elle connait ce qui arrive à tous les langages humains : des variations, sémantiques ou de prononciation. C’est d’ailleurs assez intéressant justement. Croire qu’un langage humain répandu peut être uniforme est, de toute façon, un leurre.

          Le basque est une langue naturelle par contre.

          « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

          • [^] # Re: Esperanto ?

            Posté par  . Évalué à 4.

            J'entendais naturelle au sens que, techniquement, elle se comporte linguistiquement comme telle comme en atteste le fait que plusieurs milliers de locuteurs natifs existent de nos jours. C'est une langue vivante qui évolue naturellement (ce qui est plutôt sain) et pensée avec cet objectif (contrairement au lojban, par exemple). Que son origine historique soit initialement le fait d'un homme s'inspirant de langues déjà existantes, plutôt que d'un groupe d'humains, n'est a priori plus significatif après plusieurs générations de ce point de vue (beaucoup de langues créoles se créent en une seule génération).

            Par contre, son origine construite lui a, en effet, donné des caractéristiques intéressantes en tant que langue pivot. Ceci dit, bien qu'on entende souvent le contraire, l'intérêt de l'Espéranto n'est pas que ce soit une langue soit-disant régulière, simple et avec peu d'exceptions (c'est factuellement discutable et peu résistant à l'usage comme dit plus haut). Son intérêt est qu'elle présente peu de caractéristiques grammaticales et phonologiques rares dans les langues humaines existantes (caractéristiques en général stables assez longuement dans une langue naturelle) tout en étant suffisamment riche phonologiquement pour intégrer de façon reconnaissable du vocabulaire d'autres langues, dont les mots très internationaux.

            • [^] # Re: Esperanto ?

              Posté par  (site web personnel, Mastodon) . Évalué à 0.

              Il n’empêche qu’il est parfaitement impropre et incongru d’appeler l’espéranto langue « naturelle ».

              Concernant les créoles, c’est très très différent. Ils n’ont pas fait l’objet d’une construction purement intellectuelle comme l’espéranto, d’une part, d’autre part, il y a de sacrés variations d’un créole à un autre, ce qui est assez normal puisque ce sont des langues formées à partir de langues différentes et dominant différemment selon les populations et les sphères géographiques. Les langues créoles, de part leurs origines qui ne sont pas des constructions purement intellectuelles mais qui ont été forgées par l’usage et la nécessité, peuvent être considérées comme naturelles.

              On ne peut donc absolument pas comparer les deux, même pour essayer de justifier une appellation inappropriée.

              « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

              • [^] # Re: Esperanto ?

                Posté par  . Évalué à 4.

                Une langue naturelle est simplement une langue qui peut naître chez un enfant à partir des entrées linguistiques qu'il subit dans son entourage. Avec des locuteurs d'au moins 4ème génération actuellement qui n'ont pas introduit de changements majeurs dans la langue, l'Espéranto (du moins celui parlé par ces enfants) peut être considéré comme ayant passé le test de naturalité.

                Après, c'est aussi un terme généraliste n'ayant ayant pas uniquement un sens linguistique précis. Communément on peut parler de langue naturelle plutôt pour faire référence à son origine « naturelle » comme tu le fais. D'habitude le contexte nous permet de savoir quel sens on utilise, l'essentiel c'est de se comprendre.

                Ceci dit, quand un linguiste dit que le français ou le basque est naturel, il ne parle pas du français ou basque standardisé ni de ses origines, mais d'une variété développée par des enfants appartenant à une certaine communauté à un instant t. La même logique s'applique à l'Espéranto qui, de toutes façons, n'est à la base pas normatif et a été créé par l'exemple, sans effort d'en définir sérieusement la grammaire, énonçant juste quelques principes.

                • [^] # Re: Esperanto ?

                  Posté par  (site web personnel, Mastodon) . Évalué à -1.

                  Bon, ok tu veux avoir raison et justifier une appellation erronée.

                  « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

                  • [^] # Re: Esperanto ?

                    Posté par  . Évalué à 4.

                    Non, perso, l'appellation m'importe peu, c'est toi qui insiste sur le fait que seul le sens que tu lui donnes peut exister. Si j'avais su que ça porterait à confusion, je me serais contenté d'un truc plus lourd du style « utilisable comme une langue naturelle », évitant de dévier le sujet sur les origines qui importent peu dans le contexte de la discussion présente.

                    Mais bon, déjà en 1994, dans General Linguistics, le linguiste Karlsson disait :

                    “There are even people whose first language is Esperanto because their parents were Esperantists. This fact makes Esperanto almost equal to a natural language” (p. 3–4, my translation).

                    Comme c'est cité dans cet article plus récent qui fait un état de l'art sur le sujet.

                    Bref, c'est pas moi qui invente que la caractéristique la plus importante qui rend une langue naturelle d'un point de vue linguistique, c'est l'existence de locuteurs natifs. C'est en particulier ce qui permet de vérifier que la langue satisfait aux demandes de la grammaire universelle.

                    Pour l'Espéranto, les controverses existent au mieux sur la vérification qu'il n'y ait effectivement pas eu d'incompatibilités vu l'échantillon réduit (quelques milliers) de locuteurs natifs qui sert de test.

                  • [^] # Re: Esperanto ?

                    Posté par  . Évalué à 1.

                    Et si le point de vue linguistique te semble inintéressant, il reste le point de vue empathique : je m'imagine mal dire aux locuteurs natifs que j'ai pu connaître que la langue qu'ils parlent depuis tout petits est innaturelle ou artificielle. Naturellement, j'aurais tendance à faire évoluer mon langage et à utiliser une expression plus précise comme « d'origine artificielle ».

          • [^] # Re: Esperanto ?

            Posté par  (site web personnel, Mastodon) . Évalué à 3.

            Attention que linguistiquement parlant, l'espéranto est une langue naturelle… parce-que langue maternelle de groupes de locuteurs sur des générations.

            • langue maternelle d'enfants de couples de langues maternelles non communes (et d'aires culturelles différentes), elle est alors acquise avant ou en parallèle d'une autre langue dominante dans la région (langue qui est parfois peu des maîtrisée des parents étrangers)
            • groupe de locuteurs est peut-être plus discutable car réduit à la famille (et aux membres du club espérantiste local auxquels on s'est lié d'amitié) et non un village d'une trentaine de personnes
            • des générations mais en fait deux générations suffisent et il y en a déjà pas mal dans ce cas

            Attention aussi que la notion de langue construite n'en fait pas, linguistiquement parlant, une langue artificielle (au sens réservée aux machines ?) ni naturelle… Il faudrait comprendre langue naturelle comme langue utilisée naturellement par un groupe de personnes pour échanger au quotidien, et langue construite comme langue nouvelle qui n'est pas née de façon chaotique mais plutôt de façon mûrie et réfléchie. Du coup, on peut avoir des langues construite (ou repensée) qui sont aussi devenues naturelles :

            • l'allemand réformé dans une certaine mesure (ici, la langue n'est pas entièrement fabriquée mais l'existant est repensé et remodelé pour aboutir à quelque chose de nouveau)
            • l'italien moderne (un peu comme l'allemand, par actions politiques on a fédéré des parlers ayant une base commune mais qui commençaient à fortement différer entre eux) et le basque dans une certaine mesure (ici je chipote u peu)
            • le français (qui, contrairement à ce que la majorité imagine, n'est pas du latin qui a subitement transmuté mais est bel et bien une construction basée sur une langue existante —comme l'est le verlan à son tour— puis s'en est affranchie pour devenir autonome avant d'être imposée de force pour artificiellement créer une langue nationale)
            • le mandarin (improprement appelé chinois, est une langue forgée de toute pièce en empruntant une grande partie de son vocabulaire d'un créole existant, et qui a été imposé comme langue officielle impériale)
            • etc. (on peut trouver bien d'autres exemples comme ça)

            “It is seldom that liberty of any kind is lost all at once.” ― David Hume

        • [^] # Re: Esperanto ?

          Posté par  . Évalué à 2.

          LV2 pas LV1

          Je voulais dire deuxième langue et pas maternelle : je viens de m'apercevoir de la confusion avec LV1 et LV2 au sens scolaire qui n'est pas ce que je voulais dire.

    • [^] # Re: Esperanto ?

      Posté par  (site web personnel) . Évalué à 3.

      Un des "soucis" qu'ils prévoient est le fait que certaines langues distinguent des détails que d'autres ne distinguent pas. Par exemple certaines langues ont des mots différents pour "oncle maternel" et "oncle paternel".

      => Il faut que sur chaque notion la langue source soit aussi précise que la plus précise de toutes les langues cible supportées.

  • # Barrière?

    Posté par  (site web personnel) . Évalué à 4.

    Vu la description, faut t'il comprendre que le procédé ne pourrait grosso modo s'appliquer que à Wikipédia et pas à autre chose? le fait de devoir au préalable assigner un code à chaque "entité"?

    C’est un projet qui va demander des compétences techniques avec une barrière importante à la contribution

    Oui effectivement ça parait compliqué de demander aux contributeurs de maîtriser ça! Ce qui me rappelle il y a des années quelque chose que je n'arrive pas trop à retrouver, qui consistait à dire par exemple "plutôt que d'avoir des pages où les contributeurs listent manuellement les plus grandes villes du monde, il faudrait qu'à chaque fois qu'une page sur une ville dit combien il y a d'habitants, ce soit écrit d'une manière comprise par wikipédia, qui pourrait alors collecter une base de données considérable et constamment mise à jour, et générer des listes à la volée depuis cette base". Mais l'idée était bien plus que juste le nombre d'habitants, c'était plutôt de tout passer sur ce système, ce qui impliquait que chaque article soit écrit avec la syntaxe, barrière visiblement trop grosse puisque des années et des années plus tard cela ne semble pas avoir eu lieu.

    • [^] # Re: Barrière?

      Posté par  . Évalué à 7.

      Vu la description, faut t'il comprendre que le procédé ne pourrait grosso modo s'appliquer que à Wikipédia et pas à autre chose? le fait de devoir au préalable assigner un code à chaque "entité"?

      C’est l’objectif du projet, la généralisation je ne pense pas que ça pose vraiment problème étant donné que l’assignation d’un code à chaque entité c’est un objectif de Wikidata et que grosso modo c’est déjà fait et entièrement public et utilisable par tous. C’est aussi un objectif du web sémantique d’assigner une ou des url publiques à chaque concept. Donc grosso modo, c’est fait.

      Pour le reste je vois pas de quoi tu veux parler, mais il y a pas mal de projets annexes autour de Wikidata. On peut faire un point sur l’utilisation des données WP dans WD.

      C’est aujourd’hui possible et simple de créer des listes automatisées depuis Wikidata. Testes quelques-un des exemples du service de requête

      Le gros problème c’est que les communautés sont assez hostiles à l’intégration de ces listes, et pour certaines carrément à l’idée d’automatisation de la mise à jour des données. Il n’est pas vraiment technique en fait. Et à partir du moment ou les données sont carrément contre, les incitations à intégrer les données dans Wikidata ne sont pas là.

      En pratique il y a des centaines de listes générées à partir des données Wikidata sur wp en français https://fr.wikipedia.org/w/index.php?title=Sp%C3%A9cial:Pages_li%C3%A9es/Mod%C3%A8le:Wikidata_list&limit=500 mais … pas dans l’espace principal parce que c’est interdit, uniquement dans les espaces de discussions de projet ou perso des utilisateurs. Parce que c’est interdit dans l’espace principal, pas nécessairement parce que c’est compliqué.

      La communauté est relativement OK maintenant pour les infobox générées à partir des données Wikidata, il y a par exemples 250 000 inclusions pour l’infobox biographie 2 mais ça a été compliqué et l’occasion de moulte combats communautaires et démonstrations d’hostilités … pas simple. Sur la Wikipédia en anglais c’est un peu la même j’ai l’impression, une bonne part de la communauté est plutôt hostile pour différentes raisons. Ils ont par exemple peur du vandalisme, mais c’est le serpent qui se mort la queue, si la plus grosse communauté ne surveille pas les données Wikidata parce qu’elle ne les utilise pas, ben il y aura du vandalisme parce que ce sont eux qui font le travail sur enwiki. Ils pourraient faire la même avec la même efficacité sur Wikidata si enwiki utilisait Wikidata, et les deux projets y gagneraient. Mais ils n'y vont pas par peur de l’incapacité des Wikidata-iens à ne pas faire le travail seule. Interblocage en ce qui concerne cet argument.

      • [^] # Re: Barrière?

        Posté par  (site web personnel) . Évalué à 7.

        Merci oui ce tu expliques est visiblement la continuation de ce que j'avais lu à l'époque. Perso je serai prêt à encourager l'automatisation mais je ne contribue plus (j'ai déjà écrit tout le peu que je sais!.

        Par rapport aux contributeurs contre, quand il y a une résistance à une évolution, aussi frustrant que cela soit, il peut aussi y avoir du positif qui émerge, cela peut forcer des contrib à créer encore mieux, ou cela peut amener à réfléchir la manière dont on va intégrer cela. En tout cas je suis rassuré de voir que cela existe toujours et que cela évolue. Dans les livres d'histoire du futur Wikipédia sera certainement une page particulière.

        A suivre! et merci encore

        • [^] # Re: Barrière?

          Posté par  . Évalué à 5. Dernière modification le 06 septembre 2020 à 14:35.

          Tu as raison sur le fait que l'intégration des listes prévue aux débuts de Wikidata n'est pas vraiment ce qui existe actuellement, c'est un robot externe qui se charge de la mise à jour, pas Médiawiki et Wikidata par eux même.

          L'équipe de développement s'est concentrée sur d'autres priorités au fil du temps, les données lexicographiques, les données structurées pour commons https://commons.wikimedia.org/wiki/Commons:Structured_data/fr . On peut maintenant décrire grace au vocabulaire Wikidata ce que contient une image et d'autres choses, avec un service de requete en phase de test ( par exemple une requête pour les images carrées de 100px ou des projets pour faciliter l'édition de Wikidata pour les Wikipédiens https://www.wikidata.org/wiki/Wikidata:Wikidata_Bridge et bien d'autre choses, comme gérer les problèmes de montée en charge de l'utilisation et de la modification des données …

          L'équipe de développement fait avec ses moyens et priorise en fonction des attentes communautaires, c'est un des aspects qui a été laissé de coté pour l'instant avec ces contraintes (même si c'est prévu depuis le tout début).

    • [^] # Re: Barrière?

      Posté par  . Évalué à 3.

      sinon pour les trucs qui génèrent des trucs à la volée, il y a https://reasonator.toolforge.org/ ou encore https://sqid.toolforge.org/#/

  • # An Essay Towards a Real Character, and a Philosophical Language

    Posté par  (site web personnel, Mastodon) . Évalué à 5.

    je me disais bien que ça me rappelait un truc que j'avais lu dans Quicksilver de Neal Stephenson.

    An Essay Towards a Real Character, and a Philosophical Language :

    An Essay Towards a Real Character, and a Philosophical Language (London, 1668) is the best-remembered of the numerous works of John Wilkins, in which he expounds a new universal language, meant primarily to facilitate international communication among scholars, but envisioned for use by diplomats, travelers, and merchants as well.

  • # Les traducteurs automatiques en science-fiction

    Posté par  (site web personnel, Mastodon) . Évalué à 3.

    Je tombe sur cet article de CNRS le journal super intéressant (quoiqu'un peu court) et qui colle tout à fait à cette dépêche. Mais il n'y est pas fait mention de Wikipedia.

    Par exemple, ceci fait pas mal penser à la démarche Abstract Wikipédia, il me semble.

    C'est aussi le cas dans la nouvelle pionnière Premier Contact (1945) de Murray Leinster, à ne pas confondre avec le film du même titre réalisé par Denis Villeneuve et sorti en 2016. Elle montre des extraterrestres communiquant avec les humains via des ondes électromagnétiques et développant un code artificiel qui joue le rôle d’intermédiaire, appelé de ce fait inter-langue ou interlingua et qui n’est pas une langue proprement dite. Deux traductions s’avèrent donc nécessaires à chaque échange : par exemple, de la langue des aliens vers le code artificiel d’abord, et du code artificiel vers la langue des humains ensuite.

    « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.