Bonjour, Nal,
Aujourd’hui, un superbe exemple des problèmes que peuvent poser les outils de traduction et résumé par IA, aimablement fourni par Bard sur LinuxFR.org.
Pour bien comprendre le problème, je te conseille de lire d’abord cet article en anglais (technique mais plutôt clair – je crois ?), puis ce résumé-traduction qu’en a fait Bard. Si tu as du mal avec l’anglais technique, raphj a détaillé les principaux problèmes de ce résumé-traduction ici.
Comme on peut le constater, le résultat est – sur cet exemple au moins – très mauvais. C’est dommage, parce que c’est le genre d’outil qui pourrait être extrêmement utile : un bon résumé-traduction, ça permet de facilement savoir si c’est intéressant de se plonger dans les détails d’un texte long et complexe. Ça aide aussi énormément les personnes qui ont du mal avec une langue qui n’est pas la leur, et pour qui lire le texte d’origine demanderait beaucoup d’efforts – voire serait impossible.
L’énorme problème ici – et souvent avec l’IA –, c’est que le résultat n’est pas évidemment mauvais si on a pas déjà connaissance du texte d’origine ; et la première phrase du commentaire qui contient le résumé (avant le résumé en lui-même) le prouve.
Avec les vieux systèmes de traduction automatiques, on avait souvent du mot-à-mot, des expressions calques ou des phrases qui ne voulaient rien dire ; mais l’aspect complètement bancal du résultat donnait l’alerte. Ici, rien de tout ça : en apparence, le texte produit est propre et cohérent, en particulier cohérent avec lui-même. Mais il contient d’énormes erreurs par rapport au texte d’origine, qu’il est censé traduire et résumer.
On se retrouve donc avec ce paradoxe d’un outil qui pourrait nous faire gagner énormément de temps en traductions et résumés ; mais qui est tellement peu fiable qu’il impose de connaitre le texte d’origine pour pouvoir détecter les éventuelles erreurs… ce qui casse une grosse partie de son intérêt.
Alors, sans doute que parfois ça marche. Peut-être même que souvent ça marche. Mais souvent n’est pas assez (pensez à une reconnaissance de caractère qui marcherait dans 90 % des cas… et serait donc inutilisable parce que vous devriez corriger un mot sur deux). Surtout quand les erreurs produites sont à la fois aussi massives (contresens total, pures inventions…) et difficiles à détecter.
Donc, attention avec ces outils. Ils peuvent être très pratiques quand on est en capacité de vérifier leur sortie (aide à la traduction d’un texte, traduction ou résumé d’un texte qu’on a soi-même produit et dans une langue que l’on sait lire pour vérification…). Mais évitez de les utiliser si vous n’êtes pas en capacité de vérifier le résultat produit.
Si vous voyez d’autres cas d’usages, d’autres avertissement sur ces outils, les commentaires sont là pour vous.
Ce journal est sous licence Creative Commons Attribution (CC BY) 4.0.
# Je confirme
Posté par Zenitram (site web personnel) . Évalué à 10.
J'utilise souvent la traduction automatique pour me simplifier la vie, mais clair, heureusement que je connais d'une le sujet du texte et un peu la langue, je suis quelque fois tombé sur des affirmation de l'inverse de ce que dit le texte original, alors que le texte original n'était vraiment pas compliqué, mon faible niveau sur la langue me permettait déjà de comprendre que non la traduction n'était pas bonne.
Donc vraiment, la traduction même sans résumer, faut pas utiliser les yeux fermés du tout, et encore moins les résumés encore plus sujets à erreurs.
ça reste aujourd'hui de la poudre aux yeux car ça marche parfois et ça fait rire, faut pas non plus trop s'y fier si le sujet est important.
Pour la traduction, ça aide des traducteurs à faire une première passe vite fait pour ensuite lecture des 2 versions et adapter, ça reste plus rapide que de traduire à l'ancienne.
Pour le résumé, pour le jeu de démonstration technologique et récupérer des sous d'investisseurs qui y croient pour se barrer avec la caisse avant que ça coule? Rappelons que les plus grands gagnants de la ruée vers l'or sont les vendeurs de pelles (le vendeurs de pelles IA se font de la thune pas mal en ce moment…)
Tient, sinon, pour de la traduction sans aucun contexte (et l'IA actuelle reste pas si loin que ça de ce genre de chose, une dico va donner plusieurs traductions, un traducteur auto donne "la" traduction), et personne n'a tilté:
(source)
[^] # Re: Je confirme
Posté par Renault (site web personnel) . Évalué à 7.
Ce n'est même pas sûr suivant le taux d'erreurs et les problématiques notamment de styles.
Car reformuler c'est souvent compliqué, parfois plus que de trouver de zéro la bonne formule car tu as un phénomène d'ancrage, et rendre le style cohérent peut vite devenir délicat en ayant besoin de retraduire pas mal de textes pourtant justes.
Mais ça, c'est aux gens du métier de tester et de voir le gain potentiel ou pas.
[^] # Re: Je confirme
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4. Dernière modification le 28 août 2023 à 13:22.
Les tarifs de traduction prévoient l'utilisation (moins cher payé) ou pas d'outils automatiques.
Oui ça fait gagner du temps sur certains types de texte, et à condition d'avoir des traducteurs et des traductrices bons et des vraies relectures. Déjà sans traduction automatique, tu as des traductions qui sont pourries : quasiment du mot à mot ou avec des contresens, etc.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Je confirme
Posté par dr191 . Évalué à 4.
En effet, j'ai deja utilisé ces entreprises de traduction qui utilise des outils en partie automatisés. Il faut se mettre d'accord sur un lexique des mots techniques.
Par exemple, un logement qui se transforme en "Home" ou équivalent à la place d'un logement de roulement.
A aujourd'hui, la relecture par un humain compétent et parlant la langue dans le domaine reste nécessaire.
[^] # Re: Je confirme
Posté par samydb . Évalué à 4.
C'est de la post-édition (Post-Editing), qui se décline en Light Post-Editing et en Full Post-Editing.
Cela fait partie des évolutions que ma profession (traducteur) a dû traverser.
En gros, on fait le travail de Madame pipi après le passage de l'IA pisseuse de traductions automatiques.
Et outre les problèmes évoqués, celui de la cohérence.
[^] # Re: Je confirme
Posté par WalterPolo (Mastodon) . Évalué à 1.
Précision : la distinction entre postédition légère et full a été introduite avec les systèmes antérieurs (systèmes SMT ante IA - dans les faits, la démarcation entre l'une et l'autre forme de postédition est souvent "floue", en tout cas redéfinie dans chaque cas de figure concret…) ; aujourd'hui, on entend dire qu'avec les nouveaux modèles (IA), les tâches liées à la postédition légère ne sont plus nécessaires et je suis assez d'accord.
Par contre, pour la cohérence et la cohésion textuelles, effectivement, il y a encore du boulot (même si le nombre d'erreurs liées à ces dimensions d'un texte me semble avoir diminué avec les systèmes IA).
[^] # Re: Je confirme
Posté par symp . Évalué à 10. Dernière modification le 28 août 2023 à 13:48.
En même temps, 1,05 € pour un croissant, pff, c'est vrai que ça augmente…
[^] # Re: Je confirme
Posté par nico4nicolas . Évalué à 1.
Et il y a un "s" en trop à "euros" donc même en français…
[^] # Re: Je confirme
Posté par Maderios . Évalué à 0. Dernière modification le 29 août 2023 à 11:28.
J'aime bien Le Robert
https://dictionnaire.lerobert.com/definition/euro
[^] # Re: Je confirme
Posté par BAud (site web personnel) . Évalué à 1.
hormis que… (au bas de la page que tu donnes en lien), je cite :
Larousse est inutilisable en ligne (hormis passer par le mode lecture de Firefox
Ctrl
+Alt
+R
ô_O)Heureusement, il y a le wiktionary qui indique le pluriel pour euro :-)
[^] # Re: Je confirme
Posté par Maderios . Évalué à 0. Dernière modification le 29 août 2023 à 14:15.
Oui mais la section "définition" du "Robert officiel" (et non sites externes) donne la réponse à la question posée, l'accord au pluriel du mot, point besoin de la section "exemples" ni wiktionary pour cela.
[^] # Re: Je confirme
Posté par nico4nicolas . Évalué à 3.
Je ne comprends pas, que ça soit "euro" ou "vache" ce n'est pas différent puisque
Donc 1,05 euro s'écrit sans "s". Est-ce que je me trompe ?
[^] # Re: Je confirme
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4. Dernière modification le 29 août 2023 à 15:38.
Non, tu ne te trompes pas, en effet, parce que ça fait moins que deux et que le pluriel commence à partir de deux. C'est une réponse très sérieuse, je précise.
Pour compléter (ça n'a rien à voir, mais quand même ça peut servir), plusieurs c'est à partir de trois.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Je confirme
Posté par nico4nicolas . Évalué à 3.
Merci pour cette réponse. Je n'ai pas compris le sens des réponses précédentes.
Je l'ignorais et je suis allé vérifier. Cela semble être le cas le plus fréquent mais employer "plusieurs" à partir de 2 semble également être accepté. Le wiktionnaire l'exprime ainsi :
Le centre national des ressources textuelles et lexicales va dans le même sens :
Même le Robert partage avec cette définition :
[^] # Re: Je confirme
Posté par Renault (site web personnel) . Évalué à 5.
Je pense qu'ils n'ont pas lu ton lien et faisaient référence au fait que euro est invariable sur les pièces / billets ce que certains ont abusivement généralisé au delà de ce contexte.
[^] # Re: Je confirme
Posté par Maderios . Évalué à 4. Dernière modification le 29 août 2023 à 21:35.
Jamais vu cela nulle part.
[^] # Re: Je confirme
Posté par BAud (site web personnel) . Évalué à 2.
normal : d'après la définition de plusieurs, c'est dès que strictement supérieur à 1, je cite
et confirmé dans les commentaires de https://www.projet-voltaire.fr/regles-orthographe/singulier-ou-pluriel-apres-plusieurs-determinants/ (attention, le site est un peu chiant avec les pop-ups :/)
[^] # Re: Je confirme
Posté par Tit . Évalué à 3. Dernière modification le 29 août 2023 à 17:28.
J'ai peut-être mal lu, mais je ne vois pas où ça contredit/explicite ce qui précède, à savoir que pour 1,9 truc on ne met pas de s à "truc", on ne le met qu'à partir de 2 trucs, ton lien ne parle pas de ça, me semble-t-il.
[^] # La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par samydb . Évalué à 1.
Bien évidemment, l'IA a fait des progrès spectaculaires.
Mais au final, ce qui détermine le recours à cette technologie, c'est le degré de tolérance aux erreurs qui sont générées.
Exemple tout frais, lors d'une post-édition de prétraduction machine dans la paire de langues DE > FR :
Source :
00000 = Zähler aus -> binär 0000 0000 0000 0000
00001 = Zähler 1 ein -> binär 0000 0000 0000 0001
00003 = Zähler 1/2 ein -> binär 0000 0000 0000 0011
00007 = Zähler 1/2/3 ein -> binär 0000 0000 0000 0111
00511 = Zähler 1 bis 9 ein -> binär 0000 0001 11111 1111
Cible :
00000 = Compteur désactivé -> binaire 0000 0000 0000 0000
00001 = Compteur 1 on -> binaire 0000 0000 0000 0001
00003 = Compteur 1/2 on -> binaire 0000 0000 0000 0011
00007 = Compteur 1/2/3 on -> binaire 0000 0000 0000 0111
00511 = Compteur 1 à 9 on -> binaire 0000 0001 11111 1111
Si on estime que la paire "on/désactivé" est acceptable, on peut considérer que l'IA fait le job.
Perso, ma post-édition aboutira plutôt à "activé/désactivé".
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 3.
Warum “on” ? Ces trucs me rendent parfois perplexe…
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par samydb . Évalué à 2. Dernière modification le 30 août 2023 à 16:47.
Pourquoi diantre de l'anglais ("on/off") dans ce qui devrait être en français ? Je ne suis pas dans le cerveau de l'IA, donc je m'en tiens au constat de "bizarritude" !
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 2. Dernière modification le 30 août 2023 à 17:50.
C'est surtout que de l'anglais m'aurait moins fait un choc : « on/off ». Mais trouver désactivé et en face ce « off », vraiment ces automates n'ont pas de logique :D (comble pour de l'intelligence…) Je crois que je préfèrerais même le mot-à-mot bête et méchant « d[eu]/un » (et avec binaire en contexte je trouverais malin de proposer « zéro/un » si on veut innover.)
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par Benoît Sibaud (site web personnel) . Évalué à 4. Dernière modification le 31 août 2023 à 07:40.
Hypothèse : du jargonnage en français (*) qui fait qu'on y trouve souvent on/off, en plus de un/zéro, I/O, 1/0 ou éteint/allumé. Et statistiquement, cela ressort dans les traductions automatiques.
(*) par exemple on pourrait trouver Gio ou GiB, noyau ou kernel, etc. dans un texte en français
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par jmiven . Évalué à 2.
Voire noyal !
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
En fait on devrait dire cerneau vu que ça fait référence aux noix.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par samydb . Évalué à 1. Dernière modification le 31 août 2023 à 10:14.
La bonne blague !
A ce propos : la capacité d'appréciation des traits d'esprit par l'IA est un autre champ intéressant.
Voir ici :
https://neurosciencenews.com/ai-humor-23736/
[^] # Re: La question clé : Quel est le degré de tolérance aux erreurs ?
Posté par Benoît Sibaud (site web personnel) . Évalué à 3.
Et la sur- ou sous-interprétation des propos de façon générale.
Exemple de sur-interprétation d'une IA par une autre : https://www.radiofrance.fr/franceinter/une-intelligence-artificielle-imitant-macron-et-de-gaulle-interdite-sur-la-plateforme-twitch-5490581
# L'encrassement des sources de l'apprentissage de l'IA ?
Posté par samydb . Évalué à 2. Dernière modification le 31 août 2023 à 08:50.
Ton explication est plausible.
Ce qui me fait supposer que les moteurs d'IA sont manifestement sensibles aux sources sur lesquelles ils basent leur apprentissage. Si en entrée ils exploitent des corpus "encrassés" (de qualité linguistique moindre), ces défauts vont se refléter avec une forte probabilité dans les énoncés généreux, qui seront, eux aussi défectueux.
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par Buf (Mastodon) . Évalué à 2.
Tout à fait. Et le problème va encore être amplifié à mesure que les nouveaux modèles seront entrainés avec du texte généré par AI. On risque d'avoir un problème de dégénérescence progressive dû à une diminution de la qualité des sources.
Évidemment, il ne faudrait en théorie entrainer ces modèles qu'avec du texte écrit par des humains, mais en pratique, c'est très difficile à faire.
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 6.
Surtout qu'il y a, sur internet en tout cas, quantité de texte de très mauvaise qualité, ceux écrits pour les robots indexeurs.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par samydb . Évalué à 3. Dernière modification le 31 août 2023 à 12:05.
Précisément. Et cette dégradation est multifactorielle. Ainsi, il suffit parfois d'une lettre intervertie ou oubliée pour contribuer joyeusement à la "merdification" ambiante (merci Ploum). Au final, entre les humains qui bafouillent (au clavier) et l'IA facétieuse, il semble qu'on applique la théorie du "ruissellement" en vrai grandeur. On se retrouve avec des textes crade à n'en plus finir.
Exemple :
Leistungsausnahme, (S3 20%) > Exception de performance
Avec un "s" au lieu d'un "f". Mais il fallait lire :
Leistungsaufnahme, (S3 20%) > Puissance absorbée (S3 20%)
Ou : Scheissdruck > pression de merde
Il manquait le "w". Ce qui donne, après correction :
Schweissdruck > pression de soudage
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4.
Et on ajoute tous les textes écrits plus ou moins en globish par des gens qui utilisent des mots anglais parce que ça fait chic, mais pas forcément à bon escient !
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par Zenitram (site web personnel) . Évalué à 3.
Je n'avais pas pensé à ça, mais en fait c'est logique, l'IA n'est pas celle d'Isaac Asimov, elle n'est pas intelligente à analyser et réfléchir, fait juste des stats et c'est tout, et du coup elle va s'auto-détruire à force de se lire elle-même sans pouvoir l'éviter, les développeurs ayant pour priorité de cacher que c'est écrit par une IA et donc le scan ne pourra pas différencier.
Cette technologie n'est vraiment pas le futur de manière générale…
ça me fait penser à la dégénération de la compression vidéo.
[^] # Re: L'encrassement des sources de l'apprentissage de l'IA ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 4.
Même artificielle, la consanguinité ne mène à rien de bon.
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
# Une autre IA
Posté par Faya . Évalué à 3.
Parce que c'est quand même mieux d'avoir plusieurs exemples pour tirer une vérité générale, j'ai testé avec GPT4 d'OpenAI et le résultat m'a l'air assez conforme à l'original. Toutes les IA sont à prendre avec des pincettes mais toutes les IA ne se valent pas…
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.