Journal Enquête sur les noms propres pour le dictionnaire orthographique

Posté par  . Licence CC By‑SA.
22
17
juin
2017

Il y a quelques années, la confection du dictionnaire orthographique se faisait collaborativement avec quelques participants très impliqués. Puis, à mesure que le dictionnaire se complétait, deux ou trois dizaines de milliers de mots plus tard, les participants se sont moins impliqués et les propositions de nouveaux mots se sont faites de plus en plus rares. Bien sûr, le dictionnaire n’est toujours pas complet, mais il semble l’être suffisamment pour beaucoup, ou bien ça n’intéresse plus grand-monde. Difficile de savoir.

C’est à l’époque où il y avait du monde que la politique d’intégration des mots s’est faite, autour d’un consensus plus ou moins établi. Et cela n’a guère été remis en cause, hormis sur certains points spécifiques.

Or, il y a un domaine où beaucoup de points n’ont jamais été fixés clairement : celui des noms propres. Vous n’en avez peut-être pas conscience, mais il existe une quantité gigantesque de noms propres : prénoms, patronymes, artistes, personnages historiques, mythologiques ou fictifs, sociétés, compagnies, ONG, organisations étatiques, produits commerciaux ou non commerciaux, toponymes (villes et villages, rivières, fleuves, montagnes, déserts, lacs, régions administratives ou historiques, lieux-dits). Tout ça représente en fait plus de mots que les noms communs du français.

Pour l’instant, le dictionnaire contient environ 8 000 noms propres sur 82 000 entrées. Est-ce trop, pas assez ? Y a-t-il des points à revoir ? A-t-on mal fait ? À vous de le dire.

J’ai confectionné un questionnaire sur Framaforms pour essayer d’y voir plus clair.

Comme vous le savez peut-être, le dictionnaire orthographique inclus dans Grammalecte est aussi celui qui sert à la correction orthographique de nombreux logiciels, notamment Firefox, Thunderbird, LibreOffice, Chrome, et beaucoup de logiciels sur Linux. Donc, ça vous concerne aussi probablement, même si vous n’utilisez pas le correcteur grammatical.

  • # Règles Wikipédia

    Posté par  . Évalué à 2.

    Les règles actuelles ont l'air plus strictes que celle pour avoir une entrée dans Wikipédia.

    Adopter les mêmes règles permettrait de remplir automatiquement le dico en se basant sur les pages présentes dans l'encyclopédie.

    • [^] # Re: Règles Wikipédia

      Posté par  . Évalué à 3.

      https://linuxfr.org/news/grammalecte-correcteur-grammatical-2#comment-1704447

      « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

    • [^] # Re: Règles Wikipédia

      Posté par  . Évalué à 3. Dernière modification le 17 juin 2017 à 16:38.

      Adopter les mêmes règles permettrait de remplir automatiquement le dico en se basant sur les pages présentes dans l'encyclopédie.

      Non. Ils acceptent bien trop de choses pour nous. On remplirait le dictionnaire avec des dizaines ou des centaines de milliers d’entrées. Par ailleurs, Wikipédia ne recense même pas les noms communs, ce n’est pas un dictionnaire. Pas le même but.

      Enfin, leur titres utilisent souvent des graphies trop savantes comme Łódź, que nous écrivons simplement Lódz, parce que nous refusons les diacritiques sur les consonnes (une seule exception historique avec ñ pour certains mots espagnols).

      • [^] # Re: Règles Wikipédia

        Posté par  (site web personnel, Mastodon) . Évalué à 5.

        Enfin, leur titres utilisent souvent des graphies trop savantes comme Łódź, que nous écrivons simplement Lódz, parce que nous refusons les diacritiques sur les consonnes (une seule exception historique avec ñ pour certains mots espagnols).

        Si c'est la graphie officielle qu'il faut utiliser pour ce nom propre, pourquoi la refuser?

        Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

        • [^] # Re: Règles Wikipédia

          Posté par  . Évalué à 10.

          Par simple réalisme.

          Pour la même raison qui fait qu’on écrit plus souvent Dvorak ou Dvorák que Dvořák.
          Pour la même raison qu’on n’écrit pas les mots russes en caractères cyrilliques.
          99 % des gens n’ont simplement pas les outils adéquats. S’ils les avaient, on réviserait ce choix.

          Il est déjà difficile de faire accepter les apostrophes typographiques (que Wikipédia n’a pas voulu imposer, soit dit en passant) et les majuscules accentuées bien de chez nous. Alors, ça, bonne chance.

          Mais oui, idéalement… c’est ce qu’il faudrait faire. À moins de considérer que l’appropriation et la simplification des graphies étrangères soit une chose normale, voire souhaitable.

          Vous dites bien Londres et Francfort(-sur-le-Main), et non London et Frankfurt( am Main), n’est-ce pas ?

          • [^] # Re: Règles Wikipédia

            Posté par  (site web personnel) . Évalué à 3. Dernière modification le 19 juin 2017 à 11:54.

            C'est aussi parfois précisé clairement dans des directives ou dans la loi. Pour les prénoms, l'état civil n'accepte que des diacritiques présents dans la langue française ("ø" ou "~" sont interdits, mais "œ" est autorisé par exemple). Pour les toponymes, l'administration dit de ne pas écrire les signes diacritiques particuliers qui n'existent pas dans l'écriture du français.

            Plus d'infos sur https://fr.wikipedia.org/wiki/Diacritiques_utilis%C3%A9s_en_fran%C3%A7ais.

        • [^] # Re: Règles Wikipédia

          Posté par  . Évalué à 6.

      • [^] # Re: Règles Wikipédia

        Posté par  . Évalué à 2.

        leur titres utilisent souvent des graphies trop savantes comme Łódź, que nous écrivons simplement Lódz, parce que nous refusons les diacritiques sur les consonnes

        Que le mot "ressemble" pas à un mot français (en plus comme déjà dit c’est la graphie officielle) ça me semble pas mal, parce que ce nom de ville ne se prononce vraiment pas "à la latine"…

        Donc si un jour vous vous retrouvez en Pologne à demander votre chemin : ce nom se prononce "woudch"… vous galérerez moins que moi avec les locaux :)

        Si Ł était une consonne qui ressemblait vaguement au L latin je dirais qu’on peut se passer du diacritique mais sur cet exemple…

        Pour en revenir à Łódź je suis surpris de voir qu’il n’y a pas de mot français pour elle, comme il y en a pour Warszawa → Varsovie ou d’autres villes dans le monde.

        • [^] # Re: Règles Wikipédia

          Posté par  . Évalué à 3.

          si un jour vous vous retrouvez en Pologne à demander votre chemin

          Comme avec Varsovie et bien d’autres mots locaux… comme dans de nombreux pays du monde…

          La question n’est pas de savoir si c’est correct ou non. La question, c’est le degré de rigorisme qu’on impose.

          L’apostrophe droite est incorrecte. Pourtant, le correcteur orthographique la tolère et ne dit rien. On devrait l’imposer, mais on ne le fait pas… A-t-on raison ou tort ?

          Toutes ces décisions ont été prises il y a très longtemps. Certaines ont été prises par ceux qui se sont occupés du dictionnaire avant moi. À l’époque où il y avait pas mal de contributeurs au dictionnaire, personne n’a remis ce point en cause. On aurait peut-être dû. Ou peut-être pas.

          D’un côté, il y a les rigoristes. De l’autre, il y a des gens qui veulent tout simplifier à l’extrême. Et il y a ceux qui se foutent de tout. Et quoi qu’on fasse, il en aura toujours pour vous dire que vous êtes dans l’erreur. Nous sommes trop rigoristes pour les uns, pas assez pour les autres.

          À l’époque où j’ai commencé, l’UTF-8 n’était pas aussi utilisé que maintenant (le dico était en Latin-1), et de mémoire Wikipédia n’a pas toujours été aussi si pointilleux sur les toponymes. La situation a beaucoup changé depuis lors.

          On pourrait passer en revue toutes entrées du dictionnaire et imposer les graphies savantes pour Łódź, Chișinău et des tas d’autres villes. Je ne suis pas certain que ce serait très apprécié cependant…

          Si j’avais pensé à ce point, je l’aurais inclus dans mon questionnaire.

          • [^] # Re: Règles Wikipédia

            Posté par  . Évalué à 3.

            À l’époque où j’ai commencé, l’UTF-8 n’était pas aussi utilisé que maintenant (le dico était en Latin-1), et de mémoire Wikipédia n’a pas toujours été aussi si pointilleux sur les toponymes. La situation a beaucoup changé depuis lors.

            Exactement. Loin de moi l’idée de vouloir dénigrer le travail accompli jusqu’ici. Je ne pense pas que supprimer la tolérance à l’apostrophe droite soit une bonne idée. Par contre il me semble qu’avoir un support total du bon caractère, est une requête légitime. Il me semble que ce n’est pas le cas tout le temps.

            On pourrait passer en revue toutes entrées du dictionnaire et imposer les graphies savantes pour Łódź, Chișinău et des tas d’autres villes. Je ne suis pas certain que ce serait très apprécié cependant…

            Question naïve : un nom ne peut pas avoir deux entrées dans le dictionnaire ? Lodz ET Łódź ?

            Le correcteur de LibreOffice (FR) ne connaît ni Lodz ni Łódź… et le correcteur sur linuxfr.org connaît seulement Łódź :)

            • [^] # Re: Règles Wikipédia

              Posté par  . Évalué à 5.

              Question naïve : un nom ne peut pas avoir deux entrées dans le dictionnaire ? Lodz ET Łódź ?

              Dans la mesure où il ne peut pas être considéré comme une faute de français de n'écrire qu'avec les caractères du français, je pense que la question de la pertinence de "Lodz" ne se pose pas vraiment. Sur la forme "Łódź", c'est plus discutable. En général, quand un toponyme lexicalisé existe, ne pas l'utiliser est considéré comme une faute de français, pas exemple, "Je suis allé à Torino la semaine dernière" est incorrect selon les standards en vigueur (l'hypercorrection pourrait être humouristique, bien sûr). Il n'y a pas loin entre «graphie savante» et «graphie pédante», et même l'académie française reconnait que certaines anciennes habitudes «savantes» (comme par exemple l'utilisation de pluriels étrangers sur des mots lexicalisés) est maintenant considérée comme obsolète ; personnellement j'ai toujours considéré que des absurdités comme "scenari" au lieu de scénarios étaient particulièrement malvenues.

      • [^] # Re: Règles Wikipédia

        Posté par  . Évalué à 4.

        Ça serait gênant en terme de taille ou de temps de traitement d'avoir tant de nom propre ?

        Pour un correcteur orthographique, un problème serait peut-être d'accepter un mot mal écrit car c'est aussi un nom propre… Mais avec un correcteur grammatical il y a moins de risque non ? :)

  • # Ça tombe bien

    Posté par  . Évalué à 3.

    Hier je me posais justement la question de la suppression des noms propres dans le dictionnaire en lisant cette page : http://www.academie-francaise.fr/le-dictionnaire-la-9e-edition/exemples-de-mots-supprimes

    Pourquoi est-ce qu'on supprimerait des noms propres !? Autant je comprends parfaitement pour les mots qui ne sont plus utilisés mais là on trouve entre autres Neptune, Morphée, némésis … À ma connaissance ils sont encore très utilisés (qui n'a jamais entendu "dans les bras de Morphée") et le nom Morphée continue aussi à désigner cette même déesse. Donc je ne comprends pas. Z'avez une idée ?

    • [^] # Re: Ça tombe bien

      Posté par  (site web personnel) . Évalué à 9.

      le nom Morphée continue aussi à désigner cette même déesse

      Ne te laisse pas abuser par le e final : Morphée est un dieu de genre masculin !

  • # Pas très clair.

    Posté par  (site web personnel) . Évalué à 10.

    Tout au long du journal je me suis demandé de quel dictionnaire il était question. Ah enfin ! au dernier paragraphe j'apprends qu'il s'agit de Grammalecte. Ah non pas tout à fait, il s'agit de celui qui est inclus dans Grammalecte. Du coup je suis perdu. De quoi parle-t-on ? L'auteur laissant penser qu'il n'y aurait qu'un seul dictionnaire.

    Tiens, "Grammalecte" n'est pas reconnu par Firefox (il est souligné comme une faute, FX me propose grammaticale)

    Vraiment pas clair tout ça.

    « Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes. »

    • [^] # Re: Pas très clair.

      Posté par  . Évalué à 10.

      En effet, ce n’est pas très clair.

      Beaucoup de logiciels libres et quelques logiciels non libres utilisent le même correcteur orthographique appelé Hunspell. C’est pourquoi, tous ces logiciels utilisent aussi les mêmes dictionnaires orthographiques.  Ce sont ces dictionnaires qu’on trouve dans les distributions Linux, en général en vrac dans un répertoire commun appelé hunspell, dictionaries ou myspell, me semble-t-il. (Myspell est simplement l’ancêtre de Hunspell.)

      Bref, ce correcteur et ces dictionnaires sont utilisés par Firefox, Thunderbird, LibreOffice, Chrome et des tas d’autres logiciels¹, y compris des poids lourds comme InDesign ou des petits logiciels comme WriteMonkey (un logiciel pour écrivain)…

      Hunspell est une librairie très utilisée. Et comme je suis celui qui gère le dictionnaire français pour Hunspell, je demande votre avis.

      ¹ Cette liste n’est pas exhaustive.

      • [^] # Re: Pas très clair.

        Posté par  (site web personnel) . Évalué à 4.

        J'avoue avoir eu du mal à comprendre moi aussi. dicollecte.org est le site dédié au développement collaboratif du dictionnaire français de hunspell et grammalecte.

        Par contre, je n'ai pas trouvé la forge dédiée.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.