Journal L'internationalisation des adresses internet

Posté par (page perso) .
Tags : aucun
8
1
nov.
2009
L'Internet Corporation for Assigned Names and Numbers (ICANN) est l'organisation qui s'occupe des noms de domaines et des numéros sur Internet, son rôle est entre autre d'attribuer les adresses de protocole Internet (IP) et gérer les noms de domaines.
L'ICANN vient donc ce vendredi 30 octobre 2009 faire un pas important dans l'internationalisation des adresses internet.

Il s'agit de L'Internationalized domain name (IDN) consistant à pouvoir écrire des caractères qui ne sont pas ceux qui nous utilisons (alphabet latin) dans les adresses internet, mais bien de pouvoir utiliser des caractères chinois, arabes, grecques ou bien d'autre encore.

Le projet n'est pas nouveau et même plutôt ancien, en cherchant un peu, j'ai même retrouvé un vieux journal datant de 2003. Mais la mise en place n'était pas officiel.

En pratique, les IDN existe déjà, et sont utilisé par certain pays, mais de façon non règlementé.
Vendredi, son usage à été voté par l'ICANN (lien de l'annonce) et la règlementation peut être lu dans ce PDF. Elle n'implique que les TLD du pays concerné (par exemple .cn pour la Chine, ou .ir pour l'Iran), et ne concerne donc pas les .net, .com.
Le but est entre autre de facilité le commerce local, ainsi que les recherches scolaire pour les enfants.

La moitié des internautes n'utilisant pas l'alphabet latin, c'est quand même 800 millions de personnes concernées.
Personnellement, ne lisant déjà pas les pages internet écrites en chinois, que l'URI soit en caractères latin ou chinois ne fait pas trop de différence pour moi.

Mais cette initiative a quand même une incidence direct pour nous, en effet, elle permettrai les caractères accentués dans les URI.
"Apparemment, les pays latins sont peu motivés pour adopter les IDN. Ils ont pris l'habitude de caractères non accentués dans les noms de domaine, et l'usage des IDN nécessiterait l'enregistrement d'une multitude de variantes orthographiques."
--M. Pouzin.


Cette nouvelle est paru sur des sites non spécialisé tel que lemonde.fr, lefigaro.fr ou encore Numerama
  • # super..

    Posté par (page perso) . Évalué à  5 .

  • # Cauchemar de regexps

    Posté par (page perso) . Évalué à  9 .

    Han! Ça veut dire que beaucoup de monde va devoir nettoyer ses regexps de détection d'URL et vérifier qu'elles sont bien compatibles avec les caractères internationaux (UTF-8?), ça sent mauvais pour les utilisateurs de programmes (privateurs) qui ne sont plus maintenus!
    • [^] # Re: Cauchemar de regexps

      Posté par . Évalué à  4 .

      ... et de détection d'adresses mail aussi !

      Enormément de sites web parsent les adresses mail lors de l'inscription... bon courage à ceux qui voudront profiter rapidement de ce nouveau confort.
    • [^] # Re: Cauchemar de regexps

      Posté par . Évalué à  4 .

      D'un certain côté non, car l'UTF-8 et les wide chars sont censés être traités en dessous de l'expression régulière elle-même. D'un autre, effectivement, tous les [A-Za-z0-9-_] risquent d'être pris en défaut. Mais bon, il s'agit d'une migration. Comme lors de toute migration, il y aura des choses à adapter, et une période de transition. C'est normal.

      Par contre, sur le plan formel, définir ce qu'est un « caractère alphanumérique » risque de devenir assez chiant, en effet. La classe [:alpha:] va commencer à être assez chargée. Et puis générer un automate sur un vocabulaire de 256 caractères, c'est faisable. Sur l'Unicode entier, ça peut devenir musclé.
      • [^] # Re: Cauchemar de regexps

        Posté par . Évalué à  2 .

        Il me semble que les range a-z et A-Z sont déjà "internationalisés" si on utilise une version un peu moderne des regexps. Et les classes alpha sont très biens définies en unicode.
        • [^] # Re: Cauchemar de regexps

          Posté par . Évalué à  3 .

          Avec PCRE notamment, ces classes peuvent être spécifiées avec \p{L} pour les lettres et \p{N} pour les nombres, [\p{L}\p{N}] donnant un équivalent unicode de [[ :alnum:]].
  • # Le petit cadena !!

    Posté par . Évalué à  10 .

    Maintenant, il ne faudra plus faire confiance à la barre d'adresse !

    En UTF-8, il y a tellement de caractère qui se ressemble ou qui se recouvre dans certaine police, qu'il doit y avoir une dizaine de façon possible d'écrire le nom de chaque site !

    Rien de nouveau, ou pouvait le faire avant, genre http://1inuxfr.org, mais avec UTF-8, ça va être pire !
    • [^] # Re: Le petit cadena !!

      Posté par (page perso) . Évalué à  1 .

      Ce qui m'ennuie pas mal, après avoir lu en diagonale le PDF, c'est qu'il n'est pas fait mention de jeu de caractère imposé. Si c'est vraiment la cas, cela va vite devenir un cauchemar pire que les mauvais jeu de caractères sur les pages web.
    • [^] # Re: Le petit cadena !!

      Posté par (page perso) . Évalué à  3 .

      J'ai hâte de voir les attaques par phising que ça va engendrer. Comment distinguer un caractère latin d'un caractère UTF-8 ? C'est bien souvent visuellement impossible. Il y a intérêt que les browsers mettent à disposition des outils pour distinguer et avertir de ça, sinon on va voir arriver rapidement des faux sites indétectables.
      • [^] # Re: Le petit cadena !!

        Posté par . Évalué à  3 .

        dans un coin de about:config de Firefox, il traine un network.IDN.blacklist_chars
        • [^] # Re: Le petit cadena !!

          Posté par (page perso) . Évalué à  5 .

          Ouais, enfin, t'as des sites légitimes qui vont s'écrire avec « é » ( U+00C9) et d'autres avec « é » (U+0065 suivi de U+0308).

          Et là, bonjour la sécurité (car bien sûr, tu crois que ta banque va te filer une clef publique la prochaine fois que tu iras au guichet et que les sites vont avoir une sécurité fiable ?)

          Tu me files une pétition contre cette extension des noms, je signe de suite.
          • [^] # Re: Le petit cadena !!

            Posté par . Évalué à  2 .

            Et là, bonjour la sécurité (car bien sûr, tu crois que ta banque va te filer une clef publique la prochaine fois que tu iras au guichet et que les sites vont avoir une sécurité fiable ?)
            Ben ouais, la banque pourrait te filer une clef publique, c'est une bonne idée ça. Au lieu de réinventer la roue en moins bien (du genre clef USB avec logiciel Windows only..)

            Puis elle pourrait aussi te demander de taper l'adresse et/ou de la garder en marque page, partant du fait que le nom de ta banque utilise des caractères "à l'ancienne."

            Ou alors tu peux ouvrir les yeux et vérifier si la page est en HTTPS avec un certificat valide.

            THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

            • [^] # Re: Le petit cadena !!

              Posté par . Évalué à  5 .

              Ou alors tu peux ouvrir les yeux et vérifier si la page est en HTTPS avec un certificat valide.

              Mouais... Il faut aussi vérifier l'autorité de confiance.

              Pourquoi on filerait un certificat à mabanque.com et pas à mαbαnque.com ?
              Les certificats ne sont pas une preuve de bonne foi absolut. Juste qu'une autorité inconnu de moi et qui aime vendre des certificats à créer ce certificat.
              • [^] # Re: Le petit cadena !!

                Posté par . Évalué à  1 .

                Sauf que certaines autorités de certifications sont ajoutées par les éditeurs de navigateurs, mais pas toutes.
                Et quand le navigateur ne connaît pas, il prévient. Si c'est un navigateur pour madame Michu (IE ou FX) il se met à clignoter de partout en hurlant à la mort, si c'est un navigateur pour utilisateur qui sait lire (exemple, Konqueror) il affiche une simple boîte de dialogue informant l'utilisateur et lui demandant de faire un choix.

                THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

                • [^] # Re: Le petit cadena !!

                  Posté par . Évalué à  5 .

                  Les autorités de certification te vendent un certificat pour n'importe quel domaine, tant que celui-ci t'appartient (et que tu sois une banque, un particulier, ou un pirate). Donc le méchant, avec son domaine mαbαnque.com, il peut obtenir un certificat pour mαbαnque.com chez n'importe quel autorité de certification, comme pour n'importe quel autre domaine, et ton navigateur ne dira rien du tout.
                  • [^] # Re: Le petit cadena !!

                    Posté par . Évalué à  3 .

                    En fait un certificat comme ça (mαbαnque.com) ne tiendra pas longtemps et se fera révoquer si il imite le site de mabanque.com, mais bon, même si il tient deux semaine, il peut faire des ravages.

                    Et puis le certificat sera valide un an dans tout les cas...
            • [^] # Re: Le petit cadena !!

              Posté par . Évalué à  1 .

              C'est le cas de ma banque (CL), qui m'en a filé un pour les virements externes.
          • [^] # Re: Le petit cadena !!

            Posté par (page perso) . Évalué à  0 .

            Tu crois pas capable le responsable du TLD de faire une normalisation avant insertion ? ou d'interdire certaines formes pour en priviligier d'autres ? ou de vérifier au l'autre n'existe pas avant d'en insérer une ?

            Ce ne sont pas de vrais arguments ça. C'est facilement résovable (et ça a effectivement déjà été résolu sur les tld qui font déjà de l'internationalisation)

            Il faut arrêter le FUD là
      • [^] # Re: Le petit cadenas !!

        Posté par (page perso) . Évalué à  7 .

        :: Comment distinguer un caractère latin d'un caractère UTF-8 ?

        Juste pour chipoter : un caractère utf-8, ça ne veut rien dire (utf-8 est juste un codage) ; il faudrait parler de « caractère Unicode ». Ensuite, un caractère latin (« A » par exemple), c'est de l'Unicode (point de code U+0041), ou de l'utf-8, si tu préfères.
      • [^] # Re: Le petit cadena !!

        Posté par . Évalué à  7 .

        En même temps, si ça c'est un argument qui devrait nous faire renoncer à cette possibilité, je connais un paquet d'arguments pour déconnecter internet.

        Tous les nombres premiers sont impairs, sauf un. Tous les nombres premiers sont impairs, sauf deux.

      • [^] # Re: Le petit cadena !!

        Posté par (page perso) . Évalué à  3 .

        Bah, ça va faire comme on fait déjà (parce qu'on a déjà des caractères étendus dans certains domaines) : le domaine en question décide quels sont les caractères autorisés suivant les langues potentielles du/des pays. Si les pays ne le font pas, il est largement possible de le faire côté navigateur (et de mettre un warning s'il y a un truc qui dépasse).

        Bref, ça fait éventuellement des vérifications en plus mais on reste dans des problématiques qui ont des solutions (et mieux : des solutions déjà implémentées)
        • [^] # Re: Le petit cadena !!

          Posté par . Évalué à  2 .

          Et en plus c'est théoriquement pas possible de mélanger les plages unicode. Dans tous les cas c'est un problème bien connu de l'ICANN dès l'introduction de l'IDN...
      • [^] # Re: Le petit cadena !!

        Posté par (page perso) . Évalué à  7 .

        :: J'ai hâte de voir les attaques par phising que ça va engendrer. Comment distinguer un caractère latin d'un caractère UTF-8 ?

        Extrait du blog de Stéphane Bortzmeyer
        http://www.bortzmeyer.org/idn-et-phishing.html :

        « Les homographes existent bien, et ils n'ont pas attendu les IDN. Par exemple, google.com et goog1e.com sont quasi-homographes (regardez bien). Unicode multiplie leur nombre car les écritures humaines n'ont pas été conçues par des technocrates rationnels mais sont issues d'une longue évolution distribuée sur toute la planète. Unicode est donc complexe, car le monde est complexe.

        Mais le problème n'est pas dans l'existence d'homographes. Il est dans le fait que ce problème n'a rien à voir avec le hameçonnage. Je reçois beaucoup de rapports de hameçonnage au bureau et aucun ne dépend jamais d'homographes. La plupart du temps, le hameçonneur ne fait aucun effort pour que l'URL soit vraisemblable : il utilise un nom comme durand.monfai.net, voire une adresse IP. Et pour cause, très peu d'utilisateurs vérifient la barre d'adresse de leur navigateur, ne serait-ce que parce qu'ils ne comprennent pas ce qu'elle contient et qu'ils n'ont eu aucune formation sur les noms de domaines. Le hameçonneur, escroc rationnel, ne se fatigue donc pas. »
  • # IDN, c'est moche

    Posté par (page perso) . Évalué à  8 .

    Des adresses en xn-machin-trucbidule pour faire passer de l'Unicode, ça ressemble plus à un hack immonde qu'à une solution digne de ce nom. Envoyer directement de l'UTF-8 dans les requêtes DNS, ça coûtait trop cher ?
    • [^] # Re: IDN, c'est moche

      Posté par . Évalué à  10 .

      ça ressemble [...] à un hack immonde
      Petite correction: c'est un hack immonde.
    • [^] # Re: IDN, c'est moche

      Posté par . Évalué à  9 .

      Cela aurait nécessité:
      - Une nouvelle version du protocole DNS,
      - L'implémentation de cette nouvelle version du protocole dans les logiciels existants (Bind, PowerDNS...),
      - La mise à jour de l'ensemble des serveurs DNS.

      ... soit au moins un délais de 10 ans pour arriver à quelque chose de fonctionnel (dont au moins 8 pour la dernière étape). Vous pensez bien que ce choix a été fait en connaissances de causes, avec les avantages (ne pas remettre en cause l'ensemble du protocole DNS actuel) et les inconvénients (nécessite la présence de plugins dans certains navigateurs afin d'être pleinement fonctionnel) que cela représente.

      De plus, la news semble incorrecte:
      - Les IDN existent déjà, et son "réglementés" (des RFC existent),
      - Il ne s'agit pas ici d'une "légalisation" des IDN, mais de l'ajout de domaines de premiers niveau encodés (par exemple .امارات (.emarat) pour les Émirats Arabes Unis).

      Une série de domaines "example.test" ont d'ailleurs été crées par l'ICANN dans différents alphabets a des fins de tests: http://idn.icann.org/#The_example.test_names
      • [^] # Re: IDN, c'est moche

        Posté par (page perso) . Évalué à  5 .

        Dans mes souvenirs, l'arabe se lit de droite à gauche, ça va pas faire un peu louche de finir par http:// ? :D
        • [^] # Re: IDN, c'est moche

          Posté par . Évalué à  10 .

          ou par //:ptth
        • [^] # Re: IDN, c'est moche

          Posté par . Évalué à  5 .

          En fait, on fait souvent remarquer qu’avoir le TLD d’abord (soit une URL http://org.example.www:80/par-là/celui-ci#ce-morceau?comme=çà) aurait été plus cohérent.

          S’ils utilisent déjà leur alphabet pour les répertoires et documents (ce qui me semblerait logique), ils ont déjà des URL à l’envers (partie spécifique d’abord). Donc ils auront, sur toute l’URL, un ordre tout aussi cohérent que le nôtre…
          • [^] # Re: IDN, c'est moche

            Posté par . Évalué à  6 .

            En fait, on fait souvent remarquer qu’avoir le TLD d’abord (soit une URL http://org.example.www:80/par-là/celui-ci#ce-morceau?comme=çà) aurait été plus cohérent.
            Et on n'aurait pas eu besoin de retourner les adresses IP dans les reverse DNS.
        • [^] # Re: IDN, c'est moche

          Posté par . Évalué à  3 .

          Sans parler du Chinois, du Japonais, et probablement bien d'autres langues qui ne se lisent théoriquement pas horizontalement :-)
          Même si les habitudes ont changé, question d'adaptation.
          • [^] # Re: IDN, c'est moche

            Posté par (page perso) . Évalué à  5 .

            Le japonais autorise les écritures horizontales et verticales.
            Et on trouvait même en son temps (jusque mi-XXème siècle) de l'horizontale de droite à gauche (le migiyokogaki, ça se fait encore pas pour les devantures de restaurants chics).
          • [^] # Re: IDN, c'est moche

            Posté par . Évalué à  2 .

            Bah, suffit de coller le champs d’URL sur le côté…

            Hmm, ça existe les widgets LineEdit/TextField/Input/… qui permettent le vertical ? (J’ai des doutes, vu que le droite-à-gauche n’est finalement géré correctement que depuis peu.)
    • [^] # Re: IDN, c'est moche

      Posté par (page perso) . Évalué à  2 .

      Des éléments de réponse à cette question :

      http://www.bortzmeyer.org/pourquoi-idn-et-pas-un-dns-unicode(...)
  • # N'importe quoi

    Posté par (page perso) . Évalué à  0 .

    Sérieusement, ça ne va pas aider à ce que tout le monde s'y retrouve. Va taper l'url d'un site en caractères japonais, ça va pas aider à la communication tout ça ... surtout que le reste de l'url sera toujours en alphabet latin ...

    On a quand même l'impression que ça va surtout permettre de vendre tout plein de nouveaux noms de domaine.

    Pendant qu'on y est, les adresses IP en xx.yy.zz.tt sont en chiffres arabes, pourquoi pas en chiffres romains ou chinois pendant qu'on y est ? Surtout que leur représentation réelle est en binaire, la retranscription en chiffres de 0 à 9 n'étant là que pour simplifier la lecture.
  • # La bonne nouvelle,

    Posté par (page perso) . Évalué à  6 .

    c'est qu'on aura des sites réservés aux gens qui ont une bonne orthographe, comme sur le futur http://hétérogénéité.accents.aig.us
    • [^] # Re: La bonne nouvelle,

      Posté par . Évalué à  4 .

      moi j'attend également la possibilité d'utiliser les apostrophes et les espaces dans les URL, cela sera une véritable avancée technologique :

      http://www.c'est mon site à moua.lol

      (vivement que linuxfr se mette au goût du jour, d'ailleurs s'ils ne font rien d'ici 2 mois je fais un fork qui se trouvera bien entendu à l'adresse : http://www.linuxfr au goût du jour c'est ici.org)

      Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

  • # regex?

    Posté par . Évalué à  1 .

    Et donc que devient notre bonne vieille regex de validation des emails ? comment être certain que ":alpha:" ou ":alnum:" contient tout les caractères d'écriture de unicode ?
  • # L'auteur n'a pas vérifié

    Posté par (page perso) . Évalué à  3 .

    Bien sûr que si, les IDN sont officiels depuis 2003. Le RFC 3490, qui les normalise, a été publié à cette date. Quand aux politiques des registres de noms de domaine, heureusement que ce n'est pas l'ICANN qui décide ce qu'on a le droit de mettre dans ".cn" ou ".de".

    Donc, pas grand'chose de nouveau sous le soleil, surtout de l'esbrouffe ICANN.

    Donc, article peu sérieux, de la part du Monde, cela ne m'étonne pas, mais pour linuxfr, c'est triste.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.