Forum Linux.général dictionnaire gaulois (suite)

Posté par .
Tags : aucun
1
4
fév.
2010
l'idée est d'abord celle d'une liste exhaustive de tous les mots de la littérature gauloise
c'est à dire toutes les entrées du dico possible
voilà ma base:http://www.ponge.com/telechargements/dico/mots.txt

pour ajouter les mots en caractères majuscules
je peux utiliser la commande tr, qu'il le fait bien

mais il y a aussi les mots où c'est la première lettre qui se trouve en majuscule
ma question est,qu'elle commande utiliser pour lister toutes les entrées de cette manière
merci
  • # plop

    Posté par . Évalué à 4.

    Le jour où tu seras redescendu de ton nuage, tu apprendras grep et les regexp ...
    • [^] # Re: plop

      Posté par . Évalué à -1.

      la question est posée pour ceux qui connaissent la réponse et pas les autres
  • # orthographe

    Posté par . Évalué à 3.

    pour faire de la traduction automatique et de la synthèse vocale avec les textes
    il faut une souplesse orthographique
    donc c'est en plus
  • # Pas compris

    Posté par (page perso) . Évalué à 3.

    Tu fais quoi avec tr qui ne marche pas si seule la premiere lettre est en majuscule ?
    Pourquoi tu n'utilises pas tr sur tout ?
    • [^] # Re: Pas compris

      Posté par . Évalué à 1.

      c'est pour ajouter à la liste des mots en minuscules
      les mots en majuscules
      et en plus les mêmes mots avec la première lettre en majuscule
      c'est à dire comme c'est écrit dans les textes
      • [^] # Re: Pas compris

        Posté par . Évalué à 4.

        et si tu faisait ta recherche en prenant le mot demander, et en le convertissant en MAJuscule ou en minuscule

        ca eviterait d'augmenter la base de donnée de ton dictionnaire pour rien

        Parce que le mot "avion" peut s'ecrire :
        avion
        Avion
        aVion
        avIon
        aviOn
        avioN
        AVion
        AvIon
        AviOn
        AvioN
        AVIon
        AViOn
        AVioN
        AVIOn
        AVION

        ce qui, tu l'avoueras, fait deja beaucoup de place perdu pour pas grand chose
        et cela risque d'augmenter les temps de chargement et les temps de recherches...
  • # dictionnaire gaulois ?

    Posté par . Évalué à 3.

    le ciel leur serait-il déjà tombé sur la tête ? Je ne vois qu'un dictionnaire franchouillard (avec des mots comme avion, babouche ou entreprenaute), en quoi c'est un dictionnaire gaulois ?

    Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

    • [^] # Re: dictionnaire gaulois ?

      Posté par . Évalué à 7.

      Les mots gaulois finissent par le suffixe -ix. [1]
      C'est connu.

      Exemple:
      babouche DEVIENT babouchix (noter la suppression de la voyelle intercalaire)
      entreprenaute DEVIENT entreprenautix
      Par contre le mot avion n'a pas d'équivalent en gaulois. On voyageait à l'époque uniquement à dos de mule ou en char à boeufs. C'est connu également.

      Solution:
      Pour corriger les éventuelles coquilles je te suggère d'utiliser cet algorithme (algorithme de La Rache)
      grep -vi 'ix$' mots.txt|sed -e 's/[aeiou]\?$/ix/'
      Ce script pratique te permet ensuite facilement de remplacer à la main les mots érronés par ceux générés par le script.

      Notes de bas de page:
      [1] Remarquer l'origine évidente du mot suffixe.
  • # Une solution avec sed

    Posté par . Évalué à 1.

    bon il y a surement plus simple, mais ça marche.
    cat mots.txt|sed 's/\(.\)\(.*\)/\1\2\n\u\1\2\n\U\1\2/g'
    un léger soucis toutefois lorsque le mot ne comporte qu'une seule lettre.
    • [^] # Re: Une solution avec sed

      Posté par . Évalué à 1.

      cela semble convenir

      mots.txt:

      a
      aa
      aaa
      l'
      d'
      c'
      c'est
      cella
      cellaire
      cellarie
      cellarié

      commande:cat mots.txt | sed 's/\(.\)\(.*\)/\1\2\n\u\1\2\n\U\1\2/g' | sort -u

      mots-2.txt:

      a
      A
      aa
      Aa
      AA
      aaa
      Aaa
      AAA
      c'
      C'
      cella
      Cella
      CELLA
      cellaire
      Cellaire
      CELLAIRE
      cellarie
      Cellarie
      CELLARIE
      cellarié
      Cellarié
      CELLARIÉ
      c'est
      C'est
      C'EST
      d'
      D'
      l'
      L'

      félicitation
      robertix
      • [^] # Re: Une solution avec sed

        Posté par . Évalué à 3.

        mais à part augmenter la taille de ta base de donnée, ca sert à quoi d'avoir les 3 variantes d'un meme mot (minuscule, majuscule et Initial) ?

        dans plein de langage on peut convertir une entrée vers minuscule (ou majuscule)
        l'utilisateur peut alors taper

        aaa
        Aaa
        aAa
        aaA
        AAa
        aAA
        AAA

        ton programme va passer tout ca en aaa ou AAA suivant ce que tu choisis
        et va comparer ca avec ta base de donnée

        c'est beaucoup plus simple que de vouloir stocker toutes les variantes d'un meme mot.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.