Sortie de GNU grep 2.7

Posté par Denis Dordoigne le 21 septembre 2010 à 12:29. Modéré par baud123.

Étiquettes :

sept.

2010

La version GNU de grep vient de sortir en version 2.7. Outre les habituelles corrections de bugs (accessibles en cliquant sur "lire la suite" ) , deux évolutions ont été apportées :

La première évolution consiste à lever une erreur lors de l'utilisation de [:space:], [:digit:], etc. au lieu de [[:space:]] ou [[:digit:]], etc. : jusqu'ici, cela n'était pas reconnu une erreur mais était interprété de façon POSIX ([:digit:] représentait n'importe quel caractère parmi ':', 'd', 't', 'g' et 'i') ; l'ancien comportement peut être conservé en positionnant la variable d'environnement POSIXLY_CORRECT.
La seconde évolution intéressera beaucoup les francophones, puisqu'il s'agit de la possibilité d'utiliser les équivalences définies par les locales, et donc de détecter les caractères accentués en indiquant juste la lettre correspondante ; il est à noter que cette fonctionnalité n'est disponible qu'en utilisant la glibc et en positionnant la locale souhaitée.

Traduction corrections de bugs annoncées :

grep --include=FILE fonctionne à nouveau, et n'agit plus comme --exclude=FILE
[bug introduit dans grep-2.6]

Une recherche de chaîne vide avec grep -Fw ne retournera plus de lignes vides. [bug présent depuis "le début"]

X{0,0} est correctement implémenté. Il était utilisé comme synonyme de X{0,1}.
[bug présent depuis "le début"]

Avec les locales multi-octets, les expressions rationnelles incluant des références arrières ne génèrent plus une complexité quadratique (NdT : cf. Théorie_de_la_complexité_des_algorithmes)
[bug présent depuis que le support des caractères multi-octets a été introduit dans 2.5.2]

Avec les locales UTF-8, les expressions rationnelles incluant "." sont traitées plus rapidement. Par exemple, grep . est maintenant deux fois plus rapide que grep -v ^$, au lieu d'être beaucoup plus lent. Cela reste lent avec les autres locales multi-octets.
[bug présent depuis que le support des caractères multi-octets a été introduit dans 2.5.2]

--mmap devait être ignoré depuis 2.6.x, mais il avait été supprimé par erreur.
[bug introduit dans 2.6]

Note : merci aux modérateurs d'avoir remis en forme l'article, la syntaxe des regexp étant parfois en conflit avec celle de mise en forme des articles, l'auteur de ces lignes n'a pas réussi à s'en sortir...

Aller plus loin

grep (21 clics)
Liste des miroirs GNU (6 clics)
Log git des modifications (8 clics)

# Complexité

Posté par mgoeminne (site web personnel) le 21 septembre 2010 à 14:11. Évalué à 2.

Est-il possible de connaître la nouvelle complexité avec référence en arrière?

Sinon : "l'ancien comportement peut-être conservé" => l'ancien comportement peut être conservé.

Merci pour la nouvelle, en tout cas!
- [^] # Re: Complexité
  
  Posté par djano le 21 septembre 2010 à 14:49. Évalué à 2.
  
  Si je me rappelle bien ce que j'avais lu sur le problème des performances avec les références arrières pour Perl, il existe un algo logarithmique pour faire cela:
  
  http://swtch.com/~rsc/regexp/regexp1.html
  Mais en fait, cela semble parler de grep 2.5.1 qui a déjà un comportement logarithmique, donc en fait, on ne parle peut être pas de la même chose. :(
# bug ?

Posté par Yves (site web personnel) le 21 septembre 2010 à 15:56. Évalué à 10.

« X{0,0} est correctement implémenté. Il est utilisé comme synonyme de X{0,1}. »

Une évidence m’échappe peut-être, mais… je ne vois pas en quoi cette implémentation est correcte. X{0,0} veut dire : X au moins 0 fois (donc facultatif) et au plus 0 fois (donc interdit) ; l’implémenter en synonyme de X{0,1} me paraît faux !
Et cela peut même être très gênant dans le cas d’expressions rationnelles générées par programme pour des contrôles dépendants de paramètres en entrée d’un traitement.

Yves.
- [^] # Re: bug ?
  
  Posté par Denis Dordoigne le 21 septembre 2010 à 16:16. Évalué à 10.
  
  En fait je me suis trompé en écrivant la dépêche, il faut lire "il était utilisé comme synonyme de X{0,1}".
  Membre de l'april, et vous ? https://april.org/adherer -- Infini, l'internet libre et non commercial : https://infini.fr
# Pas que les francophones quand même :)

Posté par Samuel Thibault (site web personnel) le 21 septembre 2010 à 15:58. Évalué à 5.

Heu, les équivalences ne sont pas utiles qu'au francophones seulement,
hein :) Ce n'est d'ailleurs pas limité à l'alphabet latin, chaque
communauté derrière une locale peut discuter avec le Common Locale Data
Repository pour décider des équivalences :)

Sinon, un petit exemple:
echo é | grep \[\[=e=\]\]
-> é
# de quoi s'agit il ?

Posté par antistress (site web personnel) le 21 septembre 2010 à 16:45. Évalué à 5.

ça serait pas mal de dire en une ligne dans la dépêche e quoi il s'agit pour ceux qui ont manqué le début... merci !
- [^] # Re: de quoi s'agit il ?
  
  Posté par calandoa le 21 septembre 2010 à 17:28. Évalué à 10.
  
  Ben c'est juste une dépêche cinéma, comme d'habitude sur linuxfr. Le scénar est assez habituel, avec du sexe et du pognon. Le héros manipule plein de strings, et à la fin il trouve des $. Quand je pense à Grep 1 qui était en noir et blanc... ça nous rajeunit pas.
  - [^] # Re: de quoi s'agit il ?
    
    Posté par j_kerviel le 21 septembre 2010 à 18:17. Évalué à 10.
    
    Le héros manipule plein de strings D'ailleurs si on le less faire, il va se retrouver en sleep, un join à la main.
    
    Mais heureusement kill s'en sort toujours et parvient finalement à échapper à la more
    - [^] # Re: de quoi s'agit il ?
      
      Posté par FReEDoM (site web personnel) le 21 septembre 2010 à 20:33. Évalué à 4.
      
      dura lex, sed lex
      - [^] # Re: de quoi s'agit il ?
        
        Posté par Gniarf le 22 septembre 2010 à 02:53. Évalué à 3.
        
        yacc yacc
- [^] # Re: de quoi s'agit il ?
  
  Posté par campagnard le 21 septembre 2010 à 17:56. Évalué à 10.
  
  M'enfin, quelqu'un peut m'expliquer pourquoi il a été moinsé ?
  On a tous été débutant un jour !
  
  Pour ta réponse, antistress, voir ici : grep
  - [^] # Re: de quoi s'agit il ?
    
    Posté par daimrod le 21 septembre 2010 à 18:21. Évalué à 10.
    
    et tous les débutants ont été moinssé un jour, question de tradition je suppose ...
    - [^] # Re: de quoi s'agit il ?
      
      Posté par Nicolas Boulay (site web personnel) le 21 septembre 2010 à 19:25. Évalué à 5.
      
      Cela me rappelle ça :
      
      http://www.nojhan.net/geekscottes/index.php?id=125
      "La première sécurité est la liberté"
  - [^] # Re: de quoi s'agit il ?
    
    Posté par vpo le 21 septembre 2010 à 19:30. Évalué à 3.
    
    Peut-être par ce que même un débutant peu cliquer sur le premier lien de la dépêche ou bien faire une recherche de grep sur google fr.
    Il aurait ainsi pu avoir comme premier résultat de sa recherche l’articule grep de Wikipedia Fr s'il ne lit pas l'anglais.
    - [^] # Re: de quoi s'agit il ?
      
      Posté par contre_maitre le 22 septembre 2010 à 10:19. Évalué à 4.
      
      oui, enfin quand je lit une dépêche sur linuxfr, j'apprécie de comprendre de quoi ça parle sans devoir aller lire un article wikipedia.
      C'est quand même plus agréable.
      - [^] # Re: de quoi s'agit il ?
        
        Posté par Maclag le 22 septembre 2010 à 19:43. Évalué à 10.
        
        D'ailleurs, si quelqu'un pouvait me résumer en deux lignes ce qu'est ce linux dont tout le monde parle, ça faciliterait vachement ma compréhension du site!
        
        On a tous été débutant ET égaré sur internet un jour!
  - [^] # Re: de quoi s'agit il ?
    
    Posté par Guillaume Knispel le 23 septembre 2010 à 01:51. Évalué à 8.
    
    On a tous été débutant un jour !
    
    Il eut été un temps où l'on débutait en apprenant notamment ce qu'est "grep".
    
    Quand à savoir si c'était mieux ainsi ou maintenant...
# Sed est meilleur que grep

Posté par Zarmakuizz (site web personnel) le 21 septembre 2010 à 21:33. Évalué à 2.

l'ancien comportement peut-être conservé
s/peut-être/peut être/
Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
- [^] # Re: Sed est meilleur que grep
  
  Posté par Elfir3 le 22 septembre 2010 à 00:28. Évalué à 4.
  
  sed, c'est bien !
  =>[]
  Merci de prendre le commentaire ci-dessus avec: un peu de recul, le premier degré, et si possible le second !
# Équivalence

Posté par barmic le 22 septembre 2010 à 01:33. Évalué à 1.

Avec les locales UTF-8, les expressions rationnelles incluant "." sont traitées plus rapidement. Par exemple, grep . est maintenant deux fois plus rapide que grep -v ^$, au lieu d'être beaucoup plus lent.

C'est moi ou "." ça n'a rien à voir avec "^$" ? Je dirais même que c'est l'inverse en quoi l'un devrait être plus rapide que l'autre ?

Ça veut dire qu'il vaut mieux utiliser grep -v '.' que grep '^$' ?
Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
- [^] # Re: Équivalence
  
  Posté par Bruno Michel (site web personnel) le 22 septembre 2010 à 02:51. Évalué à 6.
  
  > C'est moi ou "." ça n'a rien à voir avec "^$" ? Je dirais même que c'est l'inverse en quoi l'un devrait être plus rapide que l'autre ?
  
  Oui, "." est précisément l'inverse de "^$", d'où la comparaison entre grep . et grep -v "^$" (le -v sert justement à inverser la sélection) qui font du coup la même chose : récupérer les lignes non vides.
  
  > Ça veut dire qu'il vaut mieux utiliser grep -v '.' que grep '^$' ?
  
  Le premier est probablement plus rapide que le deuxième, mais j'imagine que la différence dans la pratique va être négligeable à moins d'avoir un fichier dont on veut récupérer beaucoup de lignes vides, ce qui ne doit pas arriver souvent.
  - [^] # Re: Équivalence
    
    Posté par Axioplase ıɥs∀ (site web personnel) le 22 septembre 2010 à 06:47. Évalué à 0.
    
    >> Oui, "." est précisément l'inverse de "^$", d'où la comparaison entre grep . et grep -v "^$"
    
    L'inverse ? Le complément ?
    L'inverse de ^$, c'est .+.
    L'inverse de « rien, » c'est « au moins un caractère. »
    
    Non ?
    (Après, certes, si tu matches un caractère, tu en matches aussi deux… Mais c'est dû au comportement de grep qui ne cherche pas à considérer uniquement les mots du langage qu'on veut matcher comme des lignes lignes entières.)
  - [^] # Re: Équivalence
    
    Posté par barmic le 23 septembre 2010 à 23:12. Évalué à 2.
    
    Je suis un boulet j'avais pas vu le -v dans l'exemple. Merci
    Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.