Forum Programmation.shell (sed)(bash)

Posté par evaisse le 30 mars 2007 à 11:03.

Étiquettes : aucune

mar.

2007

Bonjour, j'ai rapidement écrit cette commande pour remplacer des caractères UTF8 mal convertis par phpdocumentor :



for file in $(find ~/www/public/. -type f); do

  sed 's/Ã¤/À/g' < $file > $file.tmp

  sed 's/Ã‰/É/g' < $file > $file.tmp

  sed 's/Ã©/é/g' < $file > $file.tmp

  sed 's/Ã¨/è/g' < $file > $file.tmp

  sed 's/Ã/à/g' < $file > $file.tmp

  sed 's/Ã¤/ä/g' < $file > $file.tmp

  sed 's/Ã«/ë/g' < $file > $file.tmp

  sed 's/Ã¯/ï/g' < $file > $file.tmp

  sed 's/Ã¢/â/g' < $file > $file.tmp

  sed 's/Ãª/ê/g' < $file > $file.tmp

  echo $file

  rm -f $file

  mv $file.tmp $file

done

mais ça ne semble pas fonctionner. Quelqu'un pourrait me corriger ? (C'est le premier script shell de ma vie).

# Commentaire supprimé

Posté par Anonyme le 30 mars 2007 à 11:07. Évalué à 5.

Ce commentaire a été supprimé par l’équipe de modération.
# et iconv ?

Posté par B. franck le 30 mars 2007 à 11:08. Évalué à 4.

je ne réponds pas à la question mais pour les conversions
utf8->latin1, un ami m'a conseillé (à juste titre) iconv

iconv -f utf8 -t latin1 fichier
# Conversion UTF8 vers iso8859-15

Posté par JJD le 30 mars 2007 à 11:39. Évalué à 4.

Salut,

Il y a certainement plusieurs remarques à faire concernant ton script.
Tout d'abord, chaque commande sed prend ton fichier d'entrée ($file) pour convertir un caractère unique et écrire le résultat dans $file.tmp : chaque exécution de sed vient donc écraser le fichier $file.tmp précédemment écrit. Seule la dernière exécution est donc utile (autrement dit, seule la ligne
"sed 's/Ãª/ê/g' < $file > $file.tmp"
sert à quelque chose.

Ensuite, il faut bien savoir quelle est la locale courante en cours lorsque tu écris/visualises le script en question.

Quoi qu'il en soit, la meilleure solution pour ce type de conversion est, comme écrit dans les deux commentaires précédents, d'utiliser iconv.
Mais attention, comme tu veux apparemment convertir de l'utf8 en latin9, la bonne commande est celle de B.franck (la commande de LiNuCe fait la conversion inverse).
Je te conseille tout de même de prendre comme codage de destination du latin9 (LATIN-9 ou ISO-8859-15) plutôt que du latin1 (ou ISO-8859-1).
Evidemment, iconv ne fonctionnera que si ton fichier d'entrée est bien en UTF8. S'il y a à l'intérieur un mélange de caractère UTF8 et latin9, le résultat de la conversion avec iconv ne sera pas terrible...

A+
JJD
- [^] # Re: Conversion UTF8 vers iso8859-15
  
  Posté par evaisse le 30 mars 2007 à 12:45. Évalué à 1.
  
  Evidemment, iconv ne fonctionnera que si ton fichier d'entrée est bien en UTF8. S'il y a à l'intérieur un mélange de caractère UTF8 et latin9, le résultat de la conversion avec iconv ne sera pas terrible...
  
  Effectivement, Iconv ne servirait à rien ici, l'encodage spécifié est déjà bon, mais ce sont les caractères lus par PhpDocumentor en ISO (alors qu'ils étaient UTF8) qui figure dans les fichiers, ce sont donc des caractères ISO/latin.
  
  Le problème est en fait très simple, je veux simplement remplacer les occurences de 'Ãª' par 'è' par exemple. C'est simple, mais comme c'est mon premier script Shell, je voulais des conseils...
  Déjà merci pour vos réponses, le truc de rééffacer le fichier .tmp à chaque fois, c'est bien bête, j'avais pas vu...
  - [^] # Re: Conversion UTF8 vers iso8859-15
    
    Posté par mrlem (site web personnel, Mastodon) le 30 mars 2007 à 14:04. Évalué à 1.
    
    Pour ma part je persiste à penser (à moins d'avoir rater une étape) que iconv est ce qu'il te faut.
    
    Par rapport à ton script, je fais juste une petite remarque complémentaire (en dehors de l'histoire du fichier écrasé à chaque fois) :
    
    sed 's/Ã/à/g' < $file > $file.tmp sed 's/Ã¤/ä/g' < $file > $file.tmp
    
    Ce n'est probablement pas ce que tu veux faire : si tu remplaces tous les "Ã" par des "à", alors aucun de tes matching suivants ne fonctionnera : le "à" UTF-8 donne en ISO-88-59-1 "Ã " (note l'espace).
    
    Mais puisque j'aime bien me répéter, iconv est ton ami.
# options sed

Posté par Colargol le 30 mars 2007 à 21:06. Évalué à 3.
Tu peux effectuer tous les remplacements en une seule commande en utilisant l'option -e de sed. Avec l'option -i tu édites directement le fichier de départ (il exise aussi une option pour effectuer une sauvegarde de la source) :
```
 sed  -e 's/Ã¤/À/g' -e 's/Ãª/ê/g'  -i $file 
```

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.