Forum Linux.général rsync, plusieurs sources, plusieurs destination

Posté par Philippe M (site web personnel) le 08 décembre 2021 à 16:43. Licence CC By‑SA.

Étiquettes : aucune

déc.

2021

Bonjour à tous,

J'ai un script qui me construit une liste de fichiers avec un chemin d'accès et un chemin de destination sur un serveur distant.

Exemple :

a/d/p/e/fic1.jpg;files/ref1/fic1/thumbnail/
o/i/n/9/fic2.jpg;files/ref1/fic/hd1
t/d/g/h/toto1.jpg;files/ref2/fic/
[...]

Pour le moment j'ai une boucle qui lit ligne par ligne le fichier et reconstruit la commande rsync avec la source et la destination. Mon fichier contient ~15000 lignes et il lancé tout les soirs. Je trouve tout cela pas du tout optimisé car pour chaque ligne rsync ce connecte, vérifie si le fichier existe et si non (ou différent) il le transfert, opération répétée 15 000 fois. L'idéal serait qu'il se connecte, vérifie pour l'intégralité de la liste si le fichier existe et le transfert si besoin à la destination prévue dans le fichier.

Il existe une option pour lui donner un fichier contenant une liste de fichiers sources mais ils seront tous transférés à la même destination et je n'ai pas trouvé un moyen pour qu'il utilise une destination spécifique par ligne.

Est-ce au moins possible ? Ou alors avec une autre méthode/commande.

Merci d'avance.

# Une idée de contournement

Posté par Axone le 08 décembre 2021 à 20:19. Évalué à 3.
Il existe une option pour lui donner un fichier contenant une liste de fichiers sources mais ils seront tous transférés à la même destination et je n'ai pas trouvé un moyen pour qu'il utilise une destination spécifique par ligne.

Je te propose d'établir quand même un point précis sur le serveur qui va recueillir les fichiers (par exemple /reception.
Ensuite à partir de ton fichier de 15000 lignes, du génère la liste des fichiers à transférer par rsync vers ce point, en conservant l'arborescence.

Ton fichier a/d/p/e/fic1.jpg va atterrir dans /reception/a/d/p/e/fic1.jpg

Tu fais donc le transfert des 15000 fichiers avec une seule excécution de rsync.

Ensuite sur ton serveur, tu exécutes un script (générer à partir de ton gros fichier) qui va établir des liens durs (hardlink) entre les fichiers contenus dans /reception vers les endroits que tu veux.
```
# sur le serveur distant
cp -l /reception/a/d/p/e/fic1.jpg files/ref1/fic1/thumbnail/
```
Il n'y aura donc qu'une seule fois le fichier fic1.jpg sur le disque dur, mais présent à la fois dans /reception/a/d/p/e/ et dans files/ref1/fic1/thumbnail/

Avec cette idée, tu gardes la rapidité de synchronisation de rsync, tu évites de dupliquer les fichiers sur le serveur distant, tu as quand même les fichiers où tu veux sur ton serveur et enfin, c'est automatisable.
- [^] # Re: Une idée de contournement
  
  Posté par Philippe M (site web personnel) le 09 décembre 2021 à 09:22. Évalué à 2.
  
  C'est une bonne idée, moyennement quelques adaptations.
  
  Dans mon premier post je n'ai pas précisé que ces fichiers sont ensuite accessible via une url pour être mis à dispo pour des clients. Sur le serveur de destination c'est du apache/php qui tourne. Je ne sais pas si les hardlink marchent dans ce cas ?
  
  Il n'y aura donc qu'une seule fois le fichier fic1.jpg sur le disque dur, mais présent à la fois dans /reception/a/d/p/e/ et dans files/ref1/fic1/thumbnail/
  
  C'était pas clair dans mon exemple mais se sont des différents.
  
  Born to Kill EndUser !
  - [^] # Re: Une idée de contournement
    
    Posté par wismerhill le 09 décembre 2021 à 17:10. Évalué à 4.
    
    Attention que si les liens physiques sont du côté de la destination, il faut dire à rsync de modifier directement le contenus du fichier (--inplace) pour que ces liens soient préservés.
    - [^] # Re: Une idée de contournement
      
      Posté par Axone le 09 décembre 2021 à 18:58. Évalué à 2.
      
      Oui bien vu !
  - [^] # Re: Une idée de contournement
    
    Posté par Axone le 09 décembre 2021 à 19:14. Évalué à 2.
    Sur le serveur de destination c'est du apache/php qui tourne. Je ne sais pas si les hardlink marchent dans ce cas ?
    
    Je serais très étonné que cela ne marche pas. C'est quasi des fichiers normaux.
    
    C'était pas clair dans mon exemple mais se sont des différents.
    
    Je comprends pas trop, mais si tu veux dire que les noms seront différents, et bien ca marche quand même :
```
cp -l titi.txt tmp/toto.txt
```
    Les fichiers titi.txt et tmp/toto.txt pointent vers le même "fichier" sur le disque dur.
- [^] # Re: Une idée de contournement
  
  Posté par benja le 10 décembre 2021 à 16:57. Évalué à 1. Dernière modification le 10 décembre 2021 à 17:01.
  
  Bonne idée, si je peux me permettre le plus simple serait de gèrer les liens côté source, avec comme avantage: ne pas devoir gèrer le 'inplace' et une vérification ultra simple: find dirsource dir_liens -type f \! -links 2, et pour enlever les liens exédentaires find dir_liens -type f -links 1 -delete.
  - [^] # Re: Une idée de contournement
    
    Posté par benja le 10 décembre 2021 à 17:08. Évalué à 1. Dernière modification le 10 décembre 2021 à 17:09.
    
    (enfin bon pour la vérif c'est quif-quif, c'est tout aussi facile où que soient fait les hardlinks, faut juste pas oublier le --inplace si c'est fait côté destination). donc bref, je retire ce que je dis :D
# Avec tar

Posté par Moonz le 08 décembre 2021 à 21:02. Évalué à 3. Dernière modification le 08 décembre 2021 à 21:07.

Tu peux utiliser tar --xform= pour créer une archive. Par exemple, pour le premier fichier: tar -c --xform='s|^a/d/p/e/fic1\.jpg$|files/ref1/fic1/thumbnail.jpg|' files/ref1/fic1/thumbnail.jpg

Attention à bien échapper le fichier source, --xform étant une regexp sed. --xform étant répétable, tu peux renommer tous tes fichiers dans l’archive ainsi.

Pour transférer avec ssh, tar -cz ... | ssh user@host tar -xzvC /destination/path

Par contre, pas de transfert incrémental (ie seulement de ce qui a été modifié) avec cette méthode, à moins que tu aies la créer des archives incrémentales (--listed-incremental) depuis la source.

Attention également à ne pas renommer un fichier (a/d/e/fic1.jpg) en dossier (files/).

Attention aussi, les dossiers intermédiaires doivent être ajoutés dans l’archive (si tu renommes un fichier en files/ref1/fic1/thumbnail.jpg, tu dois d’abord t’assurer que files/, files/ref1/... ont précédemment été ajoutés dans l’archive (ou alors soient déjà présents sur la destination) : tar ne créera pas automatiquement les répertoires intermédiaires.
- [^] # Re: Avec tar
  
  Posté par Moonz le 08 décembre 2021 à 21:18. Évalué à 2.
  
  Autre solution possiblement plus simple : créer l'arborescence cible dans un autre dossier avec des hardlinks, puis lancer rsync là dessus
- [^] # Re: Avec tar
  
  Posté par Philippe M (site web personnel) le 09 décembre 2021 à 09:27. Évalué à 2.
  
  C'est pas mal aussi cette idée avec tar mais je préfère rester avec rsync car les fichiers source ne changent pas beaucoup donc le côté incrémentale est vraiment un plus.
  
  Born to Kill EndUser !
  - [^] # Re: Avec tar
    
    Posté par totof2000 le 09 décembre 2021 à 11:22. Évalué à 2.
    
    find avec l'option mtime peut t'aider … Sinon il y a aussi le couple dump/restore.
# Changer de format d'entrée ?

Posté par cg le 08 décembre 2021 à 22:18. Évalué à 2. Dernière modification le 08 décembre 2021 à 22:18.
Si ton format était plutôt de ce genre :
```
destination;fichier1;fichier2;fichier3[...]
```
Tu pourrais lancer un rsync par destination, ce qui peut être plus efficace déjà.

Si tu ne veux pas/peux pas changer le format (parce que tu l'utilises ailleurs par exemple), tu peux sans doute dans ton script qui lance rsync faire un premier traitement qui dédoublonne les destinations pour faire ce que je propose, mais à la volée (via une variable, ou un tableau, en RAM).

Enfin, tu peux utiliser un outil comme parallel (la version GNU ou une autre), qui va lancer les exécutions de rsync en parallèle. (Attention, dans le man de parallel il y a un exemple avec rsync mais ce n'est pas ton cas de figure).
- [^] # Re: Changer de format d'entrée ?
  
  Posté par Philippe M (site web personnel) le 09 décembre 2021 à 09:24. Évalué à 2.
  
  J'ai la main sur la structure du fichier mais cela ne change en rien la structure physique du stockage et je n'ai pas la main sur le stockage source.
  
  Born to Kill EndUser !
  - [^] # Re: Changer de format d'entrée ?
    
    Posté par cg le 09 décembre 2021 à 22:03. Évalué à 1.
    
    Certes.
    Mais justement ma proposition est de ne changer l'organisation ni de la source ni de la destination, mais seulement de comment tu organises le traitement : collecte des paires sources/destination, regroupement par destination, synchro.
    
    Ou alors je comprend pas le problème ?
  - [^] # Re: Changer de format d'entrée ?
    
    Posté par NeoX le 10 décembre 2021 à 08:38. Évalué à 2.
    
    comme dit cg
    tu prends ton fichier, tu scriptes pour ranger différemment les données dans un nouveau fichier (temporaire)
    
    puis tu rsync avec ce nouveau fichier

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.