Forum Linux.redhat Pb drbd qui bloque une machine

Posté par  .
Étiquettes : aucune
0
28
déc.
2009
Bonjour,

J'ai une machine en production qui fonctionne avec une réplication drbd maître/esclave ; cela a fonctionné pendant 2 ans sans problèmes. la partition répliquée était répliquée vers une autre machine sur un réseau local ; récemment le serveur contenant la partition esclave a été déplacé sur un site distant. Dès que le lien drbd a été reconfiguré ; la réplication s'est reconstruite puis au bout d'approximativement 10h la machine maître s'est figée. Impossible de faire une action sur la partition répliquée ( un simple vi restait figé) Je n'ai pas fait de suite le rapprochement mais je me suis rendu compte en faisant un drbd reload que le processus se réveillait juste pendant le reload puis tombait en sommeil aussitôt. Je n'ai pas trouvé de solution et j'ai été obligé de désactiver la réplication.

Quelqu'un aurait-il une piste?
  • # ?

    Posté par  . Évalué à 2.

    -Syncrhone , asynchrone ?

    A première vue ça me semble une file d'attente qui arrive a saturation du fait du lien qui ne permet pas de repercuter l'intégralité des changements.
  • # Merci

    Posté par  . Évalué à 1.

    En fait il s'agit de synchrone et il est vrai que le lien entre les deux sites est médiocre (2 méga selon le FAI).

    Savez vous comment régler le problème?
    • [^] # Re: Merci

      Posté par  . Évalué à 2.

      Passer en asynchrone...
      • [^] # Re: Merci

        Posté par  . Évalué à 1.

        Selon vous il faudrait donc que je passe en protocole A ou B ; cela viedrait du fait que je ne reçoit pas les acquittements?
      • [^] # Re: Merci

        Posté par  . Évalué à 2.

        outch, c est risqué l async, surtout sur de petites liaisons, tu peux avoir des ecritures commitées à un endroit et pas encore à un autre.

        je dirais plutot d'essayer les drbd --discard-my-data , drbd --overwrite-data-of-peer, drbd syncher etc...
        • [^] # Re: Merci

          Posté par  . Évalué à 1.

          Tout cela a été testé mais rien n'y fait au bout d'un certain temps toutes les actions sur la partition maitre se figent bloquant la machine par la même occasion
          • [^] # Re: Merci

            Posté par  . Évalué à 2.

            synchronisation < delai de synchronisation

            en gros tu synchronises plus souvent que le delai necessaire pour synchroniser tes données ?

            là ou en reseau local, il te fallait 5 ou 10 minutes,
            il te faut peut-etre 2h au travers de ta connexion internet

            du coup une synchronisation toutes les 30 minutes etaient efficace "avant"
            mais ne l'est plus maintenant.
            • [^] # Re: Merci

              Posté par  . Évalué à 1.

              Donc quelle solution voyez vous pour drbd?

              Car en mode synchrone (comme cela était configuré sur mes serveurs) la synchro est permanente ; il n'y a pas de délai.
              Essayez vous de me dire que la seule solution est de fonctionner avec le protocole A ou B?

              Si tel est le cas il y a des chances pour qu'il y ait perte de donné en cas de destruction du serveur maître mais cela sera mieux que rien...
              • [^] # Re: Merci

                Posté par  . Évalué à 2.

                Car en mode synchrone (comme cela était configuré sur mes serveurs) la synchro est permanente ; il n'y a pas de délai.

                Ce qui est valable sur un réseau local ne l'est pas forcément sur un réseau distant.
                DRBD, surtout en mode synchrone, est sensible à la fois à la latence et à la bande passante.
                Comment avez-vous pu prendre la décision de déménager le serveur esclave sans valider ces deux points ?

                Essayez vous de me dire que la seule solution est de fonctionner avec le protocole A ou B?

                Je crains qu'il va falloir:
                - utiliser drbd-proxy pour faire de la compression et donc limiter l'utilisation de bande passante [http://www.drbd.org/users-guide/s-using-drbd-proxy.html] (en espérant qu'après compression 2Mb/s seront suffisants)
                - éventuellement passer en mode asynchrone pour résoudre le problème de latence
              • [^] # Re: Merci

                Posté par  . Évalué à 1.

                meme en synchrone, si tu as un nouveau fichier de 2Mo
                il te faut 16Mbps de debit pour que cela prenne une seconde pour le repliquer sur l'esclave.

                donc oui il faut peut-etre etudier le besoin (volume à mettre en syncrhonisation) ?
                et la technique (debit disponible)

                et comme il est dit au dessous, une solution ca se teste AVANT de demenager et de se retrouver devant le probleme...
                mais bon, ce qui est fait, est fait
                • [^] # Re: Merci

                  Posté par  . Évalué à 1.

                  pour le déménagement, je n'avais pas le choix, je ne suis pas maîttre de la décision qu'a prise le client qui est à 5000 km de mon lieu de travail ; je n'avais aucune information sur leur réseau et je ne pensais pas que tout se figerait, j'ai cru qu'au pire la réplication serait défaillante.
                  • [^] # Re: Merci

                    Posté par  . Évalué à 1.

                    En fait je viens de faire un test et j'ai transférer un fichier entre les 2 machines avec un débit de 92ko/s ; ce qui correspond à du 6 méga d'après mes calculs... Ce qui est pas mal bien que le temps de réponse pour établir le socket soit long.

                    Sachant que la partition répliquée écrit peut (a évaluer), cela me semble bizare que cela suffise à tout bloquer ...
                    • [^] # Re: Merci

                      Posté par  . Évalué à 3.

                      je ne sais pas comment tu calcule de 6 mega...

                      92Ko/s => +20% encapsulation x8 => 883Kbps
                      ca fait une petite liaison à 1Mbps


                      6 mega, tu devrais pouvoir atteindre 600Ko/s en transfert
                      • [^] # Re: Merci

                        Posté par  . Évalué à 0.

                        je parlais en débit FAI qui est donné en download ;
                        2Mb/s en download donne 256 kb/s en upload
                        6Mb/s en download donne 768 kb/s en upload soit 96 ko/s
                        Mon test a été fait en upload sur le serveur maitre drbd
                    • [^] # Re: Merci

                      Posté par  . Évalué à 2.

                      si le delai pour ouvrir le socket est long

                      et que tu as une ouverture de socket pour chaque fichier à mettre à jour, c'est peut-etre cela qui fini par bloquer (trop de socket ouvert ou en attente d'ouverture)
  • # merci

    Posté par  . Évalué à 1.

    Je pensais que drbd avait une connexion permanent entre le maitre et l'esclave?

    Quelqu'un sait-il comment foncionne drbd en coulisse?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.