Talend Open Studio 2.4.0

Posté par  (site web personnel) . Modéré par Florent Zara.
Étiquettes :
0
12
juin
2008
Base de données
Talend a sorti la version 2.4.0 de Talend Open Studio le 7 juin 2008. Talend Open Studio est un outil d'intégration de données open source, distribué sous licence GPL. Il est principalement utilisé pour l'ETL et l'intégration de données opérationnelles. Un ETL permet de connecter différentes sources de données (comme des SGBDs), d'exporter, importer des données entre eux, etc. Talend Open Studio propose une interface graphique permettant de concevoir les traitements.

Qu'y a t-il de nouveau dans cette version ? Comparé à Talend Open Studio 2.3.x, de nombreuses fonctionnalités ont été ajoutées :
  • Un tMap persistant qui permet d'effectuer des lookups sur des flux massifs (plusieurs Go) ;
  • Gestion des contextes et des métadonnées revue et améliorée ;
  • Propagation des changements des métadonnées avec analyse de dépendances ;
  • Nouveau mode ELT avec la possibilité d'externaliser les patterns SQL ;
  • Mise en évidence des subjobs avec définition de pre- et post-jobs ;
  • Installation automatique de composants depuis l'Ecosystem ;
  • Nouveaux assistants (Excel, SalesForce.com).

Nous avons aussi intégré des dizaines de nouveaux composants et connecteurs, notamment :
  • Parallélisation des liens iterate
  • Nouveau support ou amélioration du support de plusieurs bases de données (EnterpriseDB, MaxDB, DB2, Sybase, Interbase, etc.) ;
  • Support pour les Dimensions à Evolution Lente en mode ELT ;
  • Pipe d'une commande externe sur le flux de données ;
  • Lookup de pays à partir de l'adresse IP.

Aller plus loin

  • # Super outil

    Posté par  . Évalué à 4.

    Je ne connaissais pas les ETL; puis un jour j'ai eu besoin de mettre à jour un serveur web de façon journalière.
    Après avoir fait une application (très lourde) qui permettait cela, j'ai découvert TOS, avec une présentation interactive.

    Depuis j'ai créé mes scripts Talend + crontab et mon serveur web est mis à jour très simplement...
    donc bravo pour ce bel outil open source!
    • [^] # Re: Super outil

      Posté par  . Évalué à 3.

      peux-tu nous donner un exemple vulgarisé pour expliquer un peu à quoi ça sert. J'avoue avoir lu en travers le site en anglais, mais c'est bourré de formulations pour décideurz et je sèche...
      • [^] # Re: Super outil

        Posté par  (site web personnel) . Évalué à 3.

        Salut à tous,

        en fait, l'ETL désigne l'extraction et la transformation de données. En gros, ça permet par exemple de faire des traitements sous formes batchs, de la consolidation de données dans des formats autres que le format de stockage. L'avantage de Talend c'est qu'il te propose une interface très intuitive pour faire ce genre de traitement, un peu à la manière RAD puis qu'il te génère le code en java ou en perl. rejarde les video de demo qui sont très explicite.

        ++
        • [^] # Re: Super outil

          Posté par  . Évalué à 3.

          Ou pour donner un exemple d'utilisation (pour un ETL en général):

          prendre une base de données conçu pour les transactions (à chaque passage de produit à la caisse, une ligne est écrite dans la base de données)

          extraire ces données pour les mettre dans une base dont le schéma est conçu pour les lectures statistiques (schéma en étoile)

          on peut faire des piti script pour faire des dump, nettoyer la sortie et l'injecter dans la nouvelle base aux endroits ou il faut

          un ETL permet de formaliser/mutualiser cela (plutôt qu'avoir des tas de petits scripts avec chacun sa procédure de connexion aux bases, on en a une commune)

          L'intérêt est visible du point de vue managerial (les ressources humaines sont interchangeable, puisque ce n'est pas des scripts spécifique à chacun mais une méthode commune) l'intérêt est aussi visible lorsque on doit traiter plusieurs cas d'extraction/injection (mutualisation).
          • [^] # Re: Super outil

            Posté par  . Évalué à 1.

            merci, c'est bien plus clair.
            ... et ça me donne quelques idées... :D
          • [^] # Re: Super outil

            Posté par  . Évalué à 3.

            Pour donner une illustration de ce que permet de faire ce genre d'outil....

            Vous pouvez en quelques clicks faire une jointure entre un fichier Excel, une base Oracle et une base Mysql, et demander que le résultat, soit copié via FTP sur un serveur distant au format CSV, et qu'une base de donnée tierce soit mise à jour avec ces données (et appeler un web service à la fin de l'opération, envoyer un e-mail...)...

            (le tout sans utiliser de table temporaire...)

            Pour moi, c'est un outil très prometteur, que j'utilise au niveau professionnel. En revanche, l'outil est encore un peu jeune, et ca se voit de temps en temps sur des détails...

            • [^] # Re: Super outil

              Posté par  (site web personnel) . Évalué à 3.

              Pour moi, c'est un outil très prometteur, que j'utilise au niveau professionnel. En revanche, l'outil est encore un peu jeune, et ca se voit de temps en temps sur des détails...
              Peux tu nous donner quelques détails sur ces détails ??
              • [^] # Re: Super outil

                Posté par  . Évalué à 2.

                Je ne suis pas à sa place, mais j'imagine qu'il a eu le même genre de problème.

                Essayer de traiter une base de plusieurs Gio d'un coup peut faire planter l'animal (en essayant de visualiser une table avec trop d'entrées, il manque une limitation sur le nombre de ligne récupéré).

                Passer par le connecteur jdbc à un pilote odbc sur une base Lotus donne des surprises (en fait dû au pilote odbc, mais bon).

                En fait, outre le défaut d'essayer de ramener toutes les lignes (par rapport à un Entreprise Manager Console d'Oracle), c'est surtout que ces outils ne compensent pas forcément les défauts/manques des pilotes. Donc ça marche si on peut déjà facilement accéder aux bases via jdbc (en général, pas de support natif des bases, et donc certaines lenteurs).

                N.B. ça a peut être changé, mon expérience date un peu.
  • # Alternative : Pentaho Kettle

    Posté par  . Évalué à 2.

    Pour info, il existe également un autre produit open source similaire :
    http://kettle.pentaho.org/

    Il est également développé en java (swt) mais plus léger que talend.

    A l'époque (l'année dernière) j'avais besoin d'un ETL et malheureusement pour Talend, il y avait trop de bugs pour que ce soit utilisable par rapport à Kettle (la version 2 n'étais pas encore sortie).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.