Talend Open Studio 2.0.0

Posté par (page perso) . Modéré par Nÿco.
Tags :
0
24
avr.
2007
Base de données
La version 2.0.0 de Talend Open Studio est sortie le 11 avril 2007. Talend Open Studio est un outil d’intégration de données utilisé pour l'ETL et l’intégration de données opérationnelle. Il est distribué sous licence GPL. Talend Open Studio propose une interface permettant de concevoir graphiquement les connexions aux sources et les traitements sur les données. L'interface graphique utilise la plateforme Eclipse.

Le travail sur les données est réalisé par des scripts générés. Pour ces derniers, le choix des langages s'est naturellement porté sur des langages ouverts et répandus. Depuis l'origine, Talend Open Studio génère du Perl. La version 2 a introduit la génération de code Java et SQL. En fonction des traitements à réaliser et de l'environnement technique cible, Talend Open Studio propose le choix entre une architecture ETL (exécution des transformations par les scripts Perl ou Java) ou ELT (exécution des transformations dans le SGBD en SQL natif). Très tôt dans la conception du logiciel, tout est mis en oeuvre pour optimiser les performances des scripts générés.

Talend Open Studio dispose de connexions vers les bases de données (MySQL, PostgreSQL, Oracle...), les fichiers (CSV, positionnel, Excel, XML...) ou bien encore les services web. L'application permet par exemple de gérer graphiquement des jointures entre différentes sources de données, de récupérer ou d'envoyer des fichiers via FTP ou bien encore d'envoyer des notifications par mail.

La conception très visuelle des "jobs" permet de présenter des statistiques d'exécution en temps réel ou encore de tracer les données transitant ligne à ligne dans les composants de la chaîne de traitement.

L'architecture de Talend Open Studio a été conçue pour être étendue par des composants que les utilisateurs peuvent écrire eux-mêmes, adaptant ainsi au mieux les possibilités techniques de l'outil pour une utilisation plus spécifique.
  • # Je suis peut-être le seul...

    Posté par (page perso) . Évalué à 9.

    mais j'ai rien compris! Ca sert à quoi, en français?
    • [^] # D'ou l'intérêt du premier lien...

      Posté par . Évalué à 9.

      http://fr.wikipedia.org/wiki/Extract_Transform_Load

      ...permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre...


      ...Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, vu la multiplication des nombreuses interfaces.
      • [^] # Re: D'ou l'intérêt du premier lien...

        Posté par (page perso) . Évalué à 4.

        Grosso modo, si j'ai bien compris t'arrives dans une boite ou il y a :
        _ 1 logiciel de compta
        _ 1 logiciel de gestion RH
        _ 1 logiciel de planning
        _ 1 logiciel gestion de la qualité
        _ 1 logiciel de gestion des approvisionnement
        _ 1 logiciel ...
        _ 1 serveur mail (stockage des comptes dans une base SQL)
        _ 1 serveur de fichier (les comptes sont sur un LDAP ...)

        Et sans tout foutre en l'air, tu mutualises les données qui ainsi n'ont plus besoin d'être saisies 10 fois, sont toujours et partout les plus fraiches.

        Permettent aux cadres operationnels de jouer avec les données comme bon leur semble (par exemple mettre en correspondance les commandes et les arrets maladies).

        ...

        J'ai bon ?
        • [^] # Re: D'ou l'intérêt du premier lien...

          Posté par (page perso) . Évalué à 5.

          ton exemple n'est pas très heureux car il mélange des fonctions transverses (RH, compta), métier (gestion qualité, appro) et "bureautique" (mail, fichier)

          Mieux vaut prendre un exemple métier :
          - tu as un CRM http://fr.wikipedia.org/wiki/Gestion_de_la_relation_client
          - tu as une gestion client (tous les en-cours / contrats)
          - tu as une gestion de facturation
          - tu as une gestion des travaux (ce qui va être imputé à des clients pour facturation)
          chacun correspondant à des progiciels différents par exemple...

          tu rajoutes un entrepôt décisionnel qui va être alimenté par chacun de ces systèmes d'information : là tu vas utiliser l'ETL pour pouvoir donner des chiffres pour faire mumuse (c'est une approche batch qui peut tourner la nuit pour des grosses volumétries comme on peut en voir dans le décisionnel).

          tu rajoutes un site internet de suivi des travaux / facturation : dès que des données sont validées elles sont extraites et mis à disposition sur le site pour les clients ayant souscrits à ce service (je mettrais plutôt un EAI http://fr.wikipedia.org/wiki/Enterprise_Application_Integrat(...) pour de l'alimentation fil de l'eau mais bon... voire du SOA http://fr.wikipedia.org/wiki/Architecture_orient%C3%A9e_serv(...) ).

          Bienvenue dans le monde des systèmes d'information (c'est ce que signifie le terme IT aussi http://fr.wikipedia.org/wiki/Technologies_de_l'information_e(...) ), avec les joies de l'urbanisation permettant de jouer au business loto (foutaises ! http://fr.wikipedia.org/wiki/Business_loto )
          • [^] # Re: D'ou l'intérêt du premier lien...

            Posté par (page perso) . Évalué à 4.

            >ton exemple n'est pas très heureux car il mélange des fonctions transverses (RH, compta), métier (gestion qualité, appro) et "bureautique" (mail, fichier)

            C'était bien mon intention de "mélanger". Parceque ce mélange correspond à la réalité de beaucoup de petites entreprises qui n'ont pas vraiment de politique d'information.

            Souvent, je suis confronté à ce problème. Par exemple, je connais une boite dans laquelle les données personnelles des employés doivent être saisies dans le logiciels de paye, dans le logiciels de planning, dans le logiciel qui sert à compiler les entretiens annuels ... C'est quand même une boite d'environ 500 personnes avec un fort turn over.
            Tout est à l'avenant. Les comptes unix, ne correspondent pas aux comptes sur les applications, l'ensemble des données sont éparpiées, éparses, incomplètes et souvant inutilisable que ce soit par un utilisateur ou par le système d'information lui même.
            Finalement, c'est le trionphe du papier.

            Des exemples comme ça, j'en ai plein.

            Quand on te demande d'intervenir dans un tel contexte, tu aimerais bien pouvoir commencer par mettre de l'ordre.
            A savoir des passerelles entre les differentes sources de données pour qu'elles se complètent et se sutructurent.
            Par exemple : prendre les infos employés de tout les logiciels, les comparer et tout mettre à jour (chaque nuit par exemple), en profiter également pour approvisionner un LDAP bien structuré.

            Celà permet de t'acheminer en douceur vers une politique de l'information structuré, d'integrer du neuf à l'existant, voire de migrer l'existant vers du bien structuré sans avoir à expliquer à ton client que ce qu'il a fait jusqu'a présent (et pour lequel il s'est ruiné) c'est de la merde, que tu vas tout foutre en l'air (c'est pas l'envie qui t'en manque), et qu'il n'a qu'à sortir des listings de tout et les envoyer en inde pour qu'ils t'en fasse des fichiers csv.

            Bref je voudrais savoir si (mon besoin étant celui là), un tel logiciel peut m'aider dans cette démarche de restructuration d'un système d'information ou s'il me faut continuer d'utiliser DBI et de tout me coltiner à la main.

            Celà ne remet bien sur pas en cause la pertinance de ton exemple
            • [^] # Re: D'ou l'intérêt du premier lien...

              Posté par (page perso) . Évalué à 3.

              L'exemple que j'ai donné est plus orienté grande entreprise où il vaut mieux cloisonner métier / fonctions transverses / volet bureautique car cela correspond généralement à l'organisation rencontrée. Pour des PME, tu peux être tenté de regrouper un peu plus.

              L'ETL est plus adapté aux grosses volumétries et permet AMHA, par un moyen technique, de forcer des interfaces standardisées (ou au pire d'avoir pléthore d'interfaces mais centralisées au niveau de l'ETL plutôt qu'en point à point d'appli à appli). S'il n'y a que le 2ème point qui est important pour toi, c'est une première approche d'urbanisation, obligeant à mettre en évidence des flux, qui peut être utile pour des PME par exemple. L'ETL est effectivement un moyen de dupliquer/transformer les données pour les mettre à disposition de manière standard dans plusieurs applications (orienté batch comme je disais).

              Mais ce dont tu parles, ressemble plus à une approche référentiel (éviter de dupliquer l'information quand cela n'est pas nécessaire). Etant données les applications que j'ai rencontrées, je n'ai vu une démarche référentiel n'aboutir que dans 2 cas (en gros, beaucoup de monde confond encore référentiel et annuaire LDAP centralisé, alors que l'un est organisationnel et technique là où l'autre n'est que technique). Dans les 2 cas que j'ai vus, en grande entreprise encore, la mise en place d'annuaire a permis de traiter le volet fonctions transverses (RH, gestion des accès aux locaux, annuaire d'entreprise, ...) mais pas le volet métier (gestion client par exemple). Peut-être dans une petite structure est-il possible d'arriver à couvrir tout le périmètre.

              Je doute tout de même un peu de réussir à mêler comptes unix, comptes applicatifs, comptes bases de données et les rapprocher des données personnelles, planning d'activité, ... qui font appel à des logiciels ayant des fonctions différentes (et des utilisateurs / finalités différentes). Eventuellement, tracer pour un identifiant unique toutes les déclinaisons dans les différentes applis et proposer quelques données partagées (et partageables...) pour éviter les resaisies et incohérences.

              Mais bon, ce n'est pas l'outil qui fait l'organisation : il y a bien 2 projets distincts, l'un purement organisationnel / métier, l'autre technique de mise en place des outils/logiciels ; la technique ne remplace pas l'organisation, même si cela permet d'identifier un défaut d'organisation. Je te laisse googler pour les approches "top-down" et "bottom-up", c'est à la fois plus complexe et beaucoup plus simple que tu pourrais le croire, simplement ça ne se fait pas d'un claquement de doigt et tel un mécano de formule 1 il faut arriver à reconstruire entièrement la voiture lors d'une course, sans que le pilote n'ait à s'en apercevoir ou en soit pénalisé.
          • [^] # Re: D'ou l'intérêt du premier lien...

            Posté par . Évalué à 1.

            et j'aurais tendance a rajouter en bout de chaine BIRT pour la génération des états. Ah ben vi lui aussi est basé sur eclipse... ;-)
  • # Génération des scripts

    Posté par (page perso) . Évalué à 4.

    Vous savez quel moteur de génération ils utilisent pour les scripts Perl, Java et SQL ?
    Car vu que Talend Open Studio est sous Eclipse, et que Talend (la boite) est avec ObjectWeb, ce serait peut être une bonne idée de regarder s'il n'y a pas moyen d'utiliser Acceleo pour cette génération ?

    Pierrick, tu sembles être dans les équipes de dev de Talend, vous y avez déjà jeté un oeil ? ( http://www.acceleo.org )
  • # Pour info...

    Posté par . Évalué à 5.

    Il y 'a d'autres ETL opensource de qualité, dont Kettle ( http://kettle.pentaho.org/ ), utilisé par le projet Pentaho, ainsi que Jitterbit ( http://www.jitterbit.com/ ).

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.