Journal Dans la série ; les LL m'impressionnent : la fouilles de données

Posté par . Licence CC by-sa
34
19
mai
2011

La manipulation des données via tableurs, tout le monde connait. Le data mining ou fouille de données beaucoup moins.

La page data mining de wikipédia

Lorsque l'on dispose de jeux de données importants en terme de taille et difficilement lisibles, l'utilisation des tableurs n'est plus appropriée. Les logiciels de fouilles de données entrent alors en action. Ils existent des solutions propriétaires performantes mais assez peu nombreuses (Clémentine SPSS, Statitica, SAS...). Des solutions libres très performantes existent également mais elles n'ont pas le niveau de convivialité des solutions commerciales (R, Weka, Tanagra...). Jusqu'à présent, pour manipuler ces jeux de données, j'utilisais essentiellement R et puis j'ai découvert Knime, un logiciel libre professionnel basé sur eclipse. Depuis, ma vie a changé !
Ce logiciel est développé par l'université de Konstanz. A l'origine, il est surtout utilisé en bioinformatique. Des groupes internationaux en recherche médicale travaillent avec et participent au développement (Astra Zeneca, Sanofi...) mais on peut l'utiliser pour tous jeux de données.
Ce logiciel fonctionne en flux d'informations. Il est d'une grande facilité de prise en main comparé aux autres solutions. Cette facilité ne masque pas un manque de fonctionnalités, bien au contraire. Il dispose de nombreux modules dont l'implémentation des scripts R et de Weka ! Bien entendu, les plugins sont nombreux et variés (reporting, text mining...). Le traitement des données avec ce type de logiciel fait gagner un temps phénoménal. L'exploration de données à caractère scientifique ou commercial devient un jeu d'enfant (bon j'exagère un peu, mais elle est grandement facilitée !). Ces techniques d'exploration sont encore trop peu utilisées mais elles méritent réellement le détour. En espérant vous faire découvrir un joyau du libre...

  • # Fouille de données

    Posté par . Évalué à 10.

    Merci pour l'info, mais comme tu dis justement, la fouille de données est peu connue.

    Aurais-tu un exemple typique (quitte à ce qu'il soit complètement carricatural) de fouille de données ? Est-ce un système de requêtes (chercher tous les clients n'ayant rien acheté depuis x mois) ? En quoi est-ce qu'une vraie BdD n'est pas le bon outil ?

    Merci :D

    • [^] # Re: Fouille de données

      Posté par . Évalué à 2.

      On dit du Data-Mining que c'est l'art de "trouver un diamant dans un tas de charbon". En gros, c'est davantage une spécialisation de la requête de BDD.

      En gros, si tu as un jeu de données trop gros et/ou trop hétéroclite pour pouvoir être requêté normalement, tu te rabats sur des techniques de data-mining.

      Parmi les exemples qu'on avait souvent en cours - ça commence à dater alors ça a pu bouger - tu avais des notamment problèmes de recherche de structure (en gros, tu as des données en quantité, mais tu cherches à mettre en évidence des liens entre ces données).

    • [^] # Re: Fouille de données

      Posté par . Évalué à 5.

      Aurais-tu un exemple typique (quitte à ce qu'il soit complètement carricatural) de fouille de données ?

      L'exemple canonique utilisé en début de nombreux cours de fouilles de données : un supermarché qui cherche les objets fréquemment vendus ensemble. Il ne sait pas à l'avance ce qu'il va trouver (la fouille de données ne cherche pas forcément à prouver une hypothèse par un jeu de données, elle sert à trouver des hypothèses qu'on n'imaginait pas), et l'anecdote qui est restée : le supermarché a trouvé que les couches pour bébés et les packs de bières étaient souvent vendus ensemble (supposément achetés par des pères de familles).

      • [^] # Re: Fouille de données

        Posté par (page perso) . Évalué à 2.

        En plus de cet exemple connu, j'avais lu qu'une compagnie d'assurances a découvert que les voitures anciennes assurées n'étaient quasiment jamais accidentées.

        Quand on a acheté une Dedion-Bouton 1922, passé 3 ans à retrouver des pièces détachées et à la remettre en état, est-ce qu'on va rouler bourré à 180 km/h avec cette voiture ?

        Bon, parlons franchement, ça m'a toujours fait marrer, les recherches dans les "datafoutoirs" (c'est la traduction de datawarehouse, non ?).
        Peut-être qu'on découvre réellement des choses intéressantes ?

        If you choose open source because you don't have to pay, but depend on it anyway, you're part of the problem.evloper) February 17, 2014

        • [^] # Re: Fouille de données

          Posté par . Évalué à 10.

          Il est balèze le mécano qui arrive à faire monter la Dedion-Bouton 1922 à 180 km/h, même pas bourré.

          • [^] # Re: Fouille de données

            Posté par . Évalué à 2.

            Oué mais faut vraiment être bourré pour avoir envie d'essayer…

            Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur

    • [^] # Re: Fouille de données

      Posté par . Évalué à 6.

      Quand on parle de data mining l'exemple le plus connus c'est Wall Mart qui l'aurait utilisé sur l'ensemble de ses factures clients et qui aurait ainsi remarqué que, le samedi après midi, il y avait une forte corrélation entre la vente de bière et celle de couche-culotte (ce serait dût aux maman qui envoient leur mari faire des courses). En rapprochant les deux rayons ils auraient augmenter leur ventes.

      Le data minning c'est aussi des algorithmes de clustering ou de classification et c'est donc ce qui te permet de traiter automatiquement tes spams (par exemple avec un réseau baysien).

      C'est aussi utilisé dans le prochain garbage collector de Java (gc one si je ne me trompe) qui en fonction de ta manière d'utiliser la mémoire va s'adapter pour améliorer les performances.

      Encore un autre exemple d'utilisation, google qui indexe le web (mais aussi bing ou yahoo) utilisent du data minning pour déterminer à partir de ta requête l'ensemble de page résultat.

      Bref c'est vraiment très large et l'outil dépend de ton besoin, une base de données permet de faire du data minning, mais tu peux vouloir un outils plus spécialisé.

      Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

      • [^] # Re: Fouille de données

        Posté par (page perso) . Évalué à 1.

        Le data minning c'est aussi des algorithmes de clustering ou de classification et c'est donc ce qui te permet de traiter automatiquement tes spams (par exemple avec un réseau baysien).

        On avait du faire un projet en cours sur les spams... On utilisait du TF-IDF pour classifier une base de spams et sortir des informations "pertinantes" pour chaque spams (des noms, des adresses, des numéro de compte,...).
        Bon par contre on connaissait déjà le nombre de catégories, donc ça rentre plus dans le classement supervisé.

        Autrement au niveau des softs, il y a la librairie Lucene qui est vraiment bien pour manipuler du texte (recherche,...) et en plus y'a plein de bindings disponible.

      • [^] # Re: Fouille de données

        Posté par . Évalué à 0.

        Réponse très intéressante, mais s'il te plait, soigne un peu plus ton orthographe, ça pique les yeux !
        Quand tu écris un verbe, fais donc un test avec un verbe en "re" : par exemple "... ils auraient augmenter ..." => "... ils auraient mordre ...", tu vois bien que ça ne va pas => augmenté

        Pour le dût, je ne sais pas quelle astuce te donner par contre ...

        • [^] # Commentaire supprimé

          Posté par . Évalué à 2.

          Ce commentaire a été supprimé par l'équipe de modération.

        • [^] # Re: Fouille de données

          Posté par . Évalué à 1.

          C'est une manière de montrer que Maître Capello me manque …

          Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

        • [^] # Re: Fouille de données

          Posté par . Évalué à 1.

          Je te trouve un peu dur, là.

          Certes, il y a quelques fautes dans son commentaire, mais, franchement, c'est assez léger par rapport à ce qu'on a l'habitude de voir partout, et même sur ce site.

          C vré koa, c pa com sil avé écri com sa !

          • [^] # Re: Fouille de données

            Posté par . Évalué à 1.

            Oui, c'est vrai que c'est bien mieux que ce qu'on peut voir, et je pense qu'il suffit de pas beaucoup d'efforts pour frôler le sans faute, c'est pour cela que je fais la remarque (tu noteras que j'ai essayé d'être constructif dans mon commentaire).

  • # Impressionné aussi !

    Posté par . Évalué à 3.

    Je fais de l'exploitation de données ASCII de temps en temps ... ça fait longtemps que les tableurs me saoulent, et j'ai toujours eu la flemme de me mettre à R (en fait j'ai utilisé un peu une interface graphique, Rcommander ?).
    Mais alors là je suis bluffé, ce logiciel a l'air aussi intuitif à utiliser que puissant.
    Merci beaucoup aux développeurs pour ce joyau (et merci à Stop pour ce journal !).

    • [^] # Re: Impressionné aussi !

      Posté par . Évalué à 1.

      Effectivement ce logiciel est bluffant. Il faut connaitre quelques trucs et astuces. Je l'utilise sur des données (300 lignes, 150 colonnes) numériques ou texte. L'objectif est de trier, manipuler, faire des graphiques auto, le tout rapidement pour extraire la substantifique moelle et ainsi classer mes données par familles. On peut également modéliser les données pour faire des prévisions de tendances.

      Le data mining est une exploration du jeux de données lorsque l'on ne sait pas forcément ce que l'on cherche, contrairement à une requête SQL. Ensuite il est possible de strcturer ce jeux de données.

      En dehors de l'aspect Data mining, les stat classiques peuvent être également fait facilement avec knime, du moins plus facilement que sous un tableur.

      • [^] # Re: Impressionné aussi !

        Posté par . Évalué à 2.

        Le data mining est une exploration du jeux de données lorsque l'on ne sait pas forcément ce que l'on cherche, contrairement à une requête SQL.

        J'ai déjà fais de la fouille de données, pour faire ce que l'on appelait de la recherche de clefs minimale avec du SQL.

        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

  • # A part Knime

    Posté par . Évalué à 1.

    trés intéressant, merci de l'info.

    Pour ce qui touche au Data Mining il y à également des projets intéressants comme Orange
    qui a de très bonnes introductions/exemples/tutos au Data Mining, ainsi qu'un framework (cadriciel) vraiment bien fait et c'est en Python (miam)

    • [^] # Re: A part Knime

      Posté par . Évalué à 1.

      Orange semble prometteur mais les bugs sont assez importants contrairement à Knime. A suivre donc...

      Concernant les implémentations graphiques de R, il existe aussi Red-R qui est basé sur Orange. Le projet est très prometteur pour l'utilisation des stats.

      Red-R

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.