Journal #data et libre : une belle histoire ?

Posté par (page perso) . Licence CC by-sa
Tags :
20
12
juil.
2016

Mon cher journal,

DLFP a 18 ans, et ca fait 12 ans que je lis ce qu'il propose sans trop participer. Pourquoi ne pas apporter mon gravier à l'édifice ? A toi de juger de la pertinence du propos, qui oscillera peut-être entre le billet de blog et les réflexions de comptoir.

J'aimerais partager avec toi 2-3 réflexions que je me fais depuis quelque temps sur le rôle du libre dans le grand raout actuel que les communicants appellent "disruption digitale" : #BigData #IoT #analytics #deeplearning et toutes les autres saillies marketing mélangeant allégement équipement, infra, data et services. Ne serait-ce que pour le traitement de données, les termes marketing ne manquent pas : data science aka business intelligence aka analytics avancée etc

<ma vie>
Mon data, c'est la data. Analyse, traitement, visualisation … mon activité professionnelle n'est possible que grâce aux outils open source, dont principalement numpy/scipy, pandas, scikit-learn (et pyMC, pour le fun). Je me retrouve à concurrencer techniquement les grosses boites de conseil et ESN avec ces quelques outils. Avec un peu de flair commercial (dont je manque), quelques compétences relationnelles (que je développe) et un bon background technique, il est donc possible de travailler en indépendant comme data scientist Science_des_données. Et ceci grâce au libre, que je remercierai par des dons dans l'année.
</ma vie>

Second point : est-il possible de faire sérieusement de l'analyse de donnée sans utiliser les outils libres ? Coder ses propres algorithmes d'apprentissage automatique (machine learning) est totalement idiot, voire impossible : il faut clairement maîtriser les maths et l'algorithmie tout en étant capable d'implémenter le tout … illusoire ! Mes quelques contacts avec des collègues dans différentes boites me confirment qu'ils utilisent des outils similaires, ou du Hadoop/Apache_Spark qui sont aussi open-source.

Ce qui incite fortement à penser que ces activités de traitement de données n'a pu se développer que grâce au libre [*]. Et qu'elle ne pourra pas vraiment s'en détacher. Je vois mal une boite se lancer dans une activité "BigData" en ré-inventant la roue. Sans compter les initiatives NoSQL.

Enfin, dernier point qui, personnellement, me fait grand plaisir : le retour de la technique pure et dure dans le marketing et le commercial, qui sont les principaux utilisateurs de ces outils sympathiques de #data :-)

Je me trompe peut-etre, mais j'ai l'impression que tout le mouvement du libre loupe une belle occasion de se féliciter de cette victoire de fait ! Hauts les cœurs \o/ \o/

Et toi, qu'en penses-tu, mon cher journal ?

[*] ou à l'open-source. Je mélange un peu les deux, je le reconnais volontiers !

  • # Outils libre et business

    Posté par . Évalué à 1.

    Clairement, si certains outils libres sont bien positionnés sur ce segment de marché, c'est parce que certaines licences sont tellement permissives que des entreprises peuvent reprendre le code tel quel, en rajouter par dessus, et vendre le tout un certain prix (et aussi pourquoi pas l'intégration).

    Et quand tu es le client, tu as l'impression d'être "fashion" parce que tu te sers des outils libre à la mode, mais tu payes quand même l'intégration et le support (même si tu t'en sers pas mais ça rassurer le dsi).

    En fait à la fin, ça te coûte pas toujours moins cher.

    Le mal réside-t-il donc dans la permissivité de certaines licences ?

    • [^] # Re: Outils libre et business

      Posté par . Évalué à 6.

      Le mal réside-t-il donc dans la permissivité de certaines licences ?

      Quel mal ?

      Clairement, si certains outils libres sont bien positionnés sur ce segment de marché, c'est parce que certaines licences sont tellement permissives que des entreprises peuvent reprendre le code tel quel, en rajouter par dessus, et vendre le tout un certain prix (et aussi pourquoi pas l'intégration).

      AMHA ce qui joue vraiment c'est que ce qui a de la valeur c'est la donnée et pas l'exécutable. Tu peut avoir l'algo de pangerank,etc de Google si tu n'a pas l'infrastructure pour le lancer sur la totalité du web, tu ne pourra jamais concurrencer Google.

      Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

      • [^] # Re: Outils libre et business

        Posté par . Évalué à 4.

        AMHA ce qui joue vraiment c'est que ce qui a de la valeur c'est la donnée et pas l'exécutable

        Pour moi c’est surtout le savoir faire. Tu peux me donner toutes les données du monde avec une instance de Spark pour jouer avec, je serai pas pour autant capable d’en tirer la moindre valeur ajoutée. Je saurai même pas par où commencer, en fait (alors que je connais les principes et les maths derrière pas mal d’algo, c’est pas le problème).

      • [^] # Re: Outils libre et business

        Posté par (page perso) . Évalué à 1.

        Clairement, si certains outils libres sont bien positionnés sur ce segment de marché, c'est parce que certaines licences sont tellement permissives que des entreprises peuvent reprendre le code tel quel, en rajouter par dessus, et vendre le tout un certain prix (et aussi pourquoi pas l'intégration).

        AMHA ce qui joue vraiment c'est que ce qui a de la valeur c'est la donnée et pas l'exécutable.

        Disons qu'il faut les deux :
        - d'une part l'outil, et savoir l'utiliser,
        - d'autre part la donnée et sa compréhension métier.

        Il faut aussi ajouter l'accompagnement et la recul sur la pertinence des résultats.
        Un mix, quoi.

  • # Tu fais tes graphiques avec quoi ?

    Posté par . Évalué à 1.

    Avant je faisais principalement du R pour mes analyses de données.

    Pour plus de souplesse je suis passé à python avec, comme toi, numpy/scipy et pandas. En revanche je n'ai pas trouvé de lib pour faire des graphes aussi puissante et simple que ggplot2.

    La version pure python de ggplot2 est trop en béta pour moi, matplotlib est trop bas niveau et les autres libs python sont peu expressive comparé à ggplot2 (et sont limités dans les formats de sorties).
    Pour l'instant, j'utilise ggplot2 de R à travers le "traducteur" rpy2 (qui permet d'utiliser du code R directement en python). C'est une solution assez sale car je cumule les bizarreries de R et de la traduction…

    Bref, tu fais tes graphiques avec quoi ?

    Sinon, c'est cool d'être data scientist ? Comment tu te vends auprès de tes clients ?

    • [^] # Re: Tu fais tes graphiques avec quoi ?

      Posté par (page perso) . Évalué à 2.

      Cool, un transfuge de R !

      Je ne connais pas ggplot2.
      Je ne connais pas R non plus. Parait que c'est bien, mais je n'ai jamais vu l'intérêt que j'aurais à m'y mettre.

      Je ne me sers que de matplotlib, je ne connais vraiment rien d'autre en python pour tracer des trucs. Cela dit, je ne vais pas bcp plus loin que le 2D, ca me suffit. Et quand je sèche, je me balade dans leur galerie web.

      Data scientist, c'est pas forcément facile à vendre. Le terme est parfois connu, mais la définition est large … ca peut recouvrir les maths, les stats, le nosql, la manipulation (handling) de données, le machine learning. Je me force à ne pas parler technique (osef, au final) et à insister sur la valeur.

      On verra avec le temps !

  • # Commentaire supprimé

    Posté par . Évalué à 2.

    Ce commentaire a été supprimé par l'équipe de modération.

    • [^] # Re: IA

      Posté par (page perso) . Évalué à 2.

      Peut-etre.

      Les gens a qui je parle n'ont a peu pres aucune idee précise de ce qu'est l'IA. Ils s'en foutent ou ne voient pas en quoi ca pourrait les concerner.

      Ce qu'ils veulent, c'est de l'intelligence dans les traitements. Mais cette "intelligence" se resume souvent (au final) à des stats, du data mining ou des applications directes de machine learning (classification, prediction).

      Après, j'ai du trop lire Asimov, Gibson ou Banks pour pouvoir parler d'IA sereinement.

  • # Commentaire supprimé

    Posté par . Évalué à 5.

    Ce commentaire a été supprimé par l'équipe de modération.

    • [^] # Re: Coder ses propres algo

      Posté par (page perso) . Évalué à 3.

      Yep.

      Je pensais surtout a mes clients qui bossent dans le marketing / CRM et autres decideurs pressés: ils ne vont pas demander à leurs équipes de coder un outil de segmentation.

      Perso, je saurais faire. Mais ce serait surement bancal, probablement truffé de bugs et forcément non-optimal. Et ca me prendrait du temps. Par contre, comprendre le fonctionnement est utile et plaisant, je trouve.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.