Comme dit au dessus, si, les perfs comptent. Un traitement "temps-reel" n'implique pas les mêmes contraintes que du batch offline.
Ca depend ensuite de ce qu'on veut faire precisement, des évolutions previsibles, de la complexité à priori des traitements etc. Ex: si la taille de la base doit augmenter rapidement, il faut pouvoir faire grossir l'infrastructure sans tout chambouler.
Donc comme d'hab, je dirai : tenter les solutions classiques et éprouvées, genre pas de trucs exotiques à la noSQL, et si ça bloque vraiment, envisager les Hadoop/Spark etc. Ce qui permet aussi de quantifier les besoins humains.
En effet, il y a parfois confusion test/train, ce qui donne des scores de fou … normal.
De deux, je suis pas sur de la qualité du dataset de base. Faudrait voir s'il y a une qcq cohérence entre le contenu et la note. Fitter du bruit, ca doit donner du bruit. Ca manque cruellement de découverte/qualification des données d'entrées, padawan.
Pas le temps de creuser, mais j'ai une remarque: tu différencies bien tes dataset d'entraînement et de test ? Ca fausse tous les scores, sinon. La routine test_train_split (ou ~) sera ton amie.
Si le sujet du machine learning t'intéresse, je me permets de t'indiquer ce site : http://oceandata.io (le mien). Jouer avec les données, c'est mon gagne-pain.
Petit à petit, se dessine une société où toute forme de médiation humaine peut être estimée moins performante qu’un algorithme ayant la prétention de nous connaître mieux que nous-mêmes, du fait qu’il recueille en permanence des données, la plupart du temps à notre insu, par nos usages quotidiens du numérique.
On croirait lire le discours des agences de "transformation digitale" pronant la "révolution numérique". Ce discours n'est pas fondamentalement faux, mais il n'en reste pas moins extrêmement exagéré et, quelque part, mensonger.
Caser des algos de machine learning et du "predictif" quand c'est pertinent, oui. Mais en faire une solution miracle, non. Ce genre de discours est nuisible.
J'ai lu recemment plus de la moitié de son dernier livre Dans la disruption. Le sujet est très actuel : il envisage et theorise les phénomènes disruptifs qu'on nous sur-vend en permanence en ce moment.
L'idée générale, pour ce que j'ai réussi à en tirer, est qu'une massive perte de valeurs accompagne la "data economy", "l'intelligence computationnelle et algorithmique" (ce sont ses expressions, ou pas loin, je n'ai pas le bouquin sous les yeux). Mouais. Ca pue le "c'était mieux à vent" et le catastrophisme facile.
L'énorme reproche que je lui fais, c'est qu'il jargonne moultement. Ses idées me semblent valables, pour ce que je peux en juger (faiblement, donc), mais son style et sa formulation sont pour moi rédhibitoires. Pour faire court : je n'ai vraiment pas compris ce que je lisais, 95% du temps. Un livre pour les philosophes ; donc une pensée pour moi perdue. Ou alors je suis trop con. Une rencontre ratée, cependant. Dommage …
Je pensais surtout a mes clients qui bossent dans le marketing / CRM et autres decideurs pressés: ils ne vont pas demander à leurs équipes de coder un outil de segmentation.
Perso, je saurais faire. Mais ce serait surement bancal, probablement truffé de bugs et forcément non-optimal. Et ca me prendrait du temps. Par contre, comprendre le fonctionnement est utile et plaisant, je trouve.
Les gens a qui je parle n'ont a peu pres aucune idee précise de ce qu'est l'IA. Ils s'en foutent ou ne voient pas en quoi ca pourrait les concerner.
Ce qu'ils veulent, c'est de l'intelligence dans les traitements. Mais cette "intelligence" se resume souvent (au final) à des stats, du data mining ou des applications directes de machine learning (classification, prediction).
Après, j'ai du trop lire Asimov, Gibson ou Banks pour pouvoir parler d'IA sereinement.
Je ne connais pas ggplot2.
Je ne connais pas R non plus. Parait que c'est bien, mais je n'ai jamais vu l'intérêt que j'aurais à m'y mettre.
Je ne me sers que de matplotlib, je ne connais vraiment rien d'autre en python pour tracer des trucs. Cela dit, je ne vais pas bcp plus loin que le 2D, ca me suffit. Et quand je sèche, je me balade dans leur galerie web.
Data scientist, c'est pas forcément facile à vendre. Le terme est parfois connu, mais la définition est large … ca peut recouvrir les maths, les stats, le nosql, la manipulation (handling) de données, le machine learning. Je me force à ne pas parler technique (osef, au final) et à insister sur la valeur.
Clairement, si certains outils libres sont bien positionnés sur ce segment de marché, c'est parce que certaines licences sont tellement permissives que des entreprises peuvent reprendre le code tel quel, en rajouter par dessus, et vendre le tout un certain prix (et aussi pourquoi pas l'intégration).
AMHA ce qui joue vraiment c'est que ce qui a de la valeur c'est la donnée et pas l'exécutable.
Disons qu'il faut les deux :
- d'une part l'outil, et savoir l'utiliser,
- d'autre part la donnée et sa compréhension métier.
Il faut aussi ajouter l'accompagnement et la recul sur la pertinence des résultats.
Un mix, quoi.
Ca sent quand même le fake. Quelques extraits de la conclusion du rapport :
If nuclear transitions are prevalent in the burning process it is expected that radiation is emitted. It is remarkable that neither neutrons, charged particles nor gammas are observed from the E-cat reactor.
Furthermore, the spent fuel was found inactive right after the E-Cat run was stopped. All imaginable nuclear reactions in the reactor should be followed by some radiation, and at least some of that radiation should penetrate the reactor wall and be possible to detect.
Although we have good knowledge of the composition of the fuel we presently lack detailed information on the internal components of the reactor, and of the methods by which the reaction is primed. Since we are presently not in possession of this information, we think that any attempt to explain the E-Cat heating process would be too much hampered by the lack of this information, and thus we refrain from such discussions.
In summary, the performance of the E-Cat reactor is remarkable. We have a device giving heat energy compatible with nuclear transformations, but it operates at low energy and gives neither nuclear radioactive waste nor emits radiation. From basic general knowledge in nuclear physics this should not be possible.
En résumé : ils observent une production de chaleur, une modification (probable) de ce qu'il y avait à l'intérieur du bouzin, et ils ne voient aucune radiation.
Bof. Tant que le dispositif n'est pas analysé en détail (pas vu où), je dis "fake".
# Canard-bots ?
Posté par Thomas (site web personnel) . En réponse à la dépêche LinuxFr.org sera impliqué dans le plan français sur l’intelligence artificielle #FranceIA. Évalué à 5.
DLFP, premier sur les bots de forum, moules auto-apprenantes et autres utilisateurs virtuels dopés aux algos de machine learning !
Un plan machiavélique ourdi de longue date.
Bravo !
(il a un compte Cedric V ?)
# chezmoicamarche.bien
Posté par Thomas (site web personnel) . En réponse au lien #cloudwatt. Évalué à 1.
Aucun souci avec leurs prestations, je m'en sers regulierement. Sur des setup basiques, sans perfs.
Et vous ?
[^] # Re: Une agence pour réguler ou éduquer?
Posté par Thomas (site web personnel) . En réponse au lien “We take your privacy seriously.”. Évalué à 1.
Merci.
Meme question.
Reponse logique de 22h57: les medias l'ont decouvert. Ou autre bizarrerie psychologique typiquement humaine.
Va savoir, Edouard.
# Magique
Posté par Thomas (site web personnel) . En réponse au lien "La plus grosse escroquerie de l’histoire de la Silicon Valley ?". Évalué à 2.
Une forme de talent.
# DSP2
Posté par Thomas (site web personnel) . En réponse au journal Histoire de budget. Évalué à 2.
Ca va surement changer avec la mise en application de la directive DSP2 par les banques (interoperabilité, donnees perso toussa).
Je ne sais pas, par contre, jusqu'ou remontera l'historique.
# Pandas + seaborn + ...
Posté par Thomas (site web personnel) . En réponse au message Analyse de données. Évalué à 0.
Et des maths. Et un mec qui connait le contexte des données sous le coude, ca aide.
Ca se fait bien à la main sous python.
Pas encore trouvé d'outil automagique plus pratique pour l'exploration de données. Ca existe peut-etre, cela dit.
# Ah bon ?
Posté par Thomas (site web personnel) . En réponse au message Cherche Dev Python pour relever un défi industriel. Évalué à 1.
Vous vous essayez au machine learning, maintenant, chez CloudW*tt ?
[^] # Re: Merci
Posté par Thomas (site web personnel) . En réponse à la dépêche Revue de livre : La face cachée d’Internet, de Rayna Stamboliyska. Évalué à 1.
Il y a The Phoenix Project, dans le genre. Très bon.
[^] # Re: Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à 3.
Oui.
"Tenter" dans le sens : essayer avec les outils classiques et éprouvés. Passer à autre chose si les perfs bloquent.
J'ai l'impression que les DSI veulent caser du Hadoop partout, par principe. Ce qui est idiot.
[^] # Re: Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à -1.
Comme dit au dessus, si, les perfs comptent. Un traitement "temps-reel" n'implique pas les mêmes contraintes que du batch offline.
Ca depend ensuite de ce qu'on veut faire precisement, des évolutions previsibles, de la complexité à priori des traitements etc. Ex: si la taille de la base doit augmenter rapidement, il faut pouvoir faire grossir l'infrastructure sans tout chambouler.
Donc comme d'hab, je dirai : tenter les solutions classiques et éprouvées, genre pas de trucs exotiques à la noSQL, et si ça bloque vraiment, envisager les Hadoop/Spark etc. Ce qui permet aussi de quantifier les besoins humains.
Mes deux centimes
# Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à 3.
Quelle quantité de données à stocker ?
Quelles fonctionnalités attendues ?
Quelles perfs ?
Quelle infra ?
# Mouais
Posté par Thomas (site web personnel) . En réponse à la dépêche Prédire la note d’un journal sur LinuxFr.org. Évalué à 4.
Bon, j'ai lu.
Pas jusqu'au bout, pas le temps.
En effet, il y a parfois confusion test/train, ce qui donne des scores de fou … normal.
De deux, je suis pas sur de la qualité du dataset de base. Faudrait voir s'il y a une qcq cohérence entre le contenu et la note. Fitter du bruit, ca doit donner du bruit. Ca manque cruellement de découverte/qualification des données d'entrées, padawan.
Mais bel effort :)
Et SGD != SVM.
# test/train
Posté par Thomas (site web personnel) . En réponse à la dépêche Prédire la note d’un journal sur LinuxFr.org. Évalué à 5.
Salut
C'est sympa scikit-learn, n'est-ce pas ?!
Pas le temps de creuser, mais j'ai une remarque: tu différencies bien tes dataset d'entraînement et de test ? Ca fausse tous les scores, sinon. La routine test_train_split (ou ~) sera ton amie.
Si le sujet du machine learning t'intéresse, je me permets de t'indiquer ce site : http://oceandata.io (le mien). Jouer avec les données, c'est mon gagne-pain.
[^] # Re: Code des programmes Brainfuck
Posté par Thomas (site web personnel) . En réponse au journal Kotlin + Brainfuck : efficacité, compacité, optimisation. Évalué à 3.
C'est beau.
# Disruptons !
Posté par Thomas (site web personnel) . En réponse au journal [HS] Des disruptifs à la pointe... Dans le mélange des genres. Évalué à -4.
Disrupter Paypal est-il vraiment pertinent ? Sur quels points ?
# BS marketing
Posté par Thomas (site web personnel) . En réponse à la dépêche Séminaire de réarmement intellectuel et technique sur le "Big Data". Évalué à 4.
On croirait lire le discours des agences de "transformation digitale" pronant la "révolution numérique". Ce discours n'est pas fondamentalement faux, mais il n'en reste pas moins extrêmement exagéré et, quelque part, mensonger.
Caser des algos de machine learning et du "predictif" quand c'est pertinent, oui. Mais en faire une solution miracle, non. Ce genre de discours est nuisible.
[^] # Re: Dans la disruption
Posté par Thomas (site web personnel) . En réponse au journal L’Outil et la Technique. Évalué à 2.
Bah ouais.
Ca peut paraitre idiot.
Mais ouais.
De ce que j'ai pu en tirer de compréhensible. Mais va le lire, tu comprendras pourquoi j'ai dit ca.
# Dans la disruption
Posté par Thomas (site web personnel) . En réponse au journal L’Outil et la Technique. Évalué à 6.
Merci pour ce journal.
J'ai lu recemment plus de la moitié de son dernier livre Dans la disruption. Le sujet est très actuel : il envisage et theorise les phénomènes disruptifs qu'on nous sur-vend en permanence en ce moment.
L'idée générale, pour ce que j'ai réussi à en tirer, est qu'une massive perte de valeurs accompagne la "data economy", "l'intelligence computationnelle et algorithmique" (ce sont ses expressions, ou pas loin, je n'ai pas le bouquin sous les yeux). Mouais. Ca pue le "c'était mieux à vent" et le catastrophisme facile.
L'énorme reproche que je lui fais, c'est qu'il jargonne moultement. Ses idées me semblent valables, pour ce que je peux en juger (faiblement, donc), mais son style et sa formulation sont pour moi rédhibitoires. Pour faire court : je n'ai vraiment pas compris ce que je lisais, 95% du temps. Un livre pour les philosophes ; donc une pensée pour moi perdue. Ou alors je suis trop con. Une rencontre ratée, cependant. Dommage …
# chiffrer.info
Posté par Thomas (site web personnel) . En réponse au journal un vrai coffre fort numérique. Évalué à 4.
Je profite de ce journal pour soumettre à votre sagacité ce petit presqu'HS de qualitai : chiffrer.info.
Peut-être connaissiez-vous déjà.
[^] # Re: Coder ses propres algo
Posté par Thomas (site web personnel) . En réponse au journal #data et libre : une belle histoire ?. Évalué à 3.
Yep.
Je pensais surtout a mes clients qui bossent dans le marketing / CRM et autres decideurs pressés: ils ne vont pas demander à leurs équipes de coder un outil de segmentation.
Perso, je saurais faire. Mais ce serait surement bancal, probablement truffé de bugs et forcément non-optimal. Et ca me prendrait du temps. Par contre, comprendre le fonctionnement est utile et plaisant, je trouve.
[^] # Re: IA
Posté par Thomas (site web personnel) . En réponse au journal #data et libre : une belle histoire ?. Évalué à 2.
Peut-etre.
Les gens a qui je parle n'ont a peu pres aucune idee précise de ce qu'est l'IA. Ils s'en foutent ou ne voient pas en quoi ca pourrait les concerner.
Ce qu'ils veulent, c'est de l'intelligence dans les traitements. Mais cette "intelligence" se resume souvent (au final) à des stats, du data mining ou des applications directes de machine learning (classification, prediction).
Après, j'ai du trop lire Asimov, Gibson ou Banks pour pouvoir parler d'IA sereinement.
[^] # Re: Tu fais tes graphiques avec quoi ?
Posté par Thomas (site web personnel) . En réponse au journal #data et libre : une belle histoire ?. Évalué à 2.
Cool, un transfuge de R !
Je ne connais pas ggplot2.
Je ne connais pas R non plus. Parait que c'est bien, mais je n'ai jamais vu l'intérêt que j'aurais à m'y mettre.
Je ne me sers que de matplotlib, je ne connais vraiment rien d'autre en python pour tracer des trucs. Cela dit, je ne vais pas bcp plus loin que le 2D, ca me suffit. Et quand je sèche, je me balade dans leur galerie web.
Data scientist, c'est pas forcément facile à vendre. Le terme est parfois connu, mais la définition est large … ca peut recouvrir les maths, les stats, le nosql, la manipulation (handling) de données, le machine learning. Je me force à ne pas parler technique (osef, au final) et à insister sur la valeur.
On verra avec le temps !
[^] # Re: Outils libre et business
Posté par Thomas (site web personnel) . En réponse au journal #data et libre : une belle histoire ?. Évalué à 1.
Disons qu'il faut les deux :
- d'une part l'outil, et savoir l'utiliser,
- d'autre part la donnée et sa compréhension métier.
Il faut aussi ajouter l'accompagnement et la recul sur la pertinence des résultats.
Un mix, quoi.
[^] # Re: Scam?
Posté par Thomas (site web personnel) . En réponse au journal Douche froide pour la fusion. Évalué à 2.
Disons que le truc de Lockheed Martin est sexy.
…
# Magic happens.
Posté par Thomas (site web personnel) . En réponse au journal Douche froide pour la fusion. Évalué à 6.
Merci pour l'info.
Rapport "scientifique" ici.
Ca sent quand même le fake. Quelques extraits de la conclusion du rapport :
If nuclear transitions are prevalent in the burning process it is expected that radiation is emitted. It is remarkable that neither neutrons, charged particles nor gammas are observed from the E-cat reactor.
Furthermore, the spent fuel was found inactive right after the E-Cat run was stopped. All imaginable nuclear reactions in the reactor should be followed by some radiation, and at least some of that radiation should penetrate the reactor wall and be possible to detect.
Although we have good knowledge of the composition of the fuel we presently lack detailed information on the internal components of the reactor, and of the methods by which the reaction is primed. Since we are presently not in possession of this information, we think that any attempt to explain the E-Cat heating process would be too much hampered by the lack of this information, and thus we refrain from such discussions.
In summary, the performance of the E-Cat reactor is remarkable. We have a device giving heat energy compatible with nuclear transformations, but it operates at low energy and gives neither nuclear radioactive waste nor emits radiation. From basic general knowledge in nuclear physics this should not be possible.
En résumé : ils observent une production de chaleur, une modification (probable) de ce qu'il y avait à l'intérieur du bouzin, et ils ne voient aucune radiation.
Bof. Tant que le dispositif n'est pas analysé en détail (pas vu où), je dis "fake".