J'ai eu la chance d'apprendre avec Logo - ou la tortue, je ne sais plus. Sur de vieilles machines montées en réseau, avec un clavier et des écrans couleurs. Ça remonte aux années 90, en CM1-2.
Honnêtement, j'avais adoré. Ce serait sympa de pouvoir faire de même avec ma petite, quand elle sera plus grande.
Comme dit au dessus, si, les perfs comptent. Un traitement "temps-reel" n'implique pas les mêmes contraintes que du batch offline.
Ca depend ensuite de ce qu'on veut faire precisement, des évolutions previsibles, de la complexité à priori des traitements etc. Ex: si la taille de la base doit augmenter rapidement, il faut pouvoir faire grossir l'infrastructure sans tout chambouler.
Donc comme d'hab, je dirai : tenter les solutions classiques et éprouvées, genre pas de trucs exotiques à la noSQL, et si ça bloque vraiment, envisager les Hadoop/Spark etc. Ce qui permet aussi de quantifier les besoins humains.
En effet, il y a parfois confusion test/train, ce qui donne des scores de fou … normal.
De deux, je suis pas sur de la qualité du dataset de base. Faudrait voir s'il y a une qcq cohérence entre le contenu et la note. Fitter du bruit, ca doit donner du bruit. Ca manque cruellement de découverte/qualification des données d'entrées, padawan.
Pas le temps de creuser, mais j'ai une remarque: tu différencies bien tes dataset d'entraînement et de test ? Ca fausse tous les scores, sinon. La routine test_train_split (ou ~) sera ton amie.
Si le sujet du machine learning t'intéresse, je me permets de t'indiquer ce site : http://oceandata.io (le mien). Jouer avec les données, c'est mon gagne-pain.
Petit à petit, se dessine une société où toute forme de médiation humaine peut être estimée moins performante qu’un algorithme ayant la prétention de nous connaître mieux que nous-mêmes, du fait qu’il recueille en permanence des données, la plupart du temps à notre insu, par nos usages quotidiens du numérique.
On croirait lire le discours des agences de "transformation digitale" pronant la "révolution numérique". Ce discours n'est pas fondamentalement faux, mais il n'en reste pas moins extrêmement exagéré et, quelque part, mensonger.
Caser des algos de machine learning et du "predictif" quand c'est pertinent, oui. Mais en faire une solution miracle, non. Ce genre de discours est nuisible.
J'ai lu recemment plus de la moitié de son dernier livre Dans la disruption. Le sujet est très actuel : il envisage et theorise les phénomènes disruptifs qu'on nous sur-vend en permanence en ce moment.
L'idée générale, pour ce que j'ai réussi à en tirer, est qu'une massive perte de valeurs accompagne la "data economy", "l'intelligence computationnelle et algorithmique" (ce sont ses expressions, ou pas loin, je n'ai pas le bouquin sous les yeux). Mouais. Ca pue le "c'était mieux à vent" et le catastrophisme facile.
L'énorme reproche que je lui fais, c'est qu'il jargonne moultement. Ses idées me semblent valables, pour ce que je peux en juger (faiblement, donc), mais son style et sa formulation sont pour moi rédhibitoires. Pour faire court : je n'ai vraiment pas compris ce que je lisais, 95% du temps. Un livre pour les philosophes ; donc une pensée pour moi perdue. Ou alors je suis trop con. Une rencontre ratée, cependant. Dommage …
Je pensais surtout a mes clients qui bossent dans le marketing / CRM et autres decideurs pressés: ils ne vont pas demander à leurs équipes de coder un outil de segmentation.
Perso, je saurais faire. Mais ce serait surement bancal, probablement truffé de bugs et forcément non-optimal. Et ca me prendrait du temps. Par contre, comprendre le fonctionnement est utile et plaisant, je trouve.
[^] # Re: Satané trou noir !
Posté par Thomas (site web personnel) . En réponse au lien Katie Bouman, la chercheuse à l'origine de l’algorithme qui a permis la photographie d'un trou noir. Évalué à 1.
Exactement.
Il suffit de regarder les papiers, pour s'en convaincre [0]. Et noter, par exemple, que la liste d'auteur est alphabétique.
[0] : https://iopscience.iop.org/article/10.3847/2041-8213/ab0c57
# DLFP, incubateur de qualité ...
Posté par Thomas (site web personnel) . En réponse au journal Vendus aux GAFAM ?. Évalué à 2.
… et d'excellence, toujours.
Je vous remercie, les mollusques et les autres, pour vos commentaires et remarques !
[^] # Re: Le massacre des innocents
Posté par Thomas (site web personnel) . En réponse au journal Vendus aux GAFAM ?. Évalué à 1.
Merci pour le lien.
[^] # Re: Bien déprimant mais tellement vrai.
Posté par Thomas (site web personnel) . En réponse au journal Vendus aux GAFAM ?. Évalué à 3.
J'ai eu la chance d'apprendre avec Logo - ou la tortue, je ne sais plus. Sur de vieilles machines montées en réseau, avec un clavier et des écrans couleurs. Ça remonte aux années 90, en CM1-2.
Honnêtement, j'avais adoré. Ce serait sympa de pouvoir faire de même avec ma petite, quand elle sera plus grande.
# 120 To
Posté par Thomas (site web personnel) . En réponse au message Offre d'emploi : ingénieur de production. Évalué à 1.
C'est assez monstrueux, non ?
C'est principalement composé de quoi, par pure curiosité ? Je doute que ce soit uniquement des bases bien rangées.
# Canard-bots ?
Posté par Thomas (site web personnel) . En réponse à la dépêche LinuxFr.org sera impliqué dans le plan français sur l’intelligence artificielle #FranceIA. Évalué à 5.
DLFP, premier sur les bots de forum, moules auto-apprenantes et autres utilisateurs virtuels dopés aux algos de machine learning !
Un plan machiavélique ourdi de longue date.
Bravo !
(il a un compte Cedric V ?)
# chezmoicamarche.bien
Posté par Thomas (site web personnel) . En réponse au lien #cloudwatt. Évalué à 1.
Aucun souci avec leurs prestations, je m'en sers regulierement. Sur des setup basiques, sans perfs.
Et vous ?
[^] # Re: Une agence pour réguler ou éduquer?
Posté par Thomas (site web personnel) . En réponse au lien “We take your privacy seriously.”. Évalué à 1.
Merci.
Meme question.
Reponse logique de 22h57: les medias l'ont decouvert. Ou autre bizarrerie psychologique typiquement humaine.
Va savoir, Edouard.
# Magique
Posté par Thomas (site web personnel) . En réponse au lien "La plus grosse escroquerie de l’histoire de la Silicon Valley ?". Évalué à 2.
Une forme de talent.
# DSP2
Posté par Thomas (site web personnel) . En réponse au journal Histoire de budget. Évalué à 2.
Ca va surement changer avec la mise en application de la directive DSP2 par les banques (interoperabilité, donnees perso toussa).
Je ne sais pas, par contre, jusqu'ou remontera l'historique.
# Pandas + seaborn + ...
Posté par Thomas (site web personnel) . En réponse au message Analyse de données. Évalué à 0.
Et des maths. Et un mec qui connait le contexte des données sous le coude, ca aide.
Ca se fait bien à la main sous python.
Pas encore trouvé d'outil automagique plus pratique pour l'exploration de données. Ca existe peut-etre, cela dit.
# Ah bon ?
Posté par Thomas (site web personnel) . En réponse au message Cherche Dev Python pour relever un défi industriel. Évalué à 1.
Vous vous essayez au machine learning, maintenant, chez CloudW*tt ?
[^] # Re: Merci
Posté par Thomas (site web personnel) . En réponse à la dépêche Revue de livre : La face cachée d’Internet, de Rayna Stamboliyska. Évalué à 1.
Il y a The Phoenix Project, dans le genre. Très bon.
[^] # Re: Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à 3.
Oui.
"Tenter" dans le sens : essayer avec les outils classiques et éprouvés. Passer à autre chose si les perfs bloquent.
J'ai l'impression que les DSI veulent caser du Hadoop partout, par principe. Ce qui est idiot.
[^] # Re: Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à -1.
Comme dit au dessus, si, les perfs comptent. Un traitement "temps-reel" n'implique pas les mêmes contraintes que du batch offline.
Ca depend ensuite de ce qu'on veut faire precisement, des évolutions previsibles, de la complexité à priori des traitements etc. Ex: si la taille de la base doit augmenter rapidement, il faut pouvoir faire grossir l'infrastructure sans tout chambouler.
Donc comme d'hab, je dirai : tenter les solutions classiques et éprouvées, genre pas de trucs exotiques à la noSQL, et si ça bloque vraiment, envisager les Hadoop/Spark etc. Ce qui permet aussi de quantifier les besoins humains.
Mes deux centimes
# Metriques
Posté par Thomas (site web personnel) . En réponse au journal Data Warehouse. Évalué à 3.
Quelle quantité de données à stocker ?
Quelles fonctionnalités attendues ?
Quelles perfs ?
Quelle infra ?
# Mouais
Posté par Thomas (site web personnel) . En réponse à la dépêche Prédire la note d’un journal sur LinuxFr.org. Évalué à 4.
Bon, j'ai lu.
Pas jusqu'au bout, pas le temps.
En effet, il y a parfois confusion test/train, ce qui donne des scores de fou … normal.
De deux, je suis pas sur de la qualité du dataset de base. Faudrait voir s'il y a une qcq cohérence entre le contenu et la note. Fitter du bruit, ca doit donner du bruit. Ca manque cruellement de découverte/qualification des données d'entrées, padawan.
Mais bel effort :)
Et SGD != SVM.
# test/train
Posté par Thomas (site web personnel) . En réponse à la dépêche Prédire la note d’un journal sur LinuxFr.org. Évalué à 5.
Salut
C'est sympa scikit-learn, n'est-ce pas ?!
Pas le temps de creuser, mais j'ai une remarque: tu différencies bien tes dataset d'entraînement et de test ? Ca fausse tous les scores, sinon. La routine test_train_split (ou ~) sera ton amie.
Si le sujet du machine learning t'intéresse, je me permets de t'indiquer ce site : http://oceandata.io (le mien). Jouer avec les données, c'est mon gagne-pain.
[^] # Re: Code des programmes Brainfuck
Posté par Thomas (site web personnel) . En réponse au journal Kotlin + Brainfuck : efficacité, compacité, optimisation. Évalué à 3.
C'est beau.
# Disruptons !
Posté par Thomas (site web personnel) . En réponse au journal [HS] Des disruptifs à la pointe... Dans le mélange des genres. Évalué à -4.
Disrupter Paypal est-il vraiment pertinent ? Sur quels points ?
# BS marketing
Posté par Thomas (site web personnel) . En réponse à la dépêche Séminaire de réarmement intellectuel et technique sur le "Big Data". Évalué à 4.
On croirait lire le discours des agences de "transformation digitale" pronant la "révolution numérique". Ce discours n'est pas fondamentalement faux, mais il n'en reste pas moins extrêmement exagéré et, quelque part, mensonger.
Caser des algos de machine learning et du "predictif" quand c'est pertinent, oui. Mais en faire une solution miracle, non. Ce genre de discours est nuisible.
[^] # Re: Dans la disruption
Posté par Thomas (site web personnel) . En réponse au journal L’Outil et la Technique. Évalué à 2.
Bah ouais.
Ca peut paraitre idiot.
Mais ouais.
De ce que j'ai pu en tirer de compréhensible. Mais va le lire, tu comprendras pourquoi j'ai dit ca.
# Dans la disruption
Posté par Thomas (site web personnel) . En réponse au journal L’Outil et la Technique. Évalué à 6.
Merci pour ce journal.
J'ai lu recemment plus de la moitié de son dernier livre Dans la disruption. Le sujet est très actuel : il envisage et theorise les phénomènes disruptifs qu'on nous sur-vend en permanence en ce moment.
L'idée générale, pour ce que j'ai réussi à en tirer, est qu'une massive perte de valeurs accompagne la "data economy", "l'intelligence computationnelle et algorithmique" (ce sont ses expressions, ou pas loin, je n'ai pas le bouquin sous les yeux). Mouais. Ca pue le "c'était mieux à vent" et le catastrophisme facile.
L'énorme reproche que je lui fais, c'est qu'il jargonne moultement. Ses idées me semblent valables, pour ce que je peux en juger (faiblement, donc), mais son style et sa formulation sont pour moi rédhibitoires. Pour faire court : je n'ai vraiment pas compris ce que je lisais, 95% du temps. Un livre pour les philosophes ; donc une pensée pour moi perdue. Ou alors je suis trop con. Une rencontre ratée, cependant. Dommage …
# chiffrer.info
Posté par Thomas (site web personnel) . En réponse au journal un vrai coffre fort numérique. Évalué à 4.
Je profite de ce journal pour soumettre à votre sagacité ce petit presqu'HS de qualitai : chiffrer.info.
Peut-être connaissiez-vous déjà.
[^] # Re: Coder ses propres algo
Posté par Thomas (site web personnel) . En réponse au journal #data et libre : une belle histoire ?. Évalué à 3.
Yep.
Je pensais surtout a mes clients qui bossent dans le marketing / CRM et autres decideurs pressés: ils ne vont pas demander à leurs équipes de coder un outil de segmentation.
Perso, je saurais faire. Mais ce serait surement bancal, probablement truffé de bugs et forcément non-optimal. Et ca me prendrait du temps. Par contre, comprendre le fonctionnement est utile et plaisant, je trouve.