magsoft a écrit 16 commentaires

[^] # Re: data

Posté par magsoft le 04 janvier 2022 à 12:43. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 3.

Un dump des données au format CSV est disponible ici.
[^] # Re: Je veux bien un Dump

Posté par magsoft le 04 janvier 2022 à 12:41. En réponse à la dépêche Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 7.

Un dump des données au format CSV est disponible ici.
[^] # Re: Très intéressant !

Posté par magsoft le 03 janvier 2022 à 09:18. En réponse à la dépêche Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 4. Dernière modification le 03 janvier 2022 à 09:18.
Article excessivement intéressant.

Merci beaucoup !

En revanche, je n'ai pas compris si tous les mots étaient sauvegardés, même des "le", "je" ou "nuage" ou s'il y avait une liste de mots que le programme essayait de reconnaître.

Tous les mots reconnus par Vosk avec leur lemme sont enregistrés dans la base de donnée.

En tout cas, clairement une interface publique et une plus grande couverture de chaîne serait très intéressant à avoir.

Je pense aussi que ce sont les prochaines étapes. En revanche, j'hésite encore sur la forme que doit prendre l'interface publique :
- une interface de recherche comme présentée ici. Mais, vu la conception de la base, j'ai peur que ça soit compliqué à héberger correctement pour que ça soit utilisable.
- ou bien une interface qui affiche les tendances par interval de temps. Dans ce cas, les chiffres seraient pré-calculés.
[^] # Re: data

Posté par magsoft le 27 décembre 2021 à 22:23. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 2.

J'y connais rien non plus mais ça me semble l'aspect le plus intéressant à améliorer. Peut-être que si tu mettais à disposition le texte « brut » (la sortie de Vosk ou même spaCy, dans son entierté ou quelques heures/jours de données) ça pourrait intéresser des gens qui s'y connaissent un peu en Text Mining.

Ah, j'avais mal compris. En effet, dans un format de texte brut, on devrait être bien en dessous des 30 Mo/h. J'imagine aussi que ça ne se compresse pas trop mal.
[^] # Re: Bravo pour le projet

Posté par magsoft le 27 décembre 2021 à 22:16. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 6.

Merci !

Je crois que je suis sur ce projet depuis septembre. La mise en place s'est faite par intermittence sur mon temps libre. C'est difficile à dire mais peut-être que ça équivaut à un peu plus d'une semaine à temps complet. Il y a au final peu de code. Ce sont les dépendances qui font le vrai boulot. La majorité du temps passé a servi à l'intégration et aux tests.

Mais visiblement, je n'avais pas fait assez de tests… ;-)
Ce que je regrette surtout, c'est le problème qui m'a rendu faux plus de deux mois de données. Pour donner les détails, Vosk me renvoyait le timestamp de chaque mot avec comme référence le début du premier paquet audio traité par une instance alors que je pensais que la référence était le début du paquet courant. Préférant avoir des références locales, j'ai forké Vosk pour les ajouter aux résultats.
[^] # Re: temps de parole CSA

Posté par magsoft le 27 décembre 2021 à 21:56. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 5.

hmmm ce n'est que déclaratif ?!

C'est ce que j'avais aussi compris. Le CSA publie ensuite des rapports se basant sur les déclarations des chaînes. Mais c'est comme pour les impôts, ça leur arrive aussi de contrôler les déclarations et de faire des mises en demeure ou prononcer des sanctions si les déclarations sont inexactes.

Sinon, pour mesurer les temps de parole, il faudrait entraîner un modèle à reconnaître la voix des candidats. Les données d’entraînement pourraient être des discours précédents par exemple. Ça existe dans l'état de l'art et c'est quelque-chose que je voulais aussi regarder.
[^] # Re: ajout de chaînes tv ?

Posté par magsoft le 27 décembre 2021 à 21:44. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 1.

Il te reste un canal, donc R4 optimiserait au détriment du R6 qui m'intéresserait plus :/). Donc France2 + France5 + Arte. À voir si ton initiative va en motiver plus d'un pour apporter sa contribution :-) (franchement, ce devrait être au CSA d'avoir cette transparence… bref)

Ça serait en effet intéressant de rajouter d'autres chaînes. Si le CPU peut encaisser tous les traitements, peut-être qu'une autre carte DVB-T dans la même machine serait suffisante pour traiter tous les multiplexes.

Sans trop me poser de questions, j’ai installé son driver propriétaire ainsi qu’un firmware pour que ça tombe en marche.

ça, c'est tout de même dommage, mais l'important c'est que ça fonctionne : il reste la possibilité de contacter les fabricants pour montrer l'intérêt de le proposer en libre (ce que j'ai fait pour le modem fast 800 à une époque pour l'adsl).

Je me suis peut-être trop avancé en disant que les drivers étaient propriétaires. D'après cette page, il me semble que les drivers sont directement inclus dans les noyaux récents. En revanche, pour l'Europe, il faut obligatoirement mettre à jour le firmware et je ne vois pas de mention de licence pour ce dernier.

je peux bien trouver 50 € qui traînent chez moi…

Wow, merci beaucoup pour cette très généreuse proposition ! J'ai en fait déjà commandé un autre SSD. J'attends qu'il arrive pour relancer les acquisitions. :)

En plus, tu es le bienvenu sur http://tuxfamily.org si tu as besoin d'héberger ton site web + data (100 Mo extensible pour web, mais va falloir réduire ta base à ~90 Mo / 200 Mo max on va dire + 1 Go extensible pour données statiques sur downloads pour tes publications de rapports ou autre) tant que tu conserves une licence libre (l'AGPL est un très bon choix, même si je préfère MIT pour des données en clair).

Merci aussi pour la proposition d'hébergement ! Mais, étant donné vos contraintes légitimes, je crois que ça serait difficile de faire rentrer les données dedans.

En ce qui concerne la licence, le choix d'AGPL vient du fait du modèle de reconnaissance vocale pour le français de Vosk que j'utilise. Il est distribué sous licence AGPL et j'ai supposé que je devais adopter une licence compatible, donc AGPL aussi…
[^] # Re: data

Posté par magsoft le 27 décembre 2021 à 12:47. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 3.

J'ai obtenu 11 Go avec la commande:
SELECT pg_size_pretty( pg_database_size('lexicometer_db') );
Effectivement, 30 Mo / heure semble gros.

Le modèle de donnée est ici:
https://github.com/magwyz/mediaLexicometer/blob/master/mediaAnalysis/core/models.py
Je pense que même si tu ne connais pas Django, ça se comprend facilement.
Je n'y connais pas grand chose en optimisation de base, mais est-ce que cette taille n'est pas due aux indexes ou alors à des traces de l'ancienne expérience ?
[^] # Re: Heures

Posté par magsoft le 27 décembre 2021 à 12:21. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 7.

C'est en effet une bonne idée d'exploitation des données !

Je suppose que tu as à l'esprit la mise en demeure de CNews par le CSA pour avoir fait ce genre de manipulation avec les temps de parole. En revanche, à ma connaissance, les chaînes n'ont pas d'obligation sur les mentions.
[^] # Re: data

Posté par magsoft le 27 décembre 2021 à 11:59. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 10.

La taille de la base de donnée PostgreSQL fait environ 11 Go pour un peu plus que les 17 jours de cette expérience. L'ordre de grandeur est donc d'environ 30 Mo / heure pour les 4 chaînes.
J'avais aussi pensé faire un export des données que chacun puisse exploiter. Je vais m'y mettre.

Sinon, je suis d'accord qu'il devrait aussi être possible d’agréger sur une période choisie par l'utilisateur. Ça fait parti des améliorations nécessaires à l'interface de recherche.
[^] # Re: Sous-titrage

Posté par magsoft le 27 décembre 2021 à 11:45. En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 7.

Effectivement, les données du sous-titrage peuvent être récupérées dans les flux. Mais malheureusement, tous les programmes ne semblent pas être sous-titrés sur les chaînes d'information continue. Cette page sur le site web du CSA décrit d'ailleurs les obligations de ces chaînes en matière de sous-titrage et ce qu'à mis en place franceinfo.
[^] # Re: Au lave-vaisselle ??

Posté par magsoft le 18 septembre 2020 à 09:29. En réponse au journal Un lecteur vidéo pour regarder Big Buck Bunny sur un Macintosh IIcx de 1989. Évalué à 2.

Personnellement, j'ai mis à chaque fois du détergent pour la vaisselle et j'ai utilisé le programme court. J'ai entendu (mais je n'ai pas vérifié) qu'il y avait des composants dans les détergents pour éviter la corrosion des couverts. Ça serait donc une bonne chose pour nettoyer les traces de corrosion parfois créées par les fuites de condensateurs ou de piles.
[^] # Re: Au lave-vaisselle ??

Posté par magsoft le 17 septembre 2020 à 17:33. En réponse au journal Un lecteur vidéo pour regarder Big Buck Bunny sur un Macintosh IIcx de 1989. Évalué à 6.

Dans ce cas-là, j'ai effectivement changé les condensateurs après avoir passé la carte mère au lave vaisselle.

Mais le simple fait de la nettoyer peut parfois réparer temporairement ton ordinateur ! Le liquide électrolytique créé en effet des court-circuits entre les pattes des composants et le nettoyage les supprime. Si les condensateurs restent encore un peu fonctionnel malgré leur fuite, ça peut marcher.
Bien sûr, les fuites continueront et finiront toujours par causer à nouveau des problèmes. La vraie réparation est de changer les condensateurs. Mais je te confirme que le simple passage au lave-vaisselle m'a déjà refait fonctionner une carte-mère de Macintosh Classic.

Je suis d'accord que le passage d'une carte mère au lave-vaisselle est un peu angoissant mais c'est une pratique courante dans la restauration de vieux ordinateurs.
[^] # Re: Benchmark pour Rav1e

Posté par magsoft le 13 mars 2019 à 11:27. En réponse à la dépêche dav1d is An AV1 Decoder. Évalué à 7.

C'est plutôt un outil de développement d'encodeurs vidéo. Il permet principalement de tracer rapidement des courbes de débit distorsion et de débit temps de compression.

Le principe est que l'on peut lancer des runs en indiquant des hashs de commits et ensuite comparer leurs résultats pour savoir, par exemple, si une modification d'un encodeur est bénéfique ou non. Il est aussi possible de comparer différents encodeurs entre eux.

Il faut cependant s'identifier et avoir une clef pour l'utiliser car ça peut potentiellement consommer beaucoup de ressources de calcul.
L'utilisation typique est de lancer l'encodage de 30 séquences d'une seconde en 4 qualités différentes. Mais pour avoir le résultat en 30 minutes à moins de 0.1 FPS avec rav1e, il faut un certain nombre de CPUs…
[^] # Re: Benchmark pour Rav1e

Posté par magsoft le 12 mars 2019 à 11:08. En réponse à la dépêche dav1d is An AV1 Decoder. Évalué à 2. Dernière modification le 12 mars 2019 à 11:11.

libaom contient un encodeur et un décodeur AV1.
dav1d est seulement un décodeur AV1.
rav1e est seulement un encodeur AV1.

Si tu souhaites comparer les performances en terme de débit distorsion de rav1e par rapport à libaom ou à des encodeurs d'autres codec, il y a par exemple ce post:
https://forum.doom9.org/showthread.php?p=1864882#post1864882
Plus la courbe de débit distorsion est en haut à gauche, mieux c'est.
[^] # Re: Faut juste bien l'appliquer [TM]

Posté par magsoft le 06 juillet 2018 à 10:16. En réponse au journal Tectonique de la pâte thermique (Linux Pratique). Évalué à 2.

Plus probablement de l'humour.

Surtout qu'il s'agit de mayonnaise !
https://fr.wikipedia.org/wiki/Hellmann%27s_and_Best_Foods