Le lien OpenStreetMap pointe sur le Palais de la Découverte au lieu de la cité des Sciences de la Villette. Même si les deux établissements font partie d'Universcience, ils ne sont pas du tout au même endroit à Paris.
Je te rassure je fais aussi énormément de python, et personne ne comprends rien quand j'en parle non plus :)
Plus sérieusement :
- Stanbol sert a trouver les noms de personne, lieux et organisations dans des textes en anglais (et bientôt aussi en français), rédigés avec un style journalistique (c'est la ou çà marche le mieux). Le but est de lier ces document automatiquement aux fiches Wikipedia de ces entités, et ainsi de pouvoir placer les documents sur une carte géographique ou thématique par exemple.
- Stanbol utilise OpenNLP pour lire les phrases et essayer de comprendre (en partie) ce que les humain raconte
- Stanbol utilise DBpedia.org (extraction structurée de Wikipedia) comme base de donnée de référence pour trouves les fiches des personnes, lieu et organisations célèbre.
- Jena est une lib java qui permet entre autre de se connecter a DBpedia et d'autres bases de données du même genre qui utilisent toutes le standard RDF comme moyen d interopérabilité dans la manière de décrire et de s’échanger de telles données.
- Hadoop est un logiciel pour faire du traitement de donnée en masse sur un cluster de plusieurs centaines ou milliers de machines: c'est très utilisé par tous les réseaux sociaux (facebook, twitter, linkedin) et les développeurs de moteurs de recherche (notamment Yahoo). Hadoop est une implementation libre d'une architecture appelée "MapReduce" décrite initialement par Google. Ca sert pour les gens qui doivent parser, analyser, filtrer ou indexer quotidiennement des teraoctets de données (logs, photos, email, pages webs, tweets, ...).
1) C'est possible de brancher des operations a effectuer en reaction a des evenements d'import de nouvelle video. Pour cela soit tu es un developpeur java et tu fais ton propre plugin from scratch (en prenant exemple sur des core event listeners existants comme ceux de nuxeo-platform-video), soit tu peux utiliser nuxeo studio qui fournit des briques de bases pour brancher des operations qui font des appels RESTful sur des applis tierces.
2) La version convertie pour etre streamable est calculée lors de l'import d'une nouvelle video dans une task queue traitée par des workers asynchrones (asynchronous core event listener).
3) Ca demandera surement un peu de boulot d'integration. C'est pas trivial mais realisable.
On utilise le ffmpeg du système pour faire les extractions de vignette (timeline) et conversions en version utilisable par un player embarquable dans un navigateur (pas encore de tag de html5 mais ca arrivera probablement dans une future version).
Si la video n'est pas confidentielle, peux tu s'il te plait remonter le pbm sur le jira du projet?
Tu peux soit mettre la vidéo en PJ si elle n'est pas trop grosse, soit tu mets une URL vers un serveur il serait possible de la télécharger afin de reproduire le pbm.
Merci aussi d'attacher en PJ le ou la stacktrace ou autre messages d'erreurs apparaissant dans le fichier log/server.log de ton instance.
Chacun propose ce qu'il veut. C'est vrai que pour l'instant la communauté perl est la plus active (peut etre aussi parceque les pythonneux sortent tout juste de pyconfr).
Nuxeo ne fait pas encore ça clefs en main, mais ce type de cas d'utilisation est en effet intéressant et des outils comme fise sont une brique dans cette direction. Je sais pas s'il existe déjà des logiciels open source qui font çà automatiquement.
Il faut bien comprendre que pour l'instant c'est juste un proto. Il y a plein de problèmes clairement identifiés qui vont s'améliorer avant la première vraie release. Par exemple les noms de plus de 4 mots sont actuellement résolus par une recherche contextuelle qui est complètement inadaptée.
On devrais pouvoir s'approcher de la qualité d'Open Calais ou Zemanta assez vite je pense.
Merci pour le lien. Ça serait quand même plus simple si ces corpora étaient directement publiés sous une licence libre comme CC-By par exemple, surtout quand ils ont été construit grâce a du financement publique.
Nepomuk est assez similaire mais a ma connaissance se concentre essentiellement sur les environnements de bureau (en particulier KDE) alors que fise vise les développeurs de CMS (donc typiquement d'application web de gestion de contenu).
Le détecteur d'entités nommées chargé dans la démo ne permet pas d'analyser correctement des textes écrits dans une autre langue que l'anglais pour l'instant.
L'ajout du support d'autre langues comme le français est prévu mais çà prend du temps car il faut construire un corpus d'entrainement annoté.
Aussi, pour vos features, est ce que vous utilisez le "Hashing Trick" ? Ou vous maintenez une representation explicite du dictionnaire de token (char[]) vers feature_id (long long) en memoire ?
J'imprime ton papier pour le lire ce soir, ca m'interesse d'etre tenu au courant si vous publiez votre code source sous une license libre (message perso sur linuxfr, DM sur http://twitter.com/ogrisel, ou email olivier.grisel at ensta dot org).
Un barcamp (journee de mini-conferences informelles pendant laquelle tous les participants sont invites a proposer des presentations, ateliers ou sujets de discussions) est organise vendredi 20 novembre a La Cantine a Paris :
N'hesitez pas a vous inscrire et a proposer des sujets sur le wiki. Les propositions de participation sur des sujets connexes (programmation GPU, OpenCL, JIT compiling ...) sont egalement les bienvenues.
Et le jour ou tinyurl ferme le service et si personne n'a accès a la base de donnée et au nom de domaine, ca va faire un sacré paquet de liens morts sur le web.
En 2.4, j'ai observé des segmentation faults sur un programme compilé avec llvm-gcc en code natif que je ne reproduisais ni avec le vrai gcc, ni avec la version bitcode interpretée par lli (valgrind n'a pas vu l'erreur non plus). J'ai pas eu le courage de compiler la version 2.5 pour voir si c'etait toujours le cas.
Les autres ne soyez pas timides c'est le moment ou jamais de donner votre avis (meme si vous n'etes pas sur de pouvoir venir ca me permet d'avoir une idée des attentes de ce qui vont venir).
Je profite de la news pour faire un petit sondage. Pour cette édition de PyCon FR je compte proposer d'animer un atelier formation / initiation à la programmation python (soit en 2h soit en 2 fois 2h avec portable perso et / ou prêté par la cyberbase) pour ceux qui savent déjà programmer un peu dans un autre langage et qui voudraient se mettre a python.
Si ça vous intéresse j'aimerais savoir si:
1- vous connaissez la programmation objet (et / ou de quel langage vous venez)
2- combien de temps vous souhaitez participer a cet atelier (2h ou 4h)
3- si vous avez des points qui vous intéressent particulièrement (cf point suivant)
Parmi les points suivants qu'est ce qui vous intéresse le plus:
- mettre en place en environnement de développement python (éditeur, IDE, débuggueur, shell interactif)
- syntaxe de base et structure de données (listes, dictionnaires,)
- déchiffrer un trace back (message d'erreur avec la pile d'appels)
- structurer un programme avec des packages, modules, classes, ...
- scripter pour faire du traitement de fichiers textes
- parser du XML et en générer
- monter une mini appli web (hello word en HTTP)
- faire un client HTTP pour un service web (genre twitter)
- (autres suggestions)
Si vous êtes un pythoneur expérimenté avec la fibre pédagogue je veux bien de l'aide pour préparer des exercices avec des cas pratiques progressifs et utiles dans la vraie vie.
# Lien OSM
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche PyconFR 2012 du 13 au 16 septembre 2012 à Paris, la Villette. Évalué à 2.
Le lien OpenStreetMap pointe sur le Palais de la Découverte au lieu de la cité des Sciences de la Villette. Même si les deux établissements font partie d'Universcience, ils ne sont pas du tout au même endroit à Paris.
# Pfff
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Première sortie publique de pyramid_formalchemy. Évalué à 2.
Les docstrings respectent meme pas le PEP 257.
[^] # Re: Miteux
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Prochain meetup de Paris.js à la Cantine. Évalué à -1.
[^] # Re: J'ai pas compris non plus.
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Plusieurs projets sémantiques incubés chez Apache. Évalué à 6.
Plus sérieusement :
- Stanbol sert a trouver les noms de personne, lieux et organisations dans des textes en anglais (et bientôt aussi en français), rédigés avec un style journalistique (c'est la ou çà marche le mieux). Le but est de lier ces document automatiquement aux fiches Wikipedia de ces entités, et ainsi de pouvoir placer les documents sur une carte géographique ou thématique par exemple.
- Stanbol utilise OpenNLP pour lire les phrases et essayer de comprendre (en partie) ce que les humain raconte
- Stanbol utilise DBpedia.org (extraction structurée de Wikipedia) comme base de donnée de référence pour trouves les fiches des personnes, lieu et organisations célèbre.
- Jena est une lib java qui permet entre autre de se connecter a DBpedia et d'autres bases de données du même genre qui utilisent toutes le standard RDF comme moyen d interopérabilité dans la manière de décrire et de s’échanger de telles données.
- Hadoop est un logiciel pour faire du traitement de donnée en masse sur un cluster de plusieurs centaines ou milliers de machines: c'est très utilisé par tous les réseaux sociaux (facebook, twitter, linkedin) et les développeurs de moteurs de recherche (notamment Yahoo). Hadoop est une implementation libre d'une architecture appelée "MapReduce" décrite initialement par Google. Ca sert pour les gens qui doivent parser, analyser, filtrer ou indexer quotidiennement des teraoctets de données (logs, photos, email, pages webs, tweets, ...).
[^] # Re: Lapin compris
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Plusieurs projets sémantiques incubés chez Apache. Évalué à 2.
http://blogs.nuxeo.com/dev/2010/08/introducing-fise-the-rest(...)
Pour les anglophobes, Google peut aider a comprendre l’idée générale:
http://translate.google.com/translate?hl=en&sl=auto&(...)
(Même si Google a encore plus de problèmes en grammaire que l'auteur original :)
[^] # Re: Nuxeo DAM
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Sortie de Nuxeo EP 5.4 - plate-forme de gestion documentaire libre. Évalué à 1.
2) La version convertie pour etre streamable est calculée lors de l'import d'une nouvelle video dans une task queue traitée par des workers asynchrones (asynchronous core event listener).
3) Ca demandera surement un peu de boulot d'integration. C'est pas trivial mais realisable.
[^] # Re: Nuxeo DAM
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Sortie de Nuxeo EP 5.4 - plate-forme de gestion documentaire libre. Évalué à 1.
Si la video n'est pas confidentielle, peux tu s'il te plait remonter le pbm sur le jira du projet?
https://jira.nuxeo.org/secure/CreateIssue!default.jspa (sélectionne Nuxeo DAM comme projet)
Tu peux soit mettre la vidéo en PJ si elle n'est pas trop grosse, soit tu mets une URL vers un serveur il serait possible de la télécharger afin de reproduire le pbm.
Merci aussi d'attacher en PJ le ou la stacktrace ou autre messages d'erreurs apparaissant dans le fichier log/server.log de ton instance.
[^] # Re: Web !
Posté par Olivier Grisel (site web personnel) . En réponse au journal OSDCfr 2010. Évalué à 2.
[^] # Re: tiens je cherche un truc comme ça....
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche fise, un nouveau moteur sémantique RESTful et libre. Évalué à 2.
[^] # Re: Super
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche fise, un nouveau moteur sémantique RESTful et libre. Évalué à 2.
On devrais pouvoir s'approcher de la qualité d'Open Calais ou Zemanta assez vite je pense.
[^] # Re: Un petite note en passant
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche fise, un nouveau moteur sémantique RESTful et libre. Évalué à 1.
[^] # Re: Nepomuk
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche fise, un nouveau moteur sémantique RESTful et libre. Évalué à 2.
# Un petite note en passant
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche fise, un nouveau moteur sémantique RESTful et libre. Évalué à 3.
L'ajout du support d'autre langues comme le français est prévu mais çà prend du temps car il faut construire un corpus d'entrainement annoté.
[^] # Re: Site inutilisable…
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche PyCon FR se déroulera les 28 et 29 août 2010 à Paris | La Cyberbase de la Villette. Évalué à 1.
[^] # Re: Comparaison avec GCC
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Sortie de LLVM 2.6. Évalué à 2.
http://ttic.uchicago.edu/~tewari/code/scd/
Aussi, pour vos features, est ce que vous utilisez le "Hashing Trick" ? Ou vous maintenez une representation explicite du dictionnaire de token (char[]) vers feature_id (long long) en memoire ?
http://hunch.net/~jl/projects/hash_reps/index.html
J'imprime ton papier pour le lire ce soir, ca m'interesse d'etre tenu au courant si vous publiez votre code source sous une license libre (message perso sur linuxfr, DM sur http://twitter.com/ogrisel, ou email olivier.grisel at ensta dot org).
[^] # Re: Comparaison avec GCC
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Sortie de LLVM 2.6. Évalué à 1.
# BarCamp LLVM le 20 novembre a la Cantine
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Sortie de LLVM 2.6. Évalué à 9.
http://barcamp.org/LLVM-BarCamp-Paris
N'hesitez pas a vous inscrire et a proposer des sujets sur le wiki. Les propositions de participation sur des sujets connexes (programmation GPU, OpenCL, JIT compiling ...) sont egalement les bienvenues.
[^] # Re: Merci pour la vidéo
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche Pycon FR se déroulera les 30 et 31 mai 2009 à Paris. Évalué à 3.
# Le routeurhadopi
Posté par Olivier Grisel (site web personnel) . En réponse au journal Nouveau type de routeur. Évalué à 10.
[^] # Re: Tu y étais presque...
Posté par Olivier Grisel (site web personnel) . En réponse au journal Nouveau type de routeur. Évalué à 6.
[^] # Re: .
Posté par Olivier Grisel (site web personnel) . En réponse au journal Vous aussi programmez une méthode d'IA en C++ sur un cluster Linux. Évalué à 2.
# A tester aussi, l'interpreteur compilateur JIT lli
Posté par Olivier Grisel (site web personnel) . En réponse au journal test de llvm. Évalué à 1.
% llvm-gcc --emit-llvm-bc -c -o mon_programme.bc mon_programme.c
% lli mon_programme.bc
ou si tu as des dépendances chargées dynamiquement :
% lli --load=/chemin/vers/mes/libs.so mon_programme.bc
En 2.4, j'ai observé des segmentation faults sur un programme compilé avec llvm-gcc en code natif que je ne reproduisais ni avec le vrai gcc, ni avec la version bitcode interpretée par lli (valgrind n'a pas vu l'erreur non plus). J'ai pas eu le courage de compiler la version 2.5 pour voir si c'etait toujours le cas.
[^] # Re: mais alors ???
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche PyCon France 2009 : appel à orateurs et sponsors. Évalué à 2.
[^] # Re: Atelier d'initiation a python
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche PyCon France 2009 : appel à orateurs et sponsors. Évalué à 2.
Les autres ne soyez pas timides c'est le moment ou jamais de donner votre avis (meme si vous n'etes pas sur de pouvoir venir ca me permet d'avoir une idée des attentes de ce qui vont venir).
# Atelier d'initiation a python
Posté par Olivier Grisel (site web personnel) . En réponse à la dépêche PyCon France 2009 : appel à orateurs et sponsors. Évalué à 4.
Si ça vous intéresse j'aimerais savoir si:
1- vous connaissez la programmation objet (et / ou de quel langage vous venez)
2- combien de temps vous souhaitez participer a cet atelier (2h ou 4h)
3- si vous avez des points qui vous intéressent particulièrement (cf point suivant)
Parmi les points suivants qu'est ce qui vous intéresse le plus:
- mettre en place en environnement de développement python (éditeur, IDE, débuggueur, shell interactif)
- syntaxe de base et structure de données (listes, dictionnaires,)
- déchiffrer un trace back (message d'erreur avec la pile d'appels)
- structurer un programme avec des packages, modules, classes, ...
- scripter pour faire du traitement de fichiers textes
- parser du XML et en générer
- monter une mini appli web (hello word en HTTP)
- faire un client HTTP pour un service web (genre twitter)
- (autres suggestions)
Si vous êtes un pythoneur expérimenté avec la fibre pédagogue je veux bien de l'aide pour préparer des exercices avec des cas pratiques progressifs et utiles dans la vraie vie.