Par moteur sémantique, on entend un logiciel qui est capable d’extraire de l’information à partir de documents (textes ou multimédia), comme par exemple : des entités nommées (exemples : noms de personnes ou de lieux), des tags ou des catégories, ou encore de la connaissance sous forme d’une base d’assertion.
De tels outils existent déjà, accessibles sous forme de services web (exemples : Open Calais ou Zemanta), mais ils ne sont pas libres ce qui limite leurs possibilités d’extension et d’utilisation dans des contextes privés et/ou sensibles (exemple : renseignement).
fise, qui est écrit en Java et utilise le système de modules OSGi, se distingue par son interface REST qui permet de l’utiliser depuis n’importe quel type de système de gestion de contenu (CMS), quel que soit le langage qu’il utilise, et par une architecture modulaire qui permet de brancher et de combiner différentes bibliothèques en fonction des besoins.
Une introduction détaillée à fise est disponible dans ce billet (en anglais). Une démo en ligne est également disponible.
Aller plus loin
- Blog détaillé décrivant fise (126 clics)
- Le projet fise (182 clics)
- La démo en ligne (259 clics)
# Sources de données sémantique
Posté par Stéphane Traumat (site web personnel) . Évalué à 2.
Les URL de données sémantiques lisibles sont dans le fichier sitemap.xml. Si les owners du projet lisent mon post, je serais enchanté qu'ils aillent lire les profils quatuo !
http://about.me/straumat
[^] # Re: Sources de données sémantique
Posté par Larry Cow . Évalué à 1.
[^] # Re: Sources de données sémantique
Posté par Stéphane Traumat (site web personnel) . Évalué à 2.
L'intérêt était aussi pour moi d'avoir des données valides. Le SHA1SUM est forcement juste car je m'identifie auprès de google. Par contre, il faut en effet que je trouve du temps pour implémenter d'autres API d'authentification.
http://about.me/straumat
# Un petite note en passant
Posté par Olivier Grisel (site web personnel) . Évalué à 3.
L'ajout du support d'autre langues comme le français est prévu mais çà prend du temps car il faut construire un corpus d'entrainement annoté.
[^] # Re: Un petite note en passant
Posté par Vincent JOUSSE . Évalué à 1.
Je pense notamment au corpus de la campagne d'évaluation des systèmes de transcription automatique de la parole ESTER 2 (http://www.afcp-parole.org/ester/index.html), dans laquelle une tâche de détection des entités nommées était proposée (et donc les corpus qui vont avec pour l'apprentissage).
[^] # Re: Un petite note en passant
Posté par Olivier Grisel (site web personnel) . Évalué à 1.
[^] # Re: Un petite note en passant
Posté par Duncan Idaho . Évalué à 2.
Un corpus, des corpus.
</nazi>
# Nepomuk
Posté par TuxMips . Évalué à 2.
Je vais peut être poser une question idiote:
mais c'est quoi la différence entre ce projet et le projet Nepomuk ?
[^] # Re: Nepomuk
Posté par Olivier Grisel (site web personnel) . Évalué à 2.
# Super
Posté par yellowiscool . Évalué à 2.
Envoyé depuis mon lapin.
[^] # Re: Super
Posté par Olivier Grisel (site web personnel) . Évalué à 2.
On devrais pouvoir s'approcher de la qualité d'Open Calais ou Zemanta assez vite je pense.
# tiens je cherche un truc comme ça....
Posté par toctoc1 . Évalué à 1.
Sinon je cherche un logiciel qui ferait ça:
- J'ai une arborescence avec des PDF indexés, des sxw, des ODF, des ODT, etc...
- J'utilise le logiciel archivarius pour indéxer le contenu de cette arborescence et qui est muni d'un serveur avec un outil de recherche par mots clefs.
- Ce que je voudrais maintenant, c'est un outil qui affiche au quotidien, un digest des documents ajoutés. Un peu comme une revue de presse automatisée, taggée et facile d'accès.
Du mashup, quoi, en gros.
Vous me conseillez quoi comme appli facile à déployer? Et open Source.
Merci pour vos lum!ères.
[^] # Re: tiens je cherche un truc comme ça....
Posté par Larry Cow . Évalué à 3.
[^] # Re: tiens je cherche un truc comme ça....
Posté par Olivier Grisel (site web personnel) . Évalué à 2.
[^] # Re: tiens je cherche un truc comme ça....
Posté par toctoc1 . Évalué à 1.
Mais je vais regarder à a de près un nouvelle fois.
[^] # Re: tiens je cherche un truc comme ça....
Posté par toctoc1 . Évalué à 1.
Je viens de découvrir que Nuxeo édite une solution DM (document manager), qui m'a vraiment bluffé sur les possiblités.
Je vais regarder de ce côté pour voir s'il est possible d'intégrer en masse des documents.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.