fise, un nouveau moteur sémantique RESTful et libre

Posté par Stefane Fermigier (site web personnel) le 30 août 2010 à 18:27. Modéré par Nÿco.

Étiquettes :

août

2010

fise est un projet de moteur sémantique, financé en partie par l’Union Européenne dans le cadre du projet de R&D collaborative IKS.

Par moteur sémantique, on entend un logiciel qui est capable d’extraire de l’information à partir de documents (textes ou multimédia), comme par exemple : des entités nommées (exemples : noms de personnes ou de lieux), des tags ou des catégories, ou encore de la connaissance sous forme d’une base d’assertion.

De tels outils existent déjà, accessibles sous forme de services web (exemples : Open Calais ou Zemanta), mais ils ne sont pas libres ce qui limite leurs possibilités d’extension et d’utilisation dans des contextes privés et/ou sensibles (exemple : renseignement).

fise, qui est écrit en Java et utilise le système de modules OSGi, se distingue par son interface REST qui permet de l’utiliser depuis n’importe quel type de système de gestion de contenu (CMS), quel que soit le langage qu’il utilise, et par une architecture modulaire qui permet de brancher et de combiner différentes bibliothèques en fonction des besoins.

Une introduction détaillée à fise est disponible dans ce billet (en anglais). Une démo en ligne est également disponible.

Aller plus loin

Blog détaillé décrivant fise (150 clics)
Le projet fise (192 clics)
La démo en ligne (275 clics)

# Sources de données sémantique

Posté par Stéphane Traumat le 30 août 2010 à 19:06. Évalué à 2.

J'ai développé le projet Quatuo ( http://www.quatuo.com ) qui permet à tout le monde de publier son profil foaf. C'est aussi un crawler web qui cherche des profils et enrichit sa base de données de profils !

Les URL de données sémantiques lisibles sont dans le fichier sitemap.xml. Si les owners du projet lisent mon post, je serais enchanté qu'ils aillent lire les profils quatuo !
http://about.me/straumat
- [^] # Re: Sources de données sémantique
  
  Posté par Larry Cow le 30 août 2010 à 19:09. Évalué à 1.
  
  Dommage qu'il faille absolument un compte Google pour s'inscrire. Je me serais volontiers ajouté.
  - [^] # Re: Sources de données sémantique
    
    Posté par Stéphane Traumat le 30 août 2010 à 19:11. Évalué à 2.
    
    J'avoue que c'est un problème ! je voulais surtout tester google app engine et me faire une idée de la solution.
    L'intérêt était aussi pour moi d'avoir des données valides. Le SHA1SUM est forcement juste car je m'identifie auprès de google. Par contre, il faut en effet que je trouve du temps pour implémenter d'autres API d'authentification.
    http://about.me/straumat
# Un petite note en passant

Posté par Olivier Grisel (site web personnel) le 30 août 2010 à 19:42. Évalué à 3.

Le détecteur d'entités nommées chargé dans la démo ne permet pas d'analyser correctement des textes écrits dans une autre langue que l'anglais pour l'instant.

L'ajout du support d'autre langues comme le français est prévu mais çà prend du temps car il faut construire un corpus d'entrainement annoté.
- [^] # Re: Un petite note en passant
  
  Posté par Vincent JOUSSE le 31 août 2010 à 12:31. Évalué à 1.
  
  De nombreux corpus annotés existent déjà, et même si ils ne sont généralement pas disponibles librement, ça peut valoir le coup de demander.
  
  Je pense notamment au corpus de la campagne d'évaluation des systèmes de transcription automatique de la parole ESTER 2 (http://www.afcp-parole.org/ester/index.html), dans laquelle une tâche de détection des entités nommées était proposée (et donc les corpus qui vont avec pour l'apprentissage).
  - [^] # Re: Un petite note en passant
    
    Posté par Olivier Grisel (site web personnel) le 31 août 2010 à 13:33. Évalué à 1.
    
    Merci pour le lien. Ça serait quand même plus simple si ces corpora étaient directement publiés sous une licence libre comme CC-By par exemple, surtout quand ils ont été construit grâce a du financement publique.
    - [^] # Re: Un petite note en passant
      
      Posté par Duncan Idaho le 01 septembre 2010 à 10:23. Évalué à 2.
      
      <nazi>
      Un corpus, des corpus.
      </nazi>
# Nepomuk

Posté par TuxMips le 30 août 2010 à 20:39. Évalué à 2.

Bonjour à tous

Je vais peut être poser une question idiote:

mais c'est quoi la différence entre ce projet et le projet Nepomuk ?
- [^] # Re: Nepomuk
  
  Posté par Olivier Grisel (site web personnel) le 30 août 2010 à 20:55. Évalué à 2.
  
  Nepomuk est assez similaire mais a ma connaissance se concentre essentiellement sur les environnements de bureau (en particulier KDE) alors que fise vise les développeurs de CMS (donc typiquement d'application web de gestion de contenu).
# Super

Posté par yellowiscool le 30 août 2010 à 22:16. Évalué à 2.

Ce qui est rassurant, c'est que cela fonctionne mal. J'ai testé avec deux trois exemples, et les résultats sont impressionnants au début, puis quand on regarde de plus près, on remarque qu'il manque quand même pas mal de choses.
Envoyé depuis mon lapin.
- [^] # Re: Super
  
  Posté par Olivier Grisel (site web personnel) le 31 août 2010 à 13:36. Évalué à 2.
  
  Il faut bien comprendre que pour l'instant c'est juste un proto. Il y a plein de problèmes clairement identifiés qui vont s'améliorer avant la première vraie release. Par exemple les noms de plus de 4 mots sont actuellement résolus par une recherche contextuelle qui est complètement inadaptée.
  
  On devrais pouvoir s'approcher de la qualité d'Open Calais ou Zemanta assez vite je pense.
# tiens je cherche un truc comme ça....

Posté par toctoc1 le 30 août 2010 à 22:36. Évalué à 1.

Je viens de tester la demo en copiant collant le texte de la news et Fise m'a indiqué où était Java sur une carte du monde. ;-)

Sinon je cherche un logiciel qui ferait ça:

- J'ai une arborescence avec des PDF indexés, des sxw, des ODF, des ODT, etc...
- J'utilise le logiciel archivarius pour indéxer le contenu de cette arborescence et qui est muni d'un serveur avec un outil de recherche par mots clefs.
- Ce que je voudrais maintenant, c'est un outil qui affiche au quotidien, un digest des documents ajoutés. Un peu comme une revue de presse automatisée, taggée et facile d'accès.
Du mashup, quoi, en gros.

Vous me conseillez quoi comme appli facile à déployer? Et open Source.

Merci pour vos lum!ères.
- [^] # Re: tiens je cherche un truc comme ça....
  
  Posté par Larry Cow le 31 août 2010 à 11:12. Évalué à 3.
  
  Regarde si tu n'as pas un truc approchant dans les applications basées sur Nuxeo. Il me semble qu'ils avaient un truc à destination de la presse.
  - [^] # Re: tiens je cherche un truc comme ça....
    
    Posté par Olivier Grisel (site web personnel) le 31 août 2010 à 13:39. Évalué à 2.
    
    Nuxeo ne fait pas encore ça clefs en main, mais ce type de cas d'utilisation est en effet intéressant et des outils comme fise sont une brique dans cette direction. Je sais pas s'il existe déjà des logiciels open source qui font çà automatiquement.
  - [^] # Re: tiens je cherche un truc comme ça....
    
    Posté par toctoc1 le 31 août 2010 à 14:01. Évalué à 1.
    
    J'ai effectivement regardé nuxeo, mais ça m'a paru a priori trop complexe comme architecture pour mon besoin. Je ne suis pas informaticien, ni codeur. Juste bon utilisateur.
    
    Mais je vais regarder à a de près un nouvelle fois.
    - [^] # Re: tiens je cherche un truc comme ça....
      
      Posté par toctoc1 le 31 août 2010 à 15:33. Évalué à 1.
      
      [mode grrrr] On ne peut pas éditer ses commentaires sur linuxfr... [/mode grrrr]
      
      Je viens de découvrir que Nuxeo édite une solution DM (document manager), qui m'a vraiment bluffé sur les possiblités.
      Je vais regarder de ce côté pour voir s'il est possible d'intégrer en masse des documents.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.