fise, un nouveau moteur sémantique RESTful et libre

Posté par  (site web personnel) . Modéré par Nÿco.
Étiquettes :
12
30
août
2010
Java
fise est un projet de moteur sémantique, financé en partie par l’Union Européenne dans le cadre du projet de R&D collaborative IKS.

Par moteur sémantique, on entend un logiciel qui est capable d’extraire de l’information à partir de documents (textes ou multimédia), comme par exemple : des entités nommées (exemples : noms de personnes ou de lieux), des tags ou des catégories, ou encore de la connaissance sous forme d’une base d’assertion.

De tels outils existent déjà, accessibles sous forme de services web (exemples : Open Calais ou Zemanta), mais ils ne sont pas libres ce qui limite leurs possibilités d’extension et d’utilisation dans des contextes privés et/ou sensibles (exemple : renseignement).

fise, qui est écrit en Java et utilise le système de modules OSGi, se distingue par son interface REST qui permet de l’utiliser depuis n’importe quel type de système de gestion de contenu (CMS), quel que soit le langage qu’il utilise, et par une architecture modulaire qui permet de brancher et de combiner différentes bibliothèques en fonction des besoins.

Une introduction détaillée à fise est disponible dans ce billet (en anglais). Une démo en ligne est également disponible.

Aller plus loin

  • # Sources de données sémantique

    Posté par  (site web personnel) . Évalué à 2.

    J'ai développé le projet Quatuo ( http://www.quatuo.com ) qui permet à tout le monde de publier son profil foaf. C'est aussi un crawler web qui cherche des profils et enrichit sa base de données de profils !

    Les URL de données sémantiques lisibles sont dans le fichier sitemap.xml. Si les owners du projet lisent mon post, je serais enchanté qu'ils aillent lire les profils quatuo !

    http://about.me/straumat

    • [^] # Re: Sources de données sémantique

      Posté par  . Évalué à 1.

      Dommage qu'il faille absolument un compte Google pour s'inscrire. Je me serais volontiers ajouté.
      • [^] # Re: Sources de données sémantique

        Posté par  (site web personnel) . Évalué à 2.

        J'avoue que c'est un problème ! je voulais surtout tester google app engine et me faire une idée de la solution.
        L'intérêt était aussi pour moi d'avoir des données valides. Le SHA1SUM est forcement juste car je m'identifie auprès de google. Par contre, il faut en effet que je trouve du temps pour implémenter d'autres API d'authentification.

        http://about.me/straumat

  • # Un petite note en passant

    Posté par  (site web personnel) . Évalué à 3.

    Le détecteur d'entités nommées chargé dans la démo ne permet pas d'analyser correctement des textes écrits dans une autre langue que l'anglais pour l'instant.

    L'ajout du support d'autre langues comme le français est prévu mais çà prend du temps car il faut construire un corpus d'entrainement annoté.
    • [^] # Re: Un petite note en passant

      Posté par  . Évalué à 1.

      De nombreux corpus annotés existent déjà, et même si ils ne sont généralement pas disponibles librement, ça peut valoir le coup de demander.

      Je pense notamment au corpus de la campagne d'évaluation des systèmes de transcription automatique de la parole ESTER 2 (http://www.afcp-parole.org/ester/index.html), dans laquelle une tâche de détection des entités nommées était proposée (et donc les corpus qui vont avec pour l'apprentissage).
  • # Nepomuk

    Posté par  . Évalué à 2.

    Bonjour à tous

    Je vais peut être poser une question idiote:

    mais c'est quoi la différence entre ce projet et le projet Nepomuk ?
    • [^] # Re: Nepomuk

      Posté par  (site web personnel) . Évalué à 2.

      Nepomuk est assez similaire mais a ma connaissance se concentre essentiellement sur les environnements de bureau (en particulier KDE) alors que fise vise les développeurs de CMS (donc typiquement d'application web de gestion de contenu).
  • # Super

    Posté par  . Évalué à 2.

    Ce qui est rassurant, c'est que cela fonctionne mal. J'ai testé avec deux trois exemples, et les résultats sont impressionnants au début, puis quand on regarde de plus près, on remarque qu'il manque quand même pas mal de choses.

    Envoyé depuis mon lapin.

    • [^] # Re: Super

      Posté par  (site web personnel) . Évalué à 2.

      Il faut bien comprendre que pour l'instant c'est juste un proto. Il y a plein de problèmes clairement identifiés qui vont s'améliorer avant la première vraie release. Par exemple les noms de plus de 4 mots sont actuellement résolus par une recherche contextuelle qui est complètement inadaptée.

      On devrais pouvoir s'approcher de la qualité d'Open Calais ou Zemanta assez vite je pense.
  • # tiens je cherche un truc comme ça....

    Posté par  . Évalué à 1.

    Je viens de tester la demo en copiant collant le texte de la news et Fise m'a indiqué où était Java sur une carte du monde. ;-)

    Sinon je cherche un logiciel qui ferait ça:

    - J'ai une arborescence avec des PDF indexés, des sxw, des ODF, des ODT, etc...
    - J'utilise le logiciel archivarius pour indéxer le contenu de cette arborescence et qui est muni d'un serveur avec un outil de recherche par mots clefs.
    - Ce que je voudrais maintenant, c'est un outil qui affiche au quotidien, un digest des documents ajoutés. Un peu comme une revue de presse automatisée, taggée et facile d'accès.
    Du mashup, quoi, en gros.

    Vous me conseillez quoi comme appli facile à déployer? Et open Source.

    Merci pour vos lum!ères.
    • [^] # Re: tiens je cherche un truc comme ça....

      Posté par  . Évalué à 3.

      Regarde si tu n'as pas un truc approchant dans les applications basées sur Nuxeo. Il me semble qu'ils avaient un truc à destination de la presse.
      • [^] # Re: tiens je cherche un truc comme ça....

        Posté par  (site web personnel) . Évalué à 2.

        Nuxeo ne fait pas encore ça clefs en main, mais ce type de cas d'utilisation est en effet intéressant et des outils comme fise sont une brique dans cette direction. Je sais pas s'il existe déjà des logiciels open source qui font çà automatiquement.
      • [^] # Re: tiens je cherche un truc comme ça....

        Posté par  . Évalué à 1.

        J'ai effectivement regardé nuxeo, mais ça m'a paru a priori trop complexe comme architecture pour mon besoin. Je ne suis pas informaticien, ni codeur. Juste bon utilisateur.

        Mais je vais regarder à a de près un nouvelle fois.
        • [^] # Re: tiens je cherche un truc comme ça....

          Posté par  . Évalué à 1.

          [mode grrrr] On ne peut pas éditer ses commentaires sur linuxfr... [/mode grrrr]

          Je viens de découvrir que Nuxeo édite une solution DM (document manager), qui m'a vraiment bluffé sur les possiblités.
          Je vais regarder de ce côté pour voir s'il est possible d'intégrer en masse des documents.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.