Plusieurs projets sémantiques incubés chez Apache

Posté par (page perso) . Modéré par Xavier Teyssier.
6
11
jan.
2011
Communauté
La fin de l’année dernière a été riche en nouvelles incubations de projets liés aux technologies sémantiques au sein de la Fondation Apache.

Le projet FISE, annoncé fin août sur LinuxFr, a été intégré dans un projet plus vaste baptisé Apache Stanbol, en incubation depuis novembre 2010.

Stanbol est le principal résultat du projet de R&D européen IKS, qui vise à produire une « stack » de services permettant d’améliorer les solutions actuelles de gestion de contenu par des technologies sémantiques : « semantic lifting » (extraction d'information sémantique à partir d'informations « brutes »), « linked open data », raisonnement et présentation contextuelle

D’autres projets, déjà bien établis, sont également passés récemment en incubation chez Apache :
  • openNLP, qui produit, en Java, des outils pour l’analyse du texte à base de machine learning ;
  • Et Jena, base de données RDF et framework Java pour le développement d’applications sémantiques développées à l’origine par le HP Lab.

Dans un blog récent, « Mining Wikipedia with Hadoop and Pig for Natural Language Processing », Olivier Grisel, l’un des principaux développeurs de FISE et Stanbol, fait la liaison entre ces projets, ainsi qu’avec Hadoop, un autre projet Apache, consacré au calcul distribué. Ces résultats exploitent également des résultats du projet SCRIBO.
  • # Lapin compris

    Posté par . Évalué à 7.

    Oui alors là, j'ai beau relire, j'ai rien compris.

    Certes, j'ai pas encore cliqué sur les liens, mais on pourrait avoir des infos grossière, "schématiques" pour savoir de quoi il s'agit ?

    C'est quoi les technologies sémantiques ? C'est quand on cherche cheval trouver aussi les résultats de "mammifère onguligrades" ?
    • [^] # Re: Lapin compris

      Posté par . Évalué à 2.

      ou un truc qui te transforme le mot pile en mettant stack à la place, mais entre guillemets je vous prie :-)
    • [^] # Re: Lapin compris

      Posté par (page perso) . Évalué à 1.

      Un petit tour sur Web sémantique et on comprend déjà un peu mieux :

      « Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C[1]. »

      « Un animal d'une atterrante stupidité : il est persuadé que si vous ne le voyez pas, il ne vous voit pas non plus » (H2G2)

      • [^] # Re: Lapin compris

        Posté par (page perso) . Évalué à 4.

        Ah oui, c'est tout de suite mieux... sauf que je n'ai toujours pas compris.


        Le Web sémantique est entièrement fondé sur le Web et ne remet pas en cause ce dernier. Le Web sémantique s'appuie donc sur la fonction primaire du Web « classique » : un moyen de publier et consulter des documents. Mais les documents traités par le Web sémantique contiennent non pas des textes en langage naturel (français, espagnol, chinois, etc.) mais des informations formalisées pour être traitées automatiquement.
        Ah ben voilà. En français c'est tout de suite plus clair.

        Par contre je n'ai absolument pas compris l'utilité de la chose. Pour une fois, je vais m'abtiendre (du verbe abstenter) de dire du mal.
        • [^] # Re: Lapin compris

          Posté par . Évalué à 6.

          L'utilité c'est de pouvoir faire des trucs un peu plus malin qu'une recherche par mot clé.

          Par exemple un des lien formel qui peut exister c'est le lien entre un document et son ou ses auteurs. Dans le cas ou tu cherche un document écrit par un auteur particulier, tu pourrait faire une requête du style "je cherche sur le web tous les document qu'a écrit cet auteur", sachant que l'auteur formel tu le connais par un de ses documents, ou tu peux le retrouver à partir de son nom.

          Tu peux aussi faire des trucs plus évolués, par exemple, si tu cherches de la documentation, mettons sur une RFC qui parle du protocole http, et que tu cherche d'autre type de doc comme un tutoriel ou des exemples, en admettant que les concepts de tutoriel ou d'exemple ayant pour sujets le même que ta RFC, tu peux faire une requête assez précise.

          Mais ça suppose que le web soit un peu plus organisé que des mots "à plat" comme actuellement.

          D'ou les outils qui permettent d'essayer d'extraire automatiquement ce type d'info (c'est relativement jouable pour l'auteur, un peu plus dur pour détecter que c'est un tutoriel ou une doc de ref, et encore plus dur de dire que le tutoriel et la doc de ref portent sur le même sujet).

          L'autre alternative c'est que les données soient générées à la création des documents, ce qui est jouable à condition que ça fasse pas chier l'auteur, donc que les outils soient adaptés.

          Pour les auteurs c'est souvent dans les meta données des documents genre traitement de texte ou bloggeur, pour les sujets tu as des tags sur les posts de blogs, pour ce qui existe déja, mais c'est pas forcément très standardisé actuellement, ni accessibles dans les langages formels du w3c.
        • [^] # Re: Lapin compris

          Posté par (page perso) . Évalué à 2.

          Si tu comprends l'anglais, le billet précèdent devrait t'éclairer (je l'espère):

          http://blogs.nuxeo.com/dev/2010/08/introducing-fise-the-rest(...)

          Pour les anglophobes, Google peut aider a comprendre l’idée générale:

          http://translate.google.com/translate?hl=en&sl=auto&(...)

          (Même si Google a encore plus de problèmes en grammaire que l'auteur original :)
    • [^] # Re: Lapin compris

      Posté par . Évalué à 2.

      C'est quoi les technologies sémantiques ? C'est quand on cherche cheval trouver aussi les résultats de "mammifère onguligrades" ?

      Aaaaah! Les technologies sémantiques, c'est quand on élimine la grammaire! Je crois que j'ai pigé!

      ------------> [ ]
  • # J'ai pas compris non plus.

    Posté par (page perso) . Évalué à 4.

    Les dépêches sur les machins java de la fondation Apache me font toujours penser que ces gens là se libre de la torture de pauvres diptères.

    J'ai pas compris concrètement à quoi servait ces machins (mis en oeuvre ou pas ?), je ne sais pas ce qu'est une application sémantique, pourtant ça à l'air important.

    C'est pour ça que j'aime pas java. Les gens qui en font sont tellement loin de moi et balance tellement de termes en pensant que l'on va comprendre que j'ai même pas l'impressiond'être dans la même vie.

    Et si je voulais lire un truc en ayant à cliquer sur des liens pour comprendre, j'irai sur Wikipedia. Ce serait super une dépêche informative en elle même.
    • [^] # Re: J'ai pas compris non plus.

      Posté par (page perso) . Évalué à 1.

      Ca sert à faire des moteurs de recherches sémantiques, ie. qui ne se contente pas de prendre tes mots clé au hasard et au mieux d'aller chercher les synonymes de ces mots clés.
      Ca sert à faire de la recherche sur du texte pour plein d'applications que je connais pas : résumé, doc technique, analyse marketing, etc...

      « Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker

    • [^] # Re: J'ai pas compris non plus.

      Posté par . Évalué à 1.

      Java et le blablabla sémantique sont deux choses différentes qui n'ont rien à voir et que faire le lien entre les deux est un peu débile et facile :)

      Les gens qui font des "systèmes un peu complexes avec tout pleins de trucs imbriqués et connectés entre eux dans tout les sens" sont souvent des gens qui utilisent Java, c'est tout.
      Ça ne fait pas de Java un truc super, ça ne fait pas non plus des "systèmes un peu complexes avec tout pleins de trucs imbriqués connectés entre eux dans tout les sens" des trucs plus compréhensible.

      C'est juste que c'est trop complexe pour être expliqué en quelques mots sauf à utiliser des termes techniques pour lesquels il va te falloir aller faire un tour sur wikipedia :)

      Le mieux à mon avis, c'est de proposer des éclaircissements, ou de payer un mec pour le faire à ta place :)
    • [^] # Re: J'ai pas compris non plus.

      Posté par (page perso) . Évalué à 6.

      Je te rassure je fais aussi énormément de python, et personne ne comprends rien quand j'en parle non plus :)

      Plus sérieusement :

      - Stanbol sert a trouver les noms de personne, lieux et organisations dans des textes en anglais (et bientôt aussi en français), rédigés avec un style journalistique (c'est la ou çà marche le mieux). Le but est de lier ces document automatiquement aux fiches Wikipedia de ces entités, et ainsi de pouvoir placer les documents sur une carte géographique ou thématique par exemple.

      - Stanbol utilise OpenNLP pour lire les phrases et essayer de comprendre (en partie) ce que les humain raconte

      - Stanbol utilise DBpedia.org (extraction structurée de Wikipedia) comme base de donnée de référence pour trouves les fiches des personnes, lieu et organisations célèbre.

      - Jena est une lib java qui permet entre autre de se connecter a DBpedia et d'autres bases de données du même genre qui utilisent toutes le standard RDF comme moyen d interopérabilité dans la manière de décrire et de s’échanger de telles données.

      - Hadoop est un logiciel pour faire du traitement de donnée en masse sur un cluster de plusieurs centaines ou milliers de machines: c'est très utilisé par tous les réseaux sociaux (facebook, twitter, linkedin) et les développeurs de moteurs de recherche (notamment Yahoo). Hadoop est une implementation libre d'une architecture appelée "MapReduce" décrite initialement par Google. Ca sert pour les gens qui doivent parser, analyser, filtrer ou indexer quotidiennement des teraoctets de données (logs, photos, email, pages webs, tweets, ...).

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.