Plusieurs projets sémantiques incubés chez Apache

Posté par Stefane Fermigier (site web personnel) le 11 janvier 2011 à 20:42. Modéré par Xavier Teyssier.

Étiquettes :

jan.

2011

La fin de l’année dernière a été riche en nouvelles incubations de projets liés aux technologies sémantiques au sein de la Fondation Apache.

Le projet FISE, annoncé fin août sur LinuxFr, a été intégré dans un projet plus vaste baptisé Apache Stanbol, en incubation depuis novembre 2010.

Stanbol est le principal résultat du projet de R&D européen IKS, qui vise à produire une « stack » de services permettant d’améliorer les solutions actuelles de gestion de contenu par des technologies sémantiques : « semantic lifting » (extraction d'information sémantique à partir d'informations « brutes »), « linked open data », raisonnement et présentation contextuelle

D’autres projets, déjà bien établis, sont également passés récemment en incubation chez Apache :

openNLP, qui produit, en Java, des outils pour l’analyse du texte à base de machine learning ;
Et Jena, base de données RDF et framework Java pour le développement d’applications sémantiques développées à l’origine par le HP Lab.

Dans un blog récent, « Mining Wikipedia with Hadoop and Pig for Natural Language Processing », Olivier Grisel, l’un des principaux développeurs de FISE et Stanbol, fait la liaison entre ces projets, ainsi qu’avec Hadoop, un autre projet Apache, consacré au calcul distribué. Ces résultats exploitent également des résultats du projet SCRIBO.

Aller plus loin

LeMagIT - Sémantique: Fise séduit les éditeurs et part chez Apache (93 clics)
Blog d'Olivier Grisel (53 clics)
Apache Stanbol (77 clics)
Apache openNLP (47 clics)
Apache Jena (57 clics)
Le project SCRIBO (98 clics)

# Lapin compris

Posté par gUI (Mastodon) le 11 janvier 2011 à 21:42. Évalué à 7.

Oui alors là, j'ai beau relire, j'ai rien compris.

Certes, j'ai pas encore cliqué sur les liens, mais on pourrait avoir des infos grossière, "schématiques" pour savoir de quoi il s'agit ?

C'est quoi les technologies sémantiques ? C'est quand on cherche cheval trouver aussi les résultats de "mammifère onguligrades" ?
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
- [^] # Re: Lapin compris
  
  Posté par moudj le 11 janvier 2011 à 21:47. Évalué à 2.
  
  ou un truc qui te transforme le mot pile en mettant stack à la place, mais entre guillemets je vous prie :-)
- [^] # Re: Lapin compris
  
  Posté par Sébastien Wilmet (site web personnel, Mastodon) le 11 janvier 2011 à 23:23. Évalué à 1.
  
  Un petit tour sur Web sémantique et on comprend déjà un peu mieux :
  
  « Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C[1]. »
  - [^] # Re: Lapin compris
    
    Posté par Kerro le 11 janvier 2011 à 23:47. Évalué à 4.
    
    Ah oui, c'est tout de suite mieux... sauf que je n'ai toujours pas compris.
    
    Le Web sémantique est entièrement fondé sur le Web et ne remet pas en cause ce dernier. Le Web sémantique s'appuie donc sur la fonction primaire du Web « classique » : un moyen de publier et consulter des documents. Mais les documents traités par le Web sémantique contiennent non pas des textes en langage naturel (français, espagnol, chinois, etc.) mais des informations formalisées pour être traitées automatiquement.
    Ah ben voilà. En français c'est tout de suite plus clair.
    
    Par contre je n'ai absolument pas compris l'utilité de la chose. Pour une fois, je vais m'abtiendre (du verbe abstenter) de dire du mal.
    - [^] # Re: Lapin compris
      
      Posté par thoasm le 12 janvier 2011 à 01:59. Évalué à 6.
      
      L'utilité c'est de pouvoir faire des trucs un peu plus malin qu'une recherche par mot clé.
      
      Par exemple un des lien formel qui peut exister c'est le lien entre un document et son ou ses auteurs. Dans le cas ou tu cherche un document écrit par un auteur particulier, tu pourrait faire une requête du style "je cherche sur le web tous les document qu'a écrit cet auteur", sachant que l'auteur formel tu le connais par un de ses documents, ou tu peux le retrouver à partir de son nom.
      
      Tu peux aussi faire des trucs plus évolués, par exemple, si tu cherches de la documentation, mettons sur une RFC qui parle du protocole http, et que tu cherche d'autre type de doc comme un tutoriel ou des exemples, en admettant que les concepts de tutoriel ou d'exemple ayant pour sujets le même que ta RFC, tu peux faire une requête assez précise.
      
      Mais ça suppose que le web soit un peu plus organisé que des mots "à plat" comme actuellement.
      
      D'ou les outils qui permettent d'essayer d'extraire automatiquement ce type d'info (c'est relativement jouable pour l'auteur, un peu plus dur pour détecter que c'est un tutoriel ou une doc de ref, et encore plus dur de dire que le tutoriel et la doc de ref portent sur le même sujet).
      
      L'autre alternative c'est que les données soient générées à la création des documents, ce qui est jouable à condition que ça fasse pas chier l'auteur, donc que les outils soient adaptés.
      
      Pour les auteurs c'est souvent dans les meta données des documents genre traitement de texte ou bloggeur, pour les sujets tu as des tags sur les posts de blogs, pour ce qui existe déja, mais c'est pas forcément très standardisé actuellement, ni accessibles dans les langages formels du w3c.
    - [^] # Re: Lapin compris
      
      Posté par Olivier Grisel (site web personnel) le 12 janvier 2011 à 02:08. Évalué à 2.
      
      Si tu comprends l'anglais, le billet précèdent devrait t'éclairer (je l'espère):
      
      http://blogs.nuxeo.com/dev/2010/08/introducing-fise-the-rest(...)
      
      Pour les anglophobes, Google peut aider a comprendre l’idée générale:
      
      http://translate.google.com/translate?hl=en&sl=auto&(...)
      
      (Même si Google a encore plus de problèmes en grammaire que l'auteur original :)
- [^] # Re: Lapin compris
  
  Posté par Maclag le 12 janvier 2011 à 03:41. Évalué à 2.
  
  C'est quoi les technologies sémantiques ? C'est quand on cherche cheval trouver aussi les résultats de "mammifère onguligrades" ?
  
  Aaaaah! Les technologies sémantiques, c'est quand on élimine la grammaire! Je crois que j'ai pigé!
  
  ------------> [ ]
  - [^] # Re: Lapin compris
    
    Posté par gUI (Mastodon) le 12 janvier 2011 à 12:01. Évalué à 1.
    
    Elle est où l'erreur de grammaire ?
    En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
# J'ai pas compris non plus.

Posté par monde_de_merde le 11 janvier 2011 à 23:19. Évalué à 4.

Les dépêches sur les machins java de la fondation Apache me font toujours penser que ces gens là se libre de la torture de pauvres diptères.

J'ai pas compris concrètement à quoi servait ces machins (mis en oeuvre ou pas ?), je ne sais pas ce qu'est une application sémantique, pourtant ça à l'air important.

C'est pour ça que j'aime pas java. Les gens qui en font sont tellement loin de moi et balance tellement de termes en pensant que l'on va comprendre que j'ai même pas l'impressiond'être dans la même vie.

Et si je voulais lire un truc en ayant à cliquer sur des liens pour comprendre, j'irai sur Wikipedia. Ce serait super une dépêche informative en elle même.
- [^] # Re: J'ai pas compris non plus.
  
  Posté par Ontologia (site web personnel) le 11 janvier 2011 à 23:46. Évalué à 1.
  
  Ca sert à faire des moteurs de recherches sémantiques, ie. qui ne se contente pas de prendre tes mots clé au hasard et au mieux d'aller chercher les synonymes de ces mots clés.
  Ca sert à faire de la recherche sur du texte pour plein d'applications que je connais pas : résumé, doc technique, analyse marketing, etc...
  « Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker
  - [^] # Re: J'ai pas compris non plus.
    
    Posté par 🚲 Tanguy Ortolo (site web personnel) le 12 janvier 2011 à 00:35. Évalué à 9.
    
    Ça rapporte aussi plein de points au business loto.
- [^] # Re: J'ai pas compris non plus.
  
  Posté par Victor le 12 janvier 2011 à 02:18. Évalué à 1.
  
  Java et le blablabla sémantique sont deux choses différentes qui n'ont rien à voir et que faire le lien entre les deux est un peu débile et facile :)
  
  Les gens qui font des "systèmes un peu complexes avec tout pleins de trucs imbriqués et connectés entre eux dans tout les sens" sont souvent des gens qui utilisent Java, c'est tout.
  Ça ne fait pas de Java un truc super, ça ne fait pas non plus des "systèmes un peu complexes avec tout pleins de trucs imbriqués connectés entre eux dans tout les sens" des trucs plus compréhensible.
  
  C'est juste que c'est trop complexe pour être expliqué en quelques mots sauf à utiliser des termes techniques pour lesquels il va te falloir aller faire un tour sur wikipedia :)
  
  Le mieux à mon avis, c'est de proposer des éclaircissements, ou de payer un mec pour le faire à ta place :)
- [^] # Re: J'ai pas compris non plus.
  
  Posté par Olivier Grisel (site web personnel) le 12 janvier 2011 à 02:25. Évalué à 6.
  
  Je te rassure je fais aussi énormément de python, et personne ne comprends rien quand j'en parle non plus :)
  
  Plus sérieusement :
  
  - Stanbol sert a trouver les noms de personne, lieux et organisations dans des textes en anglais (et bientôt aussi en français), rédigés avec un style journalistique (c'est la ou çà marche le mieux). Le but est de lier ces document automatiquement aux fiches Wikipedia de ces entités, et ainsi de pouvoir placer les documents sur une carte géographique ou thématique par exemple.
  
  - Stanbol utilise OpenNLP pour lire les phrases et essayer de comprendre (en partie) ce que les humain raconte
  
  - Stanbol utilise DBpedia.org (extraction structurée de Wikipedia) comme base de donnée de référence pour trouves les fiches des personnes, lieu et organisations célèbre.
  
  - Jena est une lib java qui permet entre autre de se connecter a DBpedia et d'autres bases de données du même genre qui utilisent toutes le standard RDF comme moyen d interopérabilité dans la manière de décrire et de s’échanger de telles données.
  
  - Hadoop est un logiciel pour faire du traitement de donnée en masse sur un cluster de plusieurs centaines ou milliers de machines: c'est très utilisé par tous les réseaux sociaux (facebook, twitter, linkedin) et les développeurs de moteurs de recherche (notamment Yahoo). Hadoop est une implementation libre d'une architecture appelée "MapReduce" décrite initialement par Google. Ca sert pour les gens qui doivent parser, analyser, filtrer ou indexer quotidiennement des teraoctets de données (logs, photos, email, pages webs, tweets, ...).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.