Les mots sont à la mode alors j’en profite pour parler d’un projet intéressant de quelques mois d’age, pour sa sortie officielle : le dictionnaire des francophones réalisé avec l’institut international de la francophonie.
https://www.dictionnairedesfrancophones.org/
C’est un projet de dictionnaire structuré collaboratif, créé entre autre avec les données du wiktionnaire. Réalisé (entre autre ?) par le wikimédien Noé
On peut y consulter un mot comme motus.
Jusque là rien de très original, des dictionnaires comme ça on en a plutôt pas mal en consultation sur le net.
Ce qui est beaucoup plus original c’est la présence d’un point d’accès SPARQL pour faire des requêtes sur les données ! On a donc un graphe RDF structuré par un modèle de donnée documenté et des relations entre les mots et leurs formes, leur définition, leur étymologie …
La communauté du wiktionnaire liste des requêtes intéressantes sur cette page.
Quel est le prétexte à cette assez fruste introduction du projet des mois après sa sortie ? Une tentative de requête de plus pour trouver les suites de 5 lettres qui pourraient servir à un wordle francophone .
On peut discuter des résultats en commentaires, mais j’ai l’impression qu’il en manque :)
La prochaine fois, les données lexicale structurées de Wikidata.
# cliqué trop vite, il y a plein d’erreurs
Posté par Thomas Douillard . Évalué à 2.
[^] # Re: cliqué trop vite, il y a plein d’erreurs
Posté par gUI (Mastodon) . Évalué à 2.
Corrigé, merci.
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
# comme le capitaine
Posté par BAud (site web personnel) . Évalué à 3.
j'ai trouvé sympa le mot ad hoc, pouvez-vous dire mieux ? :p
[^] # Re: comme le capitaine
Posté par Thomas Douillard . Évalué à 2.
« mot had hoc »: voir « récursivité ».
[^] # Re: comme le capitaine
Posté par Papey . Évalué à 3.
"Récursivité" : voir "mot ad hoc".
# iel
Posté par Maderios . Évalué à 1.
J'ai testé iel
La définition Dans le Robert depuis 2021
Dans le Wiktionnaire depuis 2015
Commentaires
https://www.lemonde.fr/societe/article/2021/11/17/le-robert-confirme-l-ajout-du-pronom-iel-dans-son-edition-en-ligne_6102440_3224.html
https://tetu.com/2021/11/15/pronom-neutre-iel-dictionnaire-petit-robert-ligne/
https://www.ledevoir.com/societe/647937/malgre-la-polemique-le-robert-defend-l-ajout-du-mot-iel-dans-son-edition-en-ligne
https://www.ledevoir.com/culture/648207/langue-francaise-ce-iel-qui-derange-et-qui-degenre
--
Maderios
[^] # Re: iel
Posté par Colin Pitrat (site web personnel) . Évalué à 7.
Iel a été dans wikitionnaire avant d'être dans le petit Robert. Les dictionnaires sont basés sur l'usage avec des critères d'entrée des nouveaux mots différents (plus ou moins stricts).
En général, l'ordre d'entrée des nouveaux mots est wikitionnaire, Petit Robert, Larousse. Donc iel va probablement rejoindre le Larousse dans quelques années.
[^] # Re: iel
Posté par Lutin . Évalué à 4.
Ce qui est un peu stupide, non pas pour les mots ajoutés, mais pour les mots enlevés. Si j'ai besoin de chercher un mot dans un dictionnaire, il y a de grandes chances qu'il soit peu utilisé.
[^] # Re: iel
Posté par Maderios . Évalué à 0.
Certains sont "supprimés" par l'Académie mais encore utilisés. Le plus comique est la liste des mots considérés comme "nouveaux". Les vieux messieurs de l'Académie Française semble vivre dans un monde parallèle.
https://www.academie-francaise.fr/le-dictionnaire-la-9e-edition/exemples-de-mots-nouveaux
[^] # Re: iel
Posté par Benoît Sibaud (site web personnel) . Évalué à 4.
"Nouveaux" depuis la 8e édition (1932-1935) du dictionnaire, donc oui sur la technologie par exemple, des choses ont changé (en fait tout a plus changé que l'Académie française…)
[^] # Re: iel
Posté par Lutin . Évalué à 3.
Je ne parlais pas de l'académie mais des dictionnaires types Lablonde ou le Petit Roger.
# SPARQL tout rouillé
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 4.
Merci pour ce lien, j'adore.
Par contre, ça m'a fait voir à quel point mon SPARQL est tout rouillé :D
Bon, j'arrive quand même à extraire les mots à connotation péjorative du Burkina Faso (oui, je suis un grand gamin) :D
D'ailleurs, au passage, je n'ai rien trouvé pour la France, c'est limité à la Francophonie hors hexagone ou je suis vraiment à la ramasse ?
[^] # Re: SPARQL tout rouillé
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 4.
J'avais oublié les définitions :)
[^] # Re: SPARQL tout rouillé
Posté par pamputt . Évalué à 4.
Il me semble que lorsque rien n'est indiqué au niveau du pays sur le DDF (Dictionaire des francophones), c'est que par défaut cela fait référence au français de France. Donc si on ne veux garder que les mots du français de France, il faudrait exclure tous les pays de la requête.
# DBNary
Posté par raphj . Évalué à 7. Dernière modification le 13 février 2022 à 18:05.
Ça fait vachement penser à DBnary, qui est une base de données RDF (qu'on peut interroger avec Sparql) extraite du wiktionaire. Un effort de l'équipe GETALP au LIG (j'ai travaillé dessus en tant que stagiaire il y a quelques années).
http://kaiko.getalp.org/about-dbnary/
[^] # Re: DBNary
Posté par pamputt . Évalué à 4.
Oui, c'est assez similaire à DBnary au niveau de la possibilité de requêter le Wiktionnaire. Une des différences avec le DFF, c'est que les données du DDF sont issues entre autres du Wiktionnaire mais aussi d'autres dictionnaires libres de français (voir la section "Présentation des ressources" sur cette page).
# Un dictionnaire participatif
Posté par samydb . Évalué à 2. Dernière modification le 13 février 2022 à 18:07.
Un dictionnaire participatif…
Enfin !
Participez/participons donc, car cette langue, qui est la vôtre/nôtre, c'est un bien commun et parce qu'en participant, ce dictionnaire rendra compte de vos/nos usages !
[^] # Re: Un dictionnaire participatif
Posté par Misc (site web personnel) . Évalué à 7.
Il y a le projet wiktionnaire depuis des années, je pige pas trop pourquoi "enfin".
[^] # Re: Un dictionnaire participatif
Posté par pamputt . Évalué à 2.
Depuis 2004 pour la version francophone, donc oui ça fait quelques années déjà.
# Utilité ?
Posté par 🚲 Tanguy Ortolo (site web personnel) . Évalué à 9.
C'est un peu provocateur, mais tout cela est-il vraiment utile ? Le Web sémantique, c'est quelque chose dont j'ai entendu parler il y a quoi, douze ans je crois. Ça a l'air très intéressant, très propre, tout ce qu'on veut, mais ça m'a justement toujours paru très théorique.
Ce projet intéressant semble un excellent usage des concepts d'ontologie, de relations sémantiques ou je ne sais quoi. D'où ma question : est-ce que vous arrivez à imaginer des usages concrets pour cela ? Autre que de permettre à des chercheurs de chercher des choses à chercher, évidemment.
C'est une question sérieuse, pas une pure provocation, je serait vraiment intéressé d'imaginer ce genre de truc être vraiment utile, si c'est possible.
[^] # Re: Utilité ?
Posté par Thomas Douillard . Évalué à 4.
Il y a pas mal de niveau de réponse à donner mais juste rapidement le matin comme ça le domaine biomédical semble être un vrai utilisateur : https://www.uniprot.org/
C’est pas forcément étonnant parce qu’historiquement c’est un des gros demandeur de trucs genre système experts qui pourraient modéliser de la connaissance par des règles logique.
Après, il y a plusieurs niveau de réponse.
* Le côté « url comme système de nom » Wikidata est un utilisateur.
* Le côté « bases de données graphes » semble avoir quand même décollé. Genre Facebook ou Google ont le leur, c’est une des bases des infos données par Google sur certains sujets quand on fait une recherche. Facebook a débauché les employés de Blazegraph, le moteur de Wikidata …
* Le côté « base de données réparties » / interopérabilité fonctionne, on peut relativement facilement écrire du SPARQL qui fait intervenir plusieurs endpoint différent par exemple.
* Le côté « raisonnement » est intéressant dans certain cas genre la maintenance d’ontologie complexes, mais a sûrement peu d’utilisation pour le commun des programmeurs
Il y aurait sûrement d’autres points à aborder. On commence à avoir pas mal de endpoint sparql maintenant, utilisés par exemple sur Wikipédia …
[^] # Re: Utilité ?
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 4.
Ca dépend du cas d'usage.
Par exemple, sur l'ontologie FOAF, certaines inférences permettent de déterminer un graphe de relations sans qu'elles ne soient forcément explicites.
On peut imaginer Facebook s'en servir mais pas que :)
[^] # Re: Utilité ?
Posté par Dring . Évalué à 4.
Ca semble quand même limité, non ?
A propos de Facebook, grosso modo ils ont créé leur propre modèle de requêtage (GraphQL), qui a un certain succès, et n'ont pas investi un rond dans SPARQL. Et autant je vois GraphQL fleurir un peu partout (et ça sent l'effet de mode), autant SPARQL n'attire pas les foules, et reste cantonné à des niches.
Le nom n'aide pas : SPARQL fait beaucoup penser à Apache Spark, qui a connu son heure de gloire et semble déjà sur le déclin. Ce n'est pas vraiment du même domaine, mais c'est aussi utilisé pour manipuler de la donnée donc prête à confusion pour le néophyte.
Et je trouve la syntaxe particulièrement foireuse. A la fin, tu dois connaître XML, RSS, SPARQL, tout ça pour être capable de lancer une requête qui cherche "toto" sur 3 sites web… On peut pas dire que l'effort de démocratisation soit visible. Tim a oublié les premiers jours du HTML (rendez-moi la balise BLINK ! :-)).
En entreprise, je vois une grosse mouvance pour gérer l'ontologie, avoir une stratégie autour de la data, mais ça reste uniquement théorique, avec beaucoup d'argent dépensé dans des outils qui ne tiennent jamais leurs promesses car l'effort humain à fournir est trop important, la maintenance est pratiquement impossible et l'existant trop lourd / trop moche / trop dispersé et incohérent.
Au final, les seuls projets qui donnent des résultats concrets sont les trucs bourrins du type "on met tout dans un lac de données et dermeden-sie sich". Avec un peu de normalisation, mais pas trop. Un peu de contrôle de qualité, mais pas trop.
[^] # Re: Utilité ?
Posté par Thomas Douillard . Évalué à 3.
Je comprends pas la référence à RSS, tu confonds avec RDF ? XML on s’en bas les couilles, il y a juste la représentation de certains types de données genre les dates concrètement dont il y a besoin. Sinon pour manipuler du RDF, qui n’est globalement pas grand chose de plus qu’un ensemble de triplets, il y a des représentations super simples qui sont des listes de ces triplets sous forme textuelles.
Apache Spark, c’est plus récent que SPARQL.
La syntaxe de SPARQL, on aime ou on aime pas mais elle n’est pas pour autant pas particulièrement complexe. C’est pas tellement comparable SPARQL et GraphQL question expressivité par contre, SPARQL est largement plus puissant.
[^] # Re: Utilité ?
Posté par Thomas Douillard . Évalué à 3.
Sur la gestion des modèles, oui, c’est sur que c’est un problème difficile. Mais c’est intrinsèquement difficile …
Les technos du web sémantique, on peut s’en servir comme fondation et contribution à résoudre ce problème. Mais il restera intrinsèquement difficile quand même :) Sans fondations pour l’attaquer, ça n’aidera pas.
On peut aussi s’en servir pour résoudre des problèmes plus simples. Comme fournir un moteur de requête à Wikidata ou faire un système de métadonnées pour les fichiers de Wikimédia Commons.
[^] # Re: Utilité ?
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 3.
Je ne peux que te conseiller d'aller regarder le type de requêtes que l'on peut faire en SPARQL sur FactForge.
On peut faire des trucs assez complexes quand même avec des sous-requêtes, des agrégations, des comptages.
Alors oui, je ne te cache pas que certaines requêtes sont pas faciles à lire mais quand on a compris que, par exemple
Ce sont juste trois contraintes sur des triplets, ça devient plus simple.
Ici, on veut que loc ait country pour pays (le prédicat dbo:country et la classe dbo:Country, a étant un raccourci pour est un objet de la classe) et que country_name soit son label (skos:prefLabel).
[^] # Re: Utilité ?
Posté par Thomas Douillard . Évalué à 6.
Oui d’ailleurs pour présenter SPARQL à des matheux, un problème de maths : résoudre le système d’équation { x-y+z=4 , x + y - z = 0 } avec x, y, z dans l’intervalle entier [1,5]. C’est enfantin :
Sur le service de requête de Wikidata ça donne ça et ça résoud le problème.
Le « values » permet ici de donner les valeurs possibles pour les variables, les « filter » permettent d’exprimer les contraintes. Présenter ensuite les contraintes sur les triplets, (les « graph pattern » dans le jargon) comme des possibilité de donner des valeurs aux variables à partir des triplets du graphe comme tu le fait et on peut démarrer …
Le reste c’est juste des agrégations comme en SQL, des unions / différences ou ce genre de chose, et des trucs spécifiques au graphe genre des chemins qui ne sont que des motifs de graphe un peu plus complexe, genre trouver les parents quand on a une propriété papa et une propriété maman avec un genre de regex qui représente un motif de chemin sur les arêtes du graphe
(en utilisant le préfixe « ex: » pour la coloration syntaxique)
ou pour lister tous les ancêtres
et des raccourcis d’écriture, genre au lieux d’écrire
pour trouver les hommes de France on met
ou pour trouver les personnes d’un pays européen en démocratie
sparql
?personne ex:paysnationalité [ ex:continent ex:europe ; ex:régime ex:démocratie ] .
qui raccourcit quelque chose comme
[^] # Re: Utilité ?
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 3.
Sans trop parler de mon métier d'avant, disons que c'était utilisé dans certains logiciels de collecte et d'analyses d'informations dans le domaine du renseignement.
[^] # Re: Utilité ?
Posté par samydb . Évalué à 3. Dernière modification le 14 février 2022 à 09:56.
Je n'ose imaginer …
Par exemple, si j'écris : "Cette pizza, c'est de la bombe !", ça fait tilt ?
[^] # Re: Utilité ?
Posté par barmic 🦦 . Évalué à 2.
Vu le peu d'effet du Jam Echelon Day il y a 20 ans, je doute que ça fonctionne comme ça.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Utilité ?
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 2.
:D
Non, ça fonctionne pas comme ça… :)
Il n'y a pas trop d'ambiguïtés ici.
[^] # Re: Utilité ?
Posté par samydb . Évalué à 4.
Les données sémantiques sont destinées (typiquement) à intégrer des dictionnaires. L'encodage sémantique, c'est ce qui fait la différence dans les applications de TALN (traitement automatique du langage naturel. C'est utile, notamment, pour désambiguïser des énoncés et permettre de choisir entre plusieurs interprétations, dans un contexte concret donné. C'est aussi très coûteux à coder. Et le niveau de complexité est tel que c'est un volet du traitement des discours qui reste à la traîne. Le corrollaire, c'est la question de la qualité des contributions : qui va contribuer (avec quelles compétences ?), qui va filtrer, contrôler, formaliser ?
[^] # Re: Utilité ?
Posté par Blackknight (site web personnel, Mastodon) . Évalué à 3.
En complément, elles permettent aussi d'enrichir certains process comme l'extraction d'entités nommées.
Par exemple, Gate permet de travailler avec les ontologies directement (cf. là) et d'utiliser un triplestore pour le marquage (cf. ici).
[^] # Re: Utilité ?
Posté par Misc (site web personnel) . Évalué à 6.
Tout ce qui rentre dans l'apprentissage statistique (eg, machine learning) ou simplement l'analyse de texte.
Par exemple, si tu veux faire de l'analyse de sentiment sur une grande quantité de texte sans avoir à tout lire, pouvoir dire "il y a tant de mot péjoratif" peut être un indicateur (de la grogne des utilisateurs, de l'ambiance d'un groupe, etc).
[^] # Re: Utilité ?
Posté par GaMa (site web personnel) . Évalué à 4.
À coupler à https://linuxfr.org/news/compter-automatiquement-les-mots-prononces-sur-les-chaines-d-information-continue ?
Matthieu Gautier|irc:starmad
# Application concrète : les ressources humaines
Posté par samydb . Évalué à 6.
Autre application : l'indexation et les langages contrôlés. Une application qui se décline en particulier dans les offres d'emploi ou, plus généralement dans les métiers des ressources humaines.
Exemple : le "technicien de piquet" / "technicien d'astreinte". Le premier, en Suisse (*), le second (notamment) en France.
La mise en correspondance des qualifications, malgré les divergences dans les noms de fonctions est un enjeu concret pour les RH et une application "utile".
[^] # Re: Application concrète : les ressources humaines
Posté par Thomas Douillard . Évalué à 2.
Les jeux de données multilingues, entre autre. L’UE publie par exemple un point d’accès SPARQL à propos de ses publications.
J’ai bidouillé à l’aide d’un mélange de leur assistant de création de requête et d’écriture perso (avec exploration du jeu de donnée et l’ontologie au travers de requêtes sparql) une requête qui trouve les rapports en français publié par l’UE sur la protection de la faune et leur date de la publication de leur première version, par exemple
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.