Sortie de Datafari 6.2, moteur de recherche open source pour entreprise avec de l'IA

Posté par Datafarian00 le 15 juin 2025 à 09:19. Édité par Benoît Sibaud. Modéré par Pierre Jarillon. Licence CC By‑SA.

Étiquettes :

juin

2025

Nous (NdM: France Labs qui porte datafari.com) sommes fiers de vous annoncer la mise à disposition de Datafari 6.2

Pour faire court, la grosse nouveauté vient de l’intégration simplifiée des outils tiers d’IA générative. Ces travaux ont été en partis financés par le projet Européen NGI Search Neural Datafari, qui a permi du coup également d'ajouter la recherche vectorielle bout en bout au projet Apache Solr.

Pour rappel, Datafari est une solution de recherche pour entreprise. Où que les connaissances se trouvent et sous quelque format que ce soit, elle permet aux employés de retrouver les données utiles.

Et désormais grâce à l’IA, de « discuter » avec ses connaissances. Plus concrètement, il s’agit de récupérer et d’indexer les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et de permettre aussi de chercher des documents mais aussi d’utiliser une IA générative pour les questionner.

Pour cette dépêche, on se concentre sur la version libre et open source (mais il y a aussi d’autres nouveautés sur la version entreprise propriétaire).

Titre de l'image

Notre dernière dépêche datant de… Datafari 5.3, voici Les nouveautés et changements principaux par rapport à cette dernière:

Ajout d’un module RAG (Retrieval Augmented Generation)
Passage à Solr 9.8 avec recherche vectorielle
Ajout d’un module d’appel de LLM à l’indexation
Gestion automatique du chunking des documents indexés
Création d’un module autonome d’analytics au lieu de Zeppelin pour optimiser les ressources
Création d’un regex connector à l’indexation
Refonte technique de l’interface graphique, en React
Passage à la V2 des API REST de Datafari
Prototype d’agent autonome pour héberger en local un modèle d’IA
Du bugfix de partout

Comment démarrer ?

Pour voir à quoi ça ressemble, nous avons téléversé une courte vidéo de démonstration. Pour démarrer tout de suite, le mieux est d’aller lire le quick start guide. Nous mettons gratuitement à disposition notre documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement. Attention, les modules d’IA que nous avons développés, nécessitent la disponibilité d’un serveur exposant un modèle d’IA compatible. De base, Datafari n’héberge pas localement une IA. Le plus simple pour débuter est de le connecter par exemple à openAI pour se faire la main, et ensuite de passer à des modèles locaux hébergés par vos soins ou par des partenaires.

Pour rappel, voici les principales fonctionnalités de Datafari en tant que moteur de recherche :

Que peut‐on faire avec Datafari ?

Datafari est un moteur de recherche pour entreprise enrichi à l’IA : membres de la famille des outils de gestion des connaissances, les solutions de recherche fédèrent les connaissances en analysant et indexant tous les documents d’une organisation, aussi bien leur contenu que leurs métadonnées. Pour cela, le moteur de recherche doit être multi‐sources, multi‐formats, et gérer la sécurité. En outre, il faut permettre l’administration de l’outil.

Dans la version libre, on peut, côté admin :

Administrer les connecteurs aux sources de données vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Confluence, Alfresco et les partages de fichiers ;
Gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête ;
Activer les modules de recherche vectorielle et de RAG
Mettre en avant des documents pour des requêtes identifiées ;
Créer des utilisateurs et leur assigner des rôles ;
Voir des statistiques d’usage de l’outil ;
Créer l’équivalent de Google AdWords (appelés promoliens) ;
Gérer des synonymes ;
Plein d’autres choses accessibles depuis la documentation Confluence.

Côté utilisateur, on peut :

Chercher de façon simple ou avancée ;
Prévisualiser les résultats ;
« Discuter » avec ses documents via le module RAG
Bénéficier de la correction orthographique et de l’auto‐complétion ;
Choisir et utiliser des facettes pour filtrer les résultats ;
Mettre des résultats dans un panier de favoris ;
Créer des alertes par courriel quand des documents modifiés ou nouveaux correspondent à une requête.

Et ensuite ?

Pour le reste de 2025, nous allons continuer à ajouter des fonctionnalités se basant sur les IA génératives pour multiplier les possibilités.

Des commentaires ?

Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez-en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ha et si vous êtes déjà un utilisateur, n’hésitez pas à en parler sur le web !

Aller plus loin

Page de téléchargement (168 clics)
Accéder au code source (80 clics)
Le forum de discussion (47 clics)
La documentation (70 clics)
Le site officiel (256 clics)
Image Docker (46 clics)
La précédente dépêche sur Datafari (37 clics)

# liens pour le jargon

Posté par Earered le 15 juin 2025 à 10:38. Évalué à 6.
- RAG
- Recherche vectorielle
- [^] # Re: liens pour le jargon
  
  Posté par Datafarian00 le 19 juin 2025 à 10:46. Évalué à 2.
  
  Merci pour les liens, effectivement cela manquait pour la compréhension !
# Existe-t-il un connecteur web?

Posté par pipof le 15 juin 2025 à 11:58. Évalué à 9.

Bonjour,

Après avoir durant des années utilisé le moteur htdig (https://fr.wikipedia.org/wiki/Ht-//Dig) puis UDMSearch / mnoGoSerach (https://fr.wikipedia.org/wiki/MnoGoSearch), on se retrouve depuis son abandon en situation d'impasse dans le monde Open Source… Ils faisaient pourtant parfaitement le job : quelques millions de pages indexées, réponse en 0,2s. Une machine. Une!

Datafari (référence au fichier Safari??) que je découvre aujourd'hui dispose-t-il d'un connecteur "web"?
On lui passe la liste des URLs à aller crawler, et il y va?
Dans l'affirmative et sous réserve de pouvoir le paramétrer un peu (éviter d'aller crawler les calendriers jusqu'en 2100…), il pourrait être sacrément intéressant.

Le couplage à une ia générative finira par être un plus, mais il y a tellement de conditions préalables que la validation risque de prendre "un certain temps"…

Merci de vos lumières.

Christophe.
- [^] # Re: Existe-t-il un connecteur web?
  
  Posté par Datafarian00 le 19 juin 2025 à 10:24. Évalué à 2.
  
  Bonjour Christophe,
  
  Oui Datafari CE possède un connecteur web auquel il faut transmettre la liste des URLs. La doc détaillée se trouve sur le site d'Apache ManifoldCF pour savoir ce qui peut être fait:
  
  https://manifoldcf.apache.org/release/release-2.28/en_US/end-user-documentation.html#webrepository
  
  Nous avons complété ce connecteur et la doc avec quelques informations supplémentaires que vous trouverez ici:
  
  https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/225902595/Web+connector
  
  Attention cependant, Datafari n'a pas pour but de remplacer un outil dédié au crawl web massif comme un Apache Nutch et Apache StormCrawler, chacun sa spécialité :)
  - [^] # Re: Existe-t-il un connecteur web?
    
    Posté par pipof le 20 juin 2025 à 13:19. Évalué à 1.
    
    Bonjour,
    
    Et merci pour ces précisions.
# Éleveur de subvention : plus qu'un métier, une passion

Posté par devnewton 🍺 (site web personnel) le 17 juin 2025 à 09:50. Évalué à 6.

financés par le projet Européen NGI

Pourquoi l'Europe finance du fauxpensource?

Ce post est offensant ? Prévenez moi sur https://linuxfr.org/board
- [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
  
  Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 17 juin 2025 à 09:52. Évalué à 6.
  
  Parce qu'il y a des gens dont c'est le métier d'être chasseur de prime et qui se débrouillent pour que ça soit leur boite qui récupère l'argent des subventions.
  
  Je n’ai aucun avis sur systemd
- [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
  
  Posté par lolop (site web personnel) le 17 juin 2025 à 10:24. Évalué à 4.
  
  Dans leur dépot github, c'est sous licence "Apache License Version 2.0, January 2004"
  
  Votez les 30 juin et 7 juillet, en connaissance de cause. http://www.pointal.net/VotesDeputesRN
  - [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
    
    Posté par devnewton 🍺 (site web personnel) le 17 juin 2025 à 10:41. Évalué à 7.
    
    Sur leur page Pricing, on voit que c'est de l'opensource as a demo : des fonctions essentielles (sécurité) ne sont pas libres.
    
    Beaucoup d'entreprises veulent profiter de la réputation de l'opensource pour vendre des solutions privatrices : elles me font perdre mon temps et elles siphonnent des fonds publics.
    
    Ce post est offensant ? Prévenez moi sur https://linuxfr.org/board
    - [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
      
      Posté par Datafarian00 le 19 juin 2025 à 10:44. Évalué à 1.
      
      Même si là encore vous prévenez en PS que votre post est une grosse co…rie, je vais préciser car j'ai peur que certains lecteurs ne prennent pas attention à cette précision en bas de votre commentaire.
      
      La sécurité est également présente dans la version CE, modulo un aspect: le respect des permissions d'accès aux documents sources indexés. Le mode TLS et les certificats sont bien présents également dans la version CE (https). Donc tout scénario d'usage qui ne nécessite pas de gérer des documents dont les droits accès changeraient par utilisateur, est utilisable directement avec la version open source.
      
      Et pour aller plus loin, il reste du coup deux choix: soit passer par la version EE (et financer ainsi nos activités de R&D qui sont en grande partie reversées dans la version CE), soit forker la version CE et y ajouter un module de gestion des droits d'accès.
      - [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
        
        Posté par BAud (site web personnel) le 19 juin 2025 à 14:28. Évalué à 3. Dernière modification le 19 juin 2025 à 14:31.
        
        soit passer par la version EE (et financer ainsi nos activités de R&D qui sont en grande partie reversées dans la version CE)
        
        Dave relève principalement qu'un modèle plus apprécié est :
        
        version CE développée avec les dernières évolutions et contributions directes, ce qui permet d'impliquer des contributeurs externes (au besoin dans des branches dédiée)
        
        version EE intégrée à partir version CE, éventuellement avec des greffons supplémentaires (non structurant au fonctionnement nominal et principal, apport de valeur ajoutée métier spécifique…) et apportant un support — potentiellement — plus restreint en terme de plateformes de déploiement prises en charge et validées
        
        soit forker la version CE
        
        pas besoin de forker si tout le monde peut travailler sur la version en cours de dév' et à jour.
        
        C'est la différence de modèle entre
        
        (feu) OpenOffice.org à l'époque de Sun : IBM, Suse et consors ramaient à publication pour ajouter leurs patchs pour Go-OOo retenue par toutes les distributions Linux à l'époque…
        
        et LibreOffice.org : contribution directe, plus efficace car impliquant plus de monde directement sur la version en cours plutôt que la version précédemment publiée, capacité à mobiliser plus de 500 personnes sur un an dès le début
        
        Chacun son modèle ;-)
        
        [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
        
        Posté par Datafarian00 le 19 juin 2025 à 15:02. Évalué à 2.
        
        Et oui en effet, chacun son modèle. Ce serait mieux d'avoir une boule de cristal au démarrage d'un projet open source, pour savoir quel modèle permettrait de le rendre autonome et pérenne, mais je n'ai pas un tel objet en ma possession (ou alors je l'utilise mal).
        
        Le sujet des modèles d'affaire pour l'open source reste un sujet chaud, avec régulièrement des interventions et réflexions sur ce thème, par exemple à OSXP ou à l'Open Source Founders Summit.
  - [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
    
    Posté par Datafarian00 le 19 juin 2025 à 10:29. Évalué à 1.
    
    En effet c'est correct, Datafari CE est en licence Apache v2, même si ça limite du coup les librairies qu'on peut y intégrer avec les incompabilités entre certaines licences.
- [^] # Re: Éleveur de subvention : plus qu'un métier, une passion
  
  Posté par Datafarian00 le 19 juin 2025 à 10:26. Évalué à 1.
  
  La première fois que j'ai lu votre commentaire, je l'avais mal pris, mais je n'avais pas vu votre post scriptum "Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement." :P
# AI ?

Posté par ckiller le 27 juin 2025 à 22:16. Évalué à 2.

En effet, c'est non libre, mais pas si chère que cela.

Est-ce qu'on peut en savoir plus sur le RAG et l'IA utilisé ?

Quels types de endpoints sont supportés ?

je n'ai d'intéressant dans les docs
https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/3931832326/RAG+and+others+AI-powered+features+-+Recap

j'ai vu que vous pouvez aussi "clouder" de la puissance GPU, j'aurais bien aimer avoir un retour d'expérience sur le prix par mois que coute ce genre d'IA

Beau boulot en tout cas
- [^] # Re: AI ?
  
  Posté par Datafarian00 le 22 juillet 2025 à 11:23. Évalué à 3.
  
  Bonjour,
  
  L'IA utilisé dépend des utilisateurs. Pour la vectorisation (embedding) à l'indexation et au requêtage, c'est cette page qui explique comment procéder pour déclarer un modèle à utiliser:
  https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/3920297985/Datafari+Vector+Search
  
  Pour la phase de génération de réponse, il faut se réferer à cette partie de la doc: https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/3136552962/Datafari+RagAPI+-+RAG#Available-LlmServices
  
  Comme c'est indiqué, de base ca fonctionnera avec tout llm compatible avec l'openAI API, et le reste peut être adapté avec de l'huile de coude en codant des modifications. Le reste de la config se fera de facon graphique depuis l'interface d'admin: https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/3136552962/Datafari+RagAPI+-+RAG#Via-the-Admin-UI
  
  Pour les types de endpoint, cette page vous indique les endpoint REST et leur signature: https://datafari.atlassian.net/wiki/spaces/DATAFARI/pages/3619946497/AI+Powered+Datafari+API
  
  Pour ce qui est de "infonuager" la puissance GPU, pas sûr de quoi on parle. Ce que je peux dire, c'est que Datafari peut aussi bien utiliser des modèles en local (que ce soit via notre AI agent ou avec du fait maison du moment que l'API est compatible), ou à distance, avec ou sans GPU. Mais nous n'avons pas de retex sur les tarifs au mois, c'est très variable selon les usages, les specs des machines, les modèles choisis, le nombre de tokens.