DATAFARI 4.1, moteur de recherche open source pour entreprise

Posté par Cedric ULMER . Édité par ZeroHeure, palm123, Davy Defaud, Ontologia et Pierre Jarillon. Modéré par ZeroHeure. Licence CC By‑SA.
24
14
sept.
2018
Technologie

Datafari est une solution de recherche pour entreprise. Elle permet aux employés de retrouver les données où qu’elles soient, quelles qu’elles soient, en sécurité. Plus concrètement, Datafari récupère et indexe les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et permet de chercher aussi bien à l’intérieur des documents que dans leurs métadonnées.

Datafari est disponible en version open source, appelée Datafari Community Edition, et en version propriétaire, appelée Datafari Enterprise Edition. Mais comme nous sommes ici sur LinuxFr.org, nous allons nous concentrer sur la version libre ! Celle‐ci est en licence Apache v2 pour limiter les contraintes de réutilisations (même si ça se peut se débattre).

Que peut‐on faire avec Datafari ?

Comme dit plus haut, c’est un moteur de recherche pour entreprise. Ses objectifs sont différents d’un moteur de recherche Web, et les défis techniques diffèrent. Pour un moteur de recherche pour entreprise, il faut être multi‐source, multi‐format, et gérer la sécurité. En outre, il faut permettre l’administrer l’outil. Dans la version libre, on peut, côté admin :

  1. administrer les connecteurs aux sources de données vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Documentum, Alfresco et les partages de fichiers ;
  2. gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête ;
  3. mettre en avant des documents pour des requêtes identifiées ;
  4. créer des utilisateurs et leur assigner des rôles ;
  5. voir des statistiques d’usage de l’outil ;
  6. créer l’équivalent de Google AdWords (appelés promoliens) ;
  7. gérer des synonymes ;
  8. plein d’autres choses accessibles depuis la documentation confluence.

Côté utilisateur, on peut :

  1. chercher de façon simple ou avancée ;
  2. bénéficier de la correction orthographique et de l’auto‐complétion ;
  3. utiliser des facettes pour filtrer les résultats ;
  4. mettre des résultats dans un panier de favoris ;
  5. créer des alertes par courriel quand des documents modifiés ou nouveaux correspondent à une requête.

Sur quoi se base Datafari ?

On retrouve dans Datafari 4.1 :

  1. Elasticsearch, Logstash et Kibana, pour les tableaux de bord d’Analytics ;
  2. Apache Manifoldcf Postgre et Tomcat), pour le crawl ;
  3. Apache Tika, pour l’analyse du contenu ;
  4. Apache Solr, le moteur d’indexation et de recherche « scalable » big data ;
  5. Apache Cassandra, pour stocker les infos des utilisateurs ;
  6. Ajaxfrancelabs, pour l’interface utilisateur en HTML5/AJAX.

Comment démarrer ?

Pour démarrer tout de suite, le mieux est sans doute de suivre le Quick start guide. Pour aller plus loin, il suffit de se balader sur la documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement.

Des commentaires ?

Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez‐en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ah, et si vous êtes déjà un utilisateur, n’hésitez pas à en parler sur le Web !

Aller plus loin

  • # Cool!

    Posté par  . Évalué à 4. Dernière modification le 15 septembre 2018 à 20:31.

    Les caractéristiques de Datafari me font penser à ce que j'ai pu comprendre de la plateforme e-Discovery de Veritas dans le cadre de leur propagande campagne sur le RGPD. Si je ne m'abuse, vous concurrencez ce produit — confier des données à caractères privé à des logiciels 1) propriétaires 2) américains m'a toujours fait friser le peu de cheveux qui me restaient…

    • [^] # Re: Cool!

      Posté par  . Évalué à 3.

      Alors, concernant la RPGD, oui en effet c'est un des usages de Datafari. On ne parle pas stricto sensu de e-Discovery (ces solutions garantissent l'exhaustivité de l'indexation avec impact légal à la clé), mais ca peut être utilisé dans le cadre de la RGPD pour l'inventaire et l'audit. On a d'ailleurs fait un blog sur comment configurer a minima l'outil pour récuperer des infos clés types numéros de téléphones: http://www.francelabs.com/blog/entity-extraction-in-datafari/#more-475

  • # Opensemanticsearch

    Posté par  . Évalué à 2. Dernière modification le 17 septembre 2018 à 09:57.

    Comment le situer par rapport à Opensemanticsearch ?
    C'est sur la base de celui-ci que nous avons adapté notre moteur de recherche interne.

    En tout cas plus de variété c'est très bien :)

    https://www.opensemanticsearch.org/

    • [^] # Re: Opensemanticsearch

      Posté par  . Évalué à 1.

      Bonjour,
      il n'y pas qu'opensemanticsearch, il y a aussi opensearchserver par exemple.
      Datafari est conçu avec les entreprises en tête: comment proposer une solution pérenne (soit sur plusieurs années), bien documentée, que ce soit au niveau de l'utilisation, de l'administration, de l'exploitation et du développement, et qui propose une version entreprise avec un support professionnel derrière, et également du contenu de formation. De ce que nous savons, opensemanticsearch a été créé pour répondre à un besoin journalistique, focalisé sur l'analyse sémantique des données, essentiellement des personnes. On ne sait pas ce qui se passera quand le committer principal considèrera que son projet est terminé, si par exemple personne ne veut reprendre le dev de l'outil. Peut-etre par exemple est-ce vous qui allez prendre la suite, mais peut-être pas. Du coup ca laisse les entreprises dans l'expectative, et ca elles n'aiment pas trop. Datafari est déjà en version 4 et tourne en production chez plusieurs clients, dont le nucléaire. Mais comme d'habitude avec l'open source, et c'est ce que vous avez fait avec opensemanticsearch, en montant en compétence, on peut très bien continuer à faire fonctionner l'outil sans soucis même si le committer principal jette l'éponge. Au niveau roadmap, pour nous le focus est sur les outils d'administration - fonctionnelle et exploit - qui doivent être toujours plus nombreux, sur la sécurité également, et la pertinence des résultats. Côté opensemanticsearch, il s'agit plutôt de proposer plus de capacités d'analyse sémantique des données. Mais bon au final, oui les 2 produits sont des moteurs de recherche multi-sources et multi-formats, il s'agit de bien regarder les 2 et de faire son choix selon ses prios !

  • # Commentaire supprimé

    Posté par  . Évalué à -1. Dernière modification le 01 octobre 2018 à 21:25.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # Commentaire supprimé

    Posté par  . Évalué à 0. Dernière modification le 08 novembre 2018 à 21:27.

    Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.