Sortie de Datafari 4.3, moteur de recherche open source pour entreprise

Posté par . Édité par Ysabeau, Nÿco, ZeroHeure, Davy Defaud, Xavier Claude et Pierre Jarillon. Modéré par ZeroHeure. Licence CC by-sa.
15
9
juil.
2019
Technologie

Nous avions déjà fait une dépêche pour présenter Datafari à l’occasion de la sortie de la version 4.1 (et nous avions oublié d’annoncer la 4.2…), nous sommes ravis de communiquer sur la sortie de la 4.3.

Datafari est une solution de recherche pour entreprise. Cela signifie qu’elle permet aux employés de retrouver les données où qu’elles soient, quelles qu’elles soient. Plus concrètement, il s’agit de récupérer et d’indexer les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et de permettre de chercher aussi bien l’intérieur des documents que leurs métadonnées.

Page d’accueil de Datafari

Les nouveautés et changements principaux depuis la 4.1 version communautaire libre

  1. nouveau widget de prévisualisation permettant de voir le contenu d’un document sans ouvrir le document source (voir la capture d’écran plus bas) ;
  2. extraction simple d’entités ;
  3. Prise en charge du protocol SMBv2 ;
  4. un nouveau menu utilisateur pour un accès simplifié aux options de recherche et aux pages d’administration ;
  5. les alertes de recherche prennent en compte les facettes de recherche ;
  6. optimisation des valeurs par défaut du connecteur Web simplifié, pour le rendre plus efficace ;
  7. amélioration du connecteur web avec des filtres sur les balises HTML ;
  8. retrait de la gestion de la sécurité (maintenant dédiée à la version Entreprise propriétaire) ;
  9. mises à jour de tous les principaux composants techniques de Datafari, apportant plus de stabilité, de sécurité et de rapidité ;
  10. de la correction de bogues de partout.

Comment démarrer ?

Pour démarrer tout de suite, le mieux est sans doute de suivre le quick start guide. Pour aller plus loin, il suffit de se balader sur la documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement.

Pour rappel, voici les principales fonctionnalités de Datafari en tant que moteur de recherche :

Que peut‐on faire avec Datafari ?

Comme dit plus haut, c’est un moteur de recherche pour entreprise. Ses objectifs sont différents d’un moteur de recherche Web, et les défis techniques diffèrent. Pour un moteur de recherche pour entreprise, il faut être multi‐source, multiformat, et gérer la sécurité. En outre, il faut permettre d’administrer l’outil.

Dans la version libre, on peut, côté administration :

  1. administrer les connecteurs aux sources de données vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Documentum, Alfresco et les partages de fichiers ;
  2. gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête ;
  3. mettre en avant des documents pour des requêtes identifiées ;
  4. créer des utilisateurs et leur assigner des rôles ;
  5. voir des statistiques d’usage de l’outil ;
  6. créer l’équivalent de Google AdWords (appelés promoliens) ;
  7. gérer des synonymes ;
  8. plein d’autres choses accessibles depuis la documentation confluence.

Et côté utilisateur, dans la version libre, on peut :

  1. chercher de façon simple ou avancée ;
  2. prévisualiser les résultats ;
  3. bénéficier de la correction orthographique et de l’auto‐complétion ;
  4. utiliser des facettes pour filtrer les résultats ;
  5. mettre des résultats dans un panier de favoris ;
  6. créer des alertes par courriel quand des documents modifiés ou nouveaux correspondent à une requête.

Des commentaires ?

Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez‐en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ah, et si vous êtes déjà un utilisateur, n’hésitez pas à en parler sur le Web !

Et si vous êtes assez nombreux, on pourrait organiser un workshop technique pour vous initier aux joies de Datafari version Communautaire.

Aller plus loin

  • # Ca part d'une bonne intention

    Posté par (page perso) . Évalué à 6 (+4/-0). Dernière modification le 09/07/19 à 19:13.

    Perso, dans la boîte où je travaille, on a essayé d'intégrer DataFari par les sources et franchement, c'est pas évident.
    Le but était d'intégrer nos propres composants OpenNLP dans le bousin. Le problème, c'est que malgré la présence de fichiers projet Maven, c'est plus du packaging que de la compilation.
    Du coup, on est un peu déçu parce que hormis utiliser l'image Docker, c'est pas vraiment ça.

    J'espère que cette version 4.3 permettra de construire à partir des sources et si c'est pas le cas, ça ressemblera plus à du Openwashing qu'autre chose.

    J'avoue qu'en plus, ça

    retrait de la gestion de la sécurité (maintenant dédiée à la version Entreprise propriétaire) ;

    ça m'aide pas trop à être optimiste.

    Comme on dit: "tu dis ça parce que t'es en colère" :D

    • [^] # Re: Ca part d'une bonne intention

      Posté par . Évalué à 1 (+1/-1).

      C'est ballot de devoir se contraindre à utiliser Docker pour enrober un war.

      Surtout avec les outils de build Actuel. L'intérêt de java c'est de simplifier la distribution de sources ou de binaires..

    • [^] # Re: Ca part d'une bonne intention

      Posté par . Évalué à 2 (+2/-0).

      Alors, on va tenter de répondre, mais malheureusement ça va plutôt être par des questions !

      1. Pourquoi ne pas avoir interrogé les datafariens sur le google group à ce sujet ? (si vous l'avez fait, on a visiblement raté la question!)

      2. Qu'est-ce qui n'a pas marché pour la mise en place de l'environnement de dev expliqué dans la doc du Confluence ?

      3. La doc de MCF sur l'utilisation du Transformation Connector embarquant OpenNLP n'a pas suffit?

      4. retrait de la gestion de la sécurité: c'est évidemment toujours une question de point de vue, mais nous sommes plutôt dans la mouvance open source que pure libriste. Du coup on doit régulièrement se remettre en question sur quelles fonctionnalités convaincraient suffisamment de sociétés de financer nos efforts. Et il se trouve que la partie gestion des ACLs semble être un élement pas mal (spécial merci aux SSIIs qui installaient Datafari chez leurs clients sans même nous en informer!).

      • [^] # Re: Ca part d'une bonne intention

        Posté par . Évalué à 6 (+4/-0).

        spécial merci aux SSIIs qui installaient Datafari chez leurs clients sans même nous en informer!

        Je n'ai pas compris si c'est un vrai "merci" ou si c'est ironique.

        Et si c'est ironique, je comprends encore moins : Vous avez choisi une licence libre (cf. votre Github : "Its open source license is not aggressive, as it uses the Apache v2 license" ). Les SSII ont utilisé cette liberté que vs leur avez donnée. Pourquoi faudrait-il qu'elles vous informent de quoique ce soit ? Ce sont leurs clients qu'elles doivent informer, en leur donnant les sources si demandées, le copyright ainsi que le texte de la licence.

        • [^] # Re: Ca part d'une bonne intention

          Posté par . Évalué à 3 (+3/-0).

          Oui c'était ironique, j'aurais du l'indiquer!

          J'ai forcé les traits, mais dans notre expérience en tant qu'éditeur open source, la vision d'un monde pur et parfait où les SSIIs sont contentes grâce aux logiciels libres, et les éditeurs aussi, n'a pas fonctionné car nous n'avons touché aucun fruit de la mise à disposition de l'intégralité du logiciel en mode libre. Et comme c'est notre gagne pain d'être éditeur, il faut bien se remettre en question. C'est donc par nécessité que nous sommes passé en mode freemium. Mais bon, encore une fois, c'est juste notre expérience, je suis certains que d'autres éditeurs s'en sortent très bien autrement. Après 4 ans sur ce marché, je pense pouvoir dire que le domaine des solutions de recherche n'est pas évident en open source. A noter qu'il en va différemment des moteurs de recherche en tant que brique technologique, où ça c'est mieux passé (même si on a pu voir des évolutions par exemple chez Elastic pour les décisions de ce qui est en open source et ce qui ne l'est pas).
          Mais pour revenir sur votre commentaire, oui, vous avez raison, les SSII n'ont aucune obligation de nous informer de l'utilisation de notre solution open source en licence Apache v2.

          • [^] # Re: Ca part d'une bonne intention

            Posté par (page perso) . Évalué à 3 (+1/-0).

            les SSIIs sont contentes grâce aux logiciels libres, et les éditeurs aussi

            Que ce soit open source ou propriétaire, c'est à l'éditeur de savoir s'entourer de partenaires :-) c'est le même boulot et ça prend du temps et quelques cocktails de présentation mêlant prospects et partenaires.

      • [^] # Re: Ca part d'une bonne intention

        Posté par (page perso) . Évalué à 5 (+3/-0).

        Pourquoi ne pas avoir interrogé les datafariens sur le google group à ce sujet ? (si vous l'avez fait, on a visiblement raté la question!)

        Parce que le build n'étant pas censé planter sur une résolution d'une dépendance Apache, j'ai voulu chercher moi-même, pensant à un souci de proxy et ai épuisé mon quota temps sur cela. Mais je vais retenter vu que je viens de voir que ce rapport de bug avait été corrigé.

        Qu'est-ce qui n'a pas marché pour la mise en place de l'environnement de dev expliqué dans la doc du Confluence ?

        mvn install ce qui fait que cela s'arrête assez tôt :D

        La doc de MCF sur l'utilisation du Transformation Connector embarquant OpenNLP n'a pas suffit?

        Hélas non, la documentation mentionne un répertoire de dépôt pour les modèles que l'on ne retrouve pas dans l'installation de Datafari, ce qui m'a conduit à relire comment était packagé Manifold CF et mon temps sur ce projet R&D n'étant pas extensible, c'est resté en standby.

        retrait de la gestion de la sécurité: c'est évidemment toujours une question de point de vue, mais nous sommes plutôt dans la mouvance open source que pure libriste. Du coup on doit régulièrement se remettre en question sur quelles fonctionnalités convaincraient suffisamment de sociétés de financer nos efforts. Et il se trouve que la partie gestion des ACLs semble être un élement pas mal

        Je comprends bien mais autant fournir de nouvelles fonctionnalités dans la version Enterprise uniquement, c'est acceptable autant retirer des fonctionnalités de la version Open Source, ça peut mettre quelques utilisateurs, certes non clients, dans la panade. En termes d'image, ça peut faire du mal.

        spécial merci aux SSIIs qui installaient Datafari chez leurs clients sans même nous en informer!

        Là, effectivement, le produit demandant un certain niveau pour être installé, ce sont souvent des SSII qui vont le faire et donc prendre la version open source pour la customiser. C'est un peu la rançon de la gloire.

        • [^] # Re: Ca part d'une bonne intention

          Posté par . Évalué à 2 (+2/-0).

          Vous parlez de quota temps et de temps sur le projet, ça illustre bien le même type de problème que nous avons. Nos ressources étant limitées, on doit en permanence faire des choix, et pour l'instant on n'a pas le temps de retravailler l'aspect "packaging" du code source de la version communautaire. Mais si on lève 10M€, promis on le fait (je rigole, on le fera un jour, mais on ne sait pour l'instant pas quand).

          Pour la fonctionnalité de sécurité, je pense que j'ai du mal m'exprimer, vu votre commentaire: nous n'avons pas retiré une fonctionnalité violemment, elle reste toujours disponible sur les versions qui la proposaient déjà. Nous l'avons désactivée à compter de la version 4.2, mais ça ne met nullement dans l'embarras un utilisateur qui l'utilisait déjà: il lui suffit de rester avec la version qu'il utilisait. En outre, nous avons clairement communiqué sur la désactivation de cette fonction à partir de la 4.2 donc pas de mauvaise surprise du genre "oops j'ai fait une MAJ et la sécurité a disparu".

          Dommage que vous n'ayez pas partagé vos soucis au-delà de ces commentaires dans linuxfr, car si on ne sait pas les problèmes que vous rencontrez, ça complique la tâche de les résoudre!

          En revanche, merci pour vos commentaires suite à notre article. Même s'ils sont un peu négatifs (en tout cas de notre point de vue éditeur de Datafari), ils montrent en tout cas que notre version communautaire intéresse des gens, et ça nous fait remonter vos ressentis (et on ne perd pas l'espoir qu'un jour des gens mettront des commentaires du genre "merci de fournir Datafari à la communauté open source, même si c'est pas parfait, ça a le mérite de faire avancer le schmilblick du libre"). Rendez-vous pour la 4.4 !

          • [^] # Re: Ca part d'une bonne intention

            Posté par (page perso) . Évalué à 2 (+0/-0). Dernière modification le 11/07/19 à 09:33.

            Désolé si j'ai été négatif, il s'agissait effectivement d'un coup de gueule et bien sûr, merci de fournir Datafari à la communauté open source car hormis Ambar, Open Semantic Search et WebLab (le site n'est pas à jour, le code source est ) et vous, il n'y a pas de trucs qui peuvent convenir à nos besoins.

          • [^] # Re: Ca part d'une bonne intention

            Posté par (page perso) . Évalué à 3 (+1/-0). Dernière modification le 11/07/19 à 11:24.

            pour l'instant on n'a pas le temps de retravailler l'aspect "packaging" du code source de la version communautaire

            tant que tout le code source est disponible quelque part… ceux qui ont besoin d'un packaging un peu différent peuvent le faire eux-mêmes (avec un peu de questions/réponses à voir avec vous)

            nous n'avons pas retiré une fonctionnalité violemment, elle reste toujours disponible sur les versions qui la proposaient déjà

            par exemple, si cette fonction reste dans le code publié, mais pas dans le packaging fourni, cela incitera peut-être des gens à améliorer le packaging : c'est le modèle de gcompris et de OSMand par exemple (tout le code source est disponible, le binaire avec toutes les fonctionnalités n'est accessible qu'à ceux qui paient, éventuellement un binaire avec fonctionnalités réduites est fourni). Bon sous Linux pour gcompris et sur f-droid pour OSMand, il y a le binaire avec toutes les fonctionnalités, c'est pour ceux sous windows ou uniquement avec le playstore google que c'est payant, vu que le libre c'est loin d'être gratuit, « il faut bien à un moment qu'une personne ait dépensé son temps ou son argent pour que le code soit mis en libre » :-)

  • # positionnement

    Posté par (page perso) . Évalué à 3 (+1/-0).

    Vous auriez un comparatif fonctionnel avec quelques autres moteurs de recherche ?

    Par exemple :

    • Autonomy
    • Exalead
    • Microsoft Search Server
    • Verity K2

    J'ai vu que vous étiez listés sur https://www.g2.com/categories/enterprise-search?utf8=%E2%9C%93&order=alphabetical

    Essayez de vous faire ajouter (par un contributeur, pas par vous…) à

    https://en.wikipedia.org/wiki/List_of_search_engines#Desktop_search_engines
    pour un peu plus de visibilité (commencez par le wikipedia français qui est un peu plus accessible et tolérant tant que c'est quelqu'un de la communauté).

    • [^] # Re: positionnement

      Posté par . Évalué à 3 (+3/-0).

      Nous essayons de maintenir à jour notre description dans ce comparatif, mais pas sûr que les concurrents le fassent:
      https://en.wikipedia.org/wiki/Comparison_of_enterprise_search_software

      Pour les autres pages wikipedia de listing, dont celle que vous mentionnez, il faut impérativement posséder une page wikipedia dédiée auparavant.

      Et c'est là que le bât blesse: par manque de notoriété, nous ne pouvons toujours pas avoir de page.

      Et du coup - et même si ce n'est pas obligatoire - si les SSII (ou les utilisateurs pour le coup) communiquaient un minimum sur leur utilisation de Datafari, ca permettrait d'augmenter sa notoriété et de fait augmenterait les chances d'avoir une page sur Datafari acceptée par la communauté wikipedienne (ça se dit ça?).

      En tout cas merci pour votre suggestion, on perd pas espoir d'être un jour sur wikipedia !

      Petite note: Microsoft Search Server est mort depuis quelques temps déjà, il faut se tourner du côté de Microsoft Sharepoint pour avoir de l'Enterprise Search en option.

      Seconde petite note: Dans votre lien, on correspondrait plutôt à cette ancre là: https://en.wikipedia.org/wiki/List_of_search_engines#Enterprise

      • [^] # Re: positionnement

        Posté par (page perso) . Évalué à 2 (+0/-0).

        ok merci, ça me resservira sûrement si jamais je dois retravailler sur des moteurs de recherche. Bon, pour les deux derniers de la liste que j'avais évoqués, K2 je ne l'ai pas recroisé depuis 2003, pour l'autre bin ce n'était de toute façon pas ma tasse de thé :-)

        augmenter sa notoriété et de fait augmenterait les chances d'avoir une page sur Datafari acceptée par la communauté wikipedienne (ça se dit ça?)

        oui, ça se dit :-) et oui, les wikipediens se basent sur la diversité des sources, je trouve cela un peu plus lourd côté en même si c'est légitime.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.