Datafarian00 a écrit 12 commentaires

  • [^] # Re: test ?

    Posté par  . En réponse à la dépêche Sortie de Datafari 5.3, moteur de recherche open source pour entreprise. Évalué à 3.

    Bonne question. La conviction, oui elle est forte, notamment parce que Datafari n'existerait pas sans le partage des briques que nous utilisons. Tout le défi réside dans l'équilibre à trouver entre le partage des connaissances et les rentrées financières. On rêve toujours d'une boule de cristal qui nous indique où mettre le curseur, mais on ne l'a pas trouvée… Du coup pour l'instant, nous avons cette approche freemium qui permet au public d'utiliser Datafari avec déjà pas mal de fonctionnalités, mais qui devient payant (ou nécessite du dev) pour des fonctionnalités plus "business", comme pour la gestion des contrôles d'accès ou le SSO.

  • [^] # Re: test ?

    Posté par  . En réponse à la dépêche Sortie de Datafari 5.3, moteur de recherche open source pour entreprise. Évalué à 6.

    "La qualité de résultat attendu est la même" => en fait non, cela dépend des process métiers qui nécessitent l'usage de l'outil de recherche.

    Il y a deux aspects à concilier pour un algorithme de calcul de la pertinence des résultats, c'est la précision et le rappel (resp. combien de documents sont corrects parmi ceux retournés, et combien de documents le moteur a réussi à trouver parmi tous ceux qui sont pertinents).

    Certains comme les juristes sont souvent plutôt orientés sur le rappel: ils peuvent vouloir voir tous les documents pertinents pour une enquête, même s'il faut regarder des pages et des pages de résultats; d'autres comme les opérateurs de maintenance vont être orientés plus sur la précision: ils veulent la dernière version du document technique du matériel à maintenir. En dehors du monde de l'entreprise, les internautes sur le web sont plutôt orientés sur la précision: le premier résultat est celui qu'on va sans doute vouloir regarder, les autres c'est moins grave.

    On ne peut pas "automatiquement" concilier les deux, cela va se faire en fonction du contexte. Dans notre cas on préconfigure Datafari pour être au milieu du guet.
    Et pour les outils qui se spécialisent sur du pur web, ils peuvent aussi bénéficier du calcul du cross référencement (type pagerank), qui n'existe pas dans les corpus intranet types partages de fichiers.

    Pour ce qui est de la sécurité, on ne la propose pas dans la version open source mais dans la version Entreprise (et on pense le faire bien, c'est qui fait que Datafari est utilisé dans le nucléaire ou la défense par exemple). A noter cependant que nous n'avons mis aucun bloqueur technique pour empêcher la communauté de rajouter une telle fonctionnalité, il faut par contre apprendre comment Datafari fonctionne.

  • [^] # Re: test ?

    Posté par  . En réponse à la dépêche Sortie de Datafari 5.3, moteur de recherche open source pour entreprise. Évalué à 4.

    Il faut faire attention au fait que Datafari fait partie de la famille des moteurs de recherche pour entreprise: à ce titre, sa spécialité n'est pas d'être un des meilleurs moteur de recherche web (il y a des projets comme Apache Nutch pour cela, et des crawlers comme Norconex ou scrappy), mais d'être multisources et multiformats: cela veut dire pouvoir tout aussi bien indexer des contenus drupal que nuxeo, xwiki, partages de fichiers, bases de données etc, et des fichiers de types libre office, MS office, zip, pdf … C'est un défi à part entière de gérer tout ca en même temps, et c'est là-dessus que se spécialise Datafari, pas dans l'optimisation du crawl web (même si c'est bien sûr tout à fait possible et certains le font, mais ca nécessite de la customisation pour que le résultat soit plaisant). J'espère avoir été plus clair !

  • [^] # Re: Et la license est... Apache-2.0

    Posté par  . En réponse à la dépêche Sortie de Datafari 5.3, moteur de recherche open source pour entreprise. Évalué à 2.

    Ma faute désolé, j'avais mis en étiquette "Apache2" mais en me relisant, je me dis que ca ne veut pas dire grand chose. Vous avez raison, nous sommes en licence Apache v2.

  • # Prolongation de l'appel à présentations

    Posté par  . En réponse à la dépêche Appel à présentations — Conférence SophiaConf 2021. Évalué à 1.

    Pour information, nous avons prolongé l'appel, et vous avez jusqu'au dimanche 14 mars pour nous envoyer vos meilleures propositions !

    https://docs.google.com/forms/d/e/1FAIpQLSc8xPU2MNlZ8EqNLL-uvI4oSG-5GwDOeS5Rrl043IRJFdpLZw/viewform?usp=send_form

  • [^] # Re: Quel schéma de diffusion ?

    Posté par  . En réponse à la dépêche Conférence SophiaConf le 29 et 30 juin 100 % en ligne. Évalué à 2.

    Hmmm non pour l'instant nous n'avons prévu que Zoom. Vous êtes sur une plateforme qui interdit l'installation du client Zoom ? Ou c'est un choix perso ?

  • [^] # Re: positionnement

    Posté par  . En réponse à la dépêche Sortie de Datafari 4.3, moteur de recherche open source pour entreprise. Évalué à 3.

    Nous essayons de maintenir à jour notre description dans ce comparatif, mais pas sûr que les concurrents le fassent:
    https://en.wikipedia.org/wiki/Comparison_of_enterprise_search_software

    Pour les autres pages wikipedia de listing, dont celle que vous mentionnez, il faut impérativement posséder une page wikipedia dédiée auparavant.

    Et c'est là que le bât blesse: par manque de notoriété, nous ne pouvons toujours pas avoir de page.

    Et du coup - et même si ce n'est pas obligatoire - si les SSII (ou les utilisateurs pour le coup) communiquaient un minimum sur leur utilisation de Datafari, ca permettrait d'augmenter sa notoriété et de fait augmenterait les chances d'avoir une page sur Datafari acceptée par la communauté wikipedienne (ça se dit ça?).

    En tout cas merci pour votre suggestion, on perd pas espoir d'être un jour sur wikipedia !

    Petite note: Microsoft Search Server est mort depuis quelques temps déjà, il faut se tourner du côté de Microsoft Sharepoint pour avoir de l'Enterprise Search en option.

    Seconde petite note: Dans votre lien, on correspondrait plutôt à cette ancre là: https://en.wikipedia.org/wiki/List_of_search_engines#Enterprise

  • [^] # Re: Ca part d'une bonne intention

    Posté par  . En réponse à la dépêche Sortie de Datafari 4.3, moteur de recherche open source pour entreprise. Évalué à 2.

    Vous parlez de quota temps et de temps sur le projet, ça illustre bien le même type de problème que nous avons. Nos ressources étant limitées, on doit en permanence faire des choix, et pour l'instant on n'a pas le temps de retravailler l'aspect "packaging" du code source de la version communautaire. Mais si on lève 10M€, promis on le fait (je rigole, on le fera un jour, mais on ne sait pour l'instant pas quand).

    Pour la fonctionnalité de sécurité, je pense que j'ai du mal m'exprimer, vu votre commentaire: nous n'avons pas retiré une fonctionnalité violemment, elle reste toujours disponible sur les versions qui la proposaient déjà. Nous l'avons désactivée à compter de la version 4.2, mais ça ne met nullement dans l'embarras un utilisateur qui l'utilisait déjà: il lui suffit de rester avec la version qu'il utilisait. En outre, nous avons clairement communiqué sur la désactivation de cette fonction à partir de la 4.2 donc pas de mauvaise surprise du genre "oops j'ai fait une MAJ et la sécurité a disparu".

    Dommage que vous n'ayez pas partagé vos soucis au-delà de ces commentaires dans linuxfr, car si on ne sait pas les problèmes que vous rencontrez, ça complique la tâche de les résoudre!

    En revanche, merci pour vos commentaires suite à notre article. Même s'ils sont un peu négatifs (en tout cas de notre point de vue éditeur de Datafari), ils montrent en tout cas que notre version communautaire intéresse des gens, et ça nous fait remonter vos ressentis (et on ne perd pas l'espoir qu'un jour des gens mettront des commentaires du genre "merci de fournir Datafari à la communauté open source, même si c'est pas parfait, ça a le mérite de faire avancer le schmilblick du libre"). Rendez-vous pour la 4.4 !

  • [^] # Re: Ca part d'une bonne intention

    Posté par  . En réponse à la dépêche Sortie de Datafari 4.3, moteur de recherche open source pour entreprise. Évalué à 3.

    Oui c'était ironique, j'aurais du l'indiquer!

    J'ai forcé les traits, mais dans notre expérience en tant qu'éditeur open source, la vision d'un monde pur et parfait où les SSIIs sont contentes grâce aux logiciels libres, et les éditeurs aussi, n'a pas fonctionné car nous n'avons touché aucun fruit de la mise à disposition de l'intégralité du logiciel en mode libre. Et comme c'est notre gagne pain d'être éditeur, il faut bien se remettre en question. C'est donc par nécessité que nous sommes passé en mode freemium. Mais bon, encore une fois, c'est juste notre expérience, je suis certains que d'autres éditeurs s'en sortent très bien autrement. Après 4 ans sur ce marché, je pense pouvoir dire que le domaine des solutions de recherche n'est pas évident en open source. A noter qu'il en va différemment des moteurs de recherche en tant que brique technologique, où ça c'est mieux passé (même si on a pu voir des évolutions par exemple chez Elastic pour les décisions de ce qui est en open source et ce qui ne l'est pas).
    Mais pour revenir sur votre commentaire, oui, vous avez raison, les SSII n'ont aucune obligation de nous informer de l'utilisation de notre solution open source en licence Apache v2.

  • [^] # Re: Ca part d'une bonne intention

    Posté par  . En réponse à la dépêche Sortie de Datafari 4.3, moteur de recherche open source pour entreprise. Évalué à 2.

    Alors, on va tenter de répondre, mais malheureusement ça va plutôt être par des questions !

    1. Pourquoi ne pas avoir interrogé les datafariens sur le google group à ce sujet ? (si vous l'avez fait, on a visiblement raté la question!)

    2. Qu'est-ce qui n'a pas marché pour la mise en place de l'environnement de dev expliqué dans la doc du Confluence ?

    3. La doc de MCF sur l'utilisation du Transformation Connector embarquant OpenNLP n'a pas suffit?

    4. retrait de la gestion de la sécurité: c'est évidemment toujours une question de point de vue, mais nous sommes plutôt dans la mouvance open source que pure libriste. Du coup on doit régulièrement se remettre en question sur quelles fonctionnalités convaincraient suffisamment de sociétés de financer nos efforts. Et il se trouve que la partie gestion des ACLs semble être un élement pas mal (spécial merci aux SSIIs qui installaient Datafari chez leurs clients sans même nous en informer!).

  • [^] # Re: Opensemanticsearch

    Posté par  . En réponse à la dépêche DATAFARI 4.1, moteur de recherche open source pour entreprise . Évalué à 1.

    Bonjour,
    il n'y pas qu'opensemanticsearch, il y a aussi opensearchserver par exemple.
    Datafari est conçu avec les entreprises en tête: comment proposer une solution pérenne (soit sur plusieurs années), bien documentée, que ce soit au niveau de l'utilisation, de l'administration, de l'exploitation et du développement, et qui propose une version entreprise avec un support professionnel derrière, et également du contenu de formation. De ce que nous savons, opensemanticsearch a été créé pour répondre à un besoin journalistique, focalisé sur l'analyse sémantique des données, essentiellement des personnes. On ne sait pas ce qui se passera quand le committer principal considèrera que son projet est terminé, si par exemple personne ne veut reprendre le dev de l'outil. Peut-etre par exemple est-ce vous qui allez prendre la suite, mais peut-être pas. Du coup ca laisse les entreprises dans l'expectative, et ca elles n'aiment pas trop. Datafari est déjà en version 4 et tourne en production chez plusieurs clients, dont le nucléaire. Mais comme d'habitude avec l'open source, et c'est ce que vous avez fait avec opensemanticsearch, en montant en compétence, on peut très bien continuer à faire fonctionner l'outil sans soucis même si le committer principal jette l'éponge. Au niveau roadmap, pour nous le focus est sur les outils d'administration - fonctionnelle et exploit - qui doivent être toujours plus nombreux, sur la sécurité également, et la pertinence des résultats. Côté opensemanticsearch, il s'agit plutôt de proposer plus de capacités d'analyse sémantique des données. Mais bon au final, oui les 2 produits sont des moteurs de recherche multi-sources et multi-formats, il s'agit de bien regarder les 2 et de faire son choix selon ses prios !

  • [^] # Re: Cool!

    Posté par  . En réponse à la dépêche DATAFARI 4.1, moteur de recherche open source pour entreprise . Évalué à 3.

    Alors, concernant la RPGD, oui en effet c'est un des usages de Datafari. On ne parle pas stricto sensu de e-Discovery (ces solutions garantissent l'exhaustivité de l'indexation avec impact légal à la clé), mais ca peut être utilisé dans le cadre de la RGPD pour l'inventaire et l'audit. On a d'ailleurs fait un blog sur comment configurer a minima l'outil pour récuperer des infos clés types numéros de téléphones: http://www.francelabs.com/blog/entity-extraction-in-datafari/#more-475