Dans les commentaires d'un précédent journal, ZeroHeure partageait la carte des moteurs de recherche. En explorant, je découvre Cliqz, projet qui intégrait entre autres un moteur de recherche indépendant. Malheureusement, on ne peut plus le tester : le COVID a eu raison d'eux…
Concurrencer Bing et Google est une entreprise plus que hasardeuse. Pour suivre au fil des ans les diverses aventures des moteurs de recherche indépendants, ça se heurte toujours aux mêmes soucis : trop de dépendance aux investissements des pouvoirs publics et d'entreprises n'ayant pas les mêmes capacités financières que les GAFAM, et la négociation entre le fait de devenir une surcouche à Google/Bing (comme Qwant l'a fait) ou proposer des résultats trop faibles au fil des ans et finir par mourir parce que les investisseurs perdent patience.
C'est triste, et ici c'est triste pour les gens de Cliqz. Cependant, en lisant leur annonce de fermeture, je ne pouvais m'empêcher de me dire que ces gens ont réussi à faire un boulot de fou, et que c'était dommage que tout soit perdu. C'est mon réflexe de libriste : si ça ne peut plus être exploité en privé, libérez le code !
Il se trouve que c'est le cas, au moins en partie. Cliqz a un compte github bien fourni et de ce que j'ai pu voir, la plupart des dépôts sont avec des licences libres. À partir de là, mes compétences s'arrêtent. Je ne sais pas coder, je serais bien en peine de dire s'il y a là-dedans quelque chose d'exploitable pour un autre projet libre ou s'il faut avoir d'autres données non publiées pour faire marcher les choses. Je n'ai pas réussi à identifier la partie concernant le moteur de recherche, par exemple. Mais peut-être qu'ici, certains seront intéressés pour jeter un œil, comprendre un peu mieux de quoi il s'agit et bidouiller.
Les discussions suscitées par le journal sur Yacy le montrent : si nous sommes nombreux à être désabusés, on aimerait quand même bien avoir une alternative libre pour faire des recherches sur le web. Je ne sais vraiment pas si c'est possible. Je soupçonne qu'il faudrait arrêter de vouloir imiter les GAFAM et inventer une autre façon d'indexer le web. Ce que Yacy fait : indexer en P2P c'est alternatif et résous en partie la nécessité d'entretenir des serveurs avec des pétaoctets de données. Mais ça ne semble pas suffire, donc il faut trouver d'autres voies. Peut-être qu'un des freins est qu'il faut une équipe salariée (c'est-à-dire ayant du temps, beaucoup de temps humain) pour arriver au moment où l'indexeur fait son travail de façon efficace. Ici, la libération d'un code qui a été porté par une entreprise permet d'espérer que ce gap ait été atteint.
Peut-être aussi que mes rêveries sont très loin d'une quelconque réalité : les moteurs de recherche, ce n'est pas mon métier, et je ne peux que constater que mes recherches efficaces se basent sur les moteurs des GAFAM, tandis que mes tests d'outils libres sont peu concluants.
Ils ressembleraient à quoi, les moteurs de recherche (sous licence libre) de vos rêves ? Est-ce qu'il y a des choses intéressantes dans les dépôts de Cliqz, ou est-ce que tout leur travail n'a servi à rien ?
# Mojeek
Posté par dzecniv . Évalué à 4. Dernière modification le 16 août 2020 à 12:03.
Pour info, Mojeek aussi a un crawler indépendant: https://www.mojeek.com/ Il n'est pas libre, je ne sais pas à quel point il est transparent ou respectueux de la vie privée.
[^] # Re: Mojeek
Posté par ZeroHeure . Évalué à 3.
Mojeek est très respectueux. C'est un de ses principes fondateurs. En 2006 c'était le seul moteur à publier une charte respectueuse des utilisateurs.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
[^] # Re: Mojeek
Posté par gnumdk (site web personnel) . Évalué à 3.
Par contre, il trouve rien:
https://www.mojeek.com/search?q=guacamole+lineageos+microg&si=0
[^] # Re: Mojeek
Posté par ZeroHeure . Évalué à 4.
L'index est encore tout petit. Ils viennent de passer les 3 milliards de pages.
Mojeek est un projet à croissance lente. Il y a 15 ans c'était le projet personnel de Marc Smith. Depuis le mois de juillet il y a 6 employés et une centaine de serveurs. Leur feuille de route prévoit d'atteindre 4 milliard de pages indexées avant la fin de l'année.
Cette infériorité est positive : on peut obtenir de bons résultats en combinant Mojeek avec d'autres moteurs indépendant. J'utilise eTools.ch en ce sens depuis presque un an. Google reste bon sur les pages connues, sur l'actualité, sur la presse. Les indépendants avec leur index différent me renvoient des pages tout aussi pertinentes mais moins visitées.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# utile mais pas de moteur
Posté par abriotde (site web personnel, Mastodon) . Évalué à 0.
Je n ai pas regardé dans le detail mais Google est un bien plus gros contributeur a l open source mais rien concernant le moteur directement. Il en est surrement de même pour Cliqz. Cela reste néanmoins très utile.
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
[^] # Re: utile mais pas de moteur
Posté par Colin Pitrat (site web personnel) . Évalué à 5.
En même temps si tu compares en valeur absolue alors ce n'est pas vraiment très juste. Google c'est O(10k) développeurs. Clikz j'en sais rien, mais si c'est une startup française standard ça doit être 1 dev et 2 stagiaires (plus 5 project managers, 8 managers, 12 marketing et un board de direction). Dur de rivaliser en nombre de lignes de code libérées même si Google ne libérait que 1% de son code.
[^] # Re: utile mais pas de moteur
Posté par Octabrain . Évalué à 3.
C'est allemand, cf https://en.wikipedia.org/wiki/Cliqz
Tu m'as tout l'air de parler d'un sujet auquel tu ne connais absolument rien, bravo, continue comme ça !
[^] # Re: utile mais pas de moteur
Posté par abriotde (site web personnel, Mastodon) . Évalué à 2.
C est bien sûr exagéré mais je trouve que l idée n est pas fausse.
Un exemple, regarde les salaires. Tu veux une augmentation, passe manager et arrête de coder. Ailleurs il n en est pas de même. Tu gèrera une equipe tout en restant vraiment dans le technique.
Un autre exemple quand il y a une reunion de décision tu n a pas grand monde (personne) de la technique mais surtout des managers et commerciaux. Ca avec la lourdeur administrative (étatique mais aussi interne) explique beaucoup d échecs.
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
[^] # Re: utile mais pas de moteur
Posté par Octabrain . Évalué à 5.
Une boite qui démarre, il n'y a aucun manager, car il n'y a pas assez d'argent pour payer quelqu'un qui ne produit rien. Il y a surtout des développeurs, des commerciaux et le maximum légal de stagiaires. Si une boite peut se permettre d'avoir des managers, c'est soit qu'elle a passé un certain cap de rentabilité pour arriver à payer autant de salaires, ou que quelqu'un injecte de la thune à perte en croyant aux licornes (mais ça n'arrive pas avant que les boites aient démontré un vrai potentiel).
Au delà de 50-100 personnes, non, une boite n'est plus une "startup". Elle peut avoir envie de paraître cool "avec baby-foot, moyenne d'âge de 25 ans, on est des gens passionnés qui ne comptent pas leurs heures" tout le blabla etc. oui. Bien qu'elle essaye de tromper M. Michu, ses propres employés ainsi que les futurs candidats en disant "on est toujours une startup !", non, ce n'est plus une startup. Pas plus que les SSII "à taille humaine" de 5000 esclaves.
# un autre moteur libre
Posté par ZeroHeure . Évalué à 4.
Le méconnu Gigablast est un gros et puissant moteur de recherche dont le code source est disponible.
Désolé, n'étant pas chez moi, je ne peux indiquer des références.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.