Ah Nal,
Je me désolais de l'enshittification du web en général et en particulier des moteurs de recherche, quand on m'a demandé de travailler sur les moteurs d'indexation libre.
OpenSearch, Apache Solr, Bleve, Postgresql… Il en existe beaucoup et pour les tester je me suis lancé dans un petit POC : créer un moteur de recherche pour les "bons" sites, en commençant bien sûr par linuxfr.
Comme j'avais du mal à qualifier ces "bons" sites dont une des caractéristiques est d'être de plus en plus reléguer dans les dernières pages de résultats de Google, Bing et leurs reverses proxys (qwant, duckduckgo…), j'ai fini par trouver le terme arrière web et en déduire un nom qui amuse beaucoup mes douze ans d’age mental : Derche, contraction de Dave et Ch erche.
Architecture
L'architecture est simple:
- des connecteurs dit dercheplugs (un simple batch en Go pour l'instant) qui vont régulièrement récupérer les articles (dépêches, journaux et liens) via les flux atoms de linuxfr et les envoie au moteur d'indexation ;
- pour ce POC, le moteur d'indexation est OpenSearch, le fork amical d'ElasticSearch par Amazon ;
- dercheweb, une webapp en Go avec un frontend en pur html (pas de javascript) et CSS (avec pico, une petite bibliothèque).
Démo
Le code est libre (une petite MIT) bien sûr et j'ai déployé une démo chez OVH en mode devoups avec l'aide d'OpenTofu (le fork amical de Terraform) pour le provisionning d'une machine virtuelle et Ansible pour sa configuration. Ces scripts sont inclus avec le code pour permettre à chacun de monter son propre Derche.
La suite?
Je vais continuer mes expériences, car il reste des fondements à explorer:
- comment reprendre toute la profondeur de l'historique ?
- comment tenir compte des mises à jour (notamment la modération) ?
- quelles sécurisations pour ne pas se faire trouer le slip ?
# A packager avec weboob
Posté par passant·e . Évalué à 7 (+5/-0).
Dans le futur vulgOS
Je trolle dès quand ça parle business, sécurité et sciences sociales
[^] # Re: A packager avec weboob
Posté par Faya . Évalué à 4 (+2/-0).
Ça pourra tourner sur zobe et prout comme LinuxFR.
[^] # Re: A packager avec weboob
Posté par Benoît Sibaud (site web personnel) . Évalué à 3 (+0/-0).
Ça aurait pu, mais ça ne peut plus, ils ne font pas partie des serveurs actuels.
[^] # Re: A packager avec weboob
Posté par Benoît Sibaud (site web personnel) . Évalué à 5 (+2/-0).
# Fédération ?
Posté par cg . Évalué à 7 (+5/-0). Dernière modification le 06 juin 2025 à 21:45.
Serait-il possible d'avoir un mécanisme de fédération, par exemple avec un protocole type Gossip, permettant de placer des index tiers dans les instances de Derche ? Ça pourrait s'appeler DercheHub™ par exemple.
# l'arrière web sur Mojeek et Yep
Posté par orfenor . Évalué à 5 (+3/-0).
C'est un peu hors sujet, mais pour sortir des gros moteurs de recherche, tu peux utiliser Mojeek et Yep. L'arrière web y est très présent.
Et pour compléter, Mojeek a bâti une utile carte des moteurs. Elle edt de temps en temps mise à jour:
https://www.searchenginemap.com/
Le billet qui la présentait (en 2019):
https://blog.mojeek.com/2019/03/the-search-engine-map.html
À part ça, merci pour cette initiative!
# Kagi
Posté par Letho . Évalué à 4 (+3/-1).
Un peu hors-sujet puisque pas libre ni auto-hébergé, mais comme alternative à Google & co, j'utilise Kagi depuis plus de deux ans. Aucun regret jusque là, l'interface est épurée comme Google à ses débuts, et les résultats sont pertinents – là où Qwant me faisait toujours revenir à Google.
Le moteur fonctionne sur un modèle payant, et place la vie privée au centre de son modèle :
https://kagi.com/privacy
[^] # Re: Kagi
Posté par yodaz . Évalué à 5 (+4/-0).
J'utilise également Kagi depuis peu et j'en suis aussi très satisfait. Une fonctionnalité sympa est la possibilité de classifier des domaines pour abaisser ou remonter leur classement dans les résultats de recherche. Par exemple dans mon cas je fais remonter des domaines comme arxiv.org, les forums stackexchange, wikipedia et j'abaisse pinterest, twitter, commentcamarche.net
[^] # Re: Kagi
Posté par orfenor . Évalué à 1 (+0/-1).
Note bien que Kagi n'a pas son propre index. Derrière c'est Google, Bing et compagnie.
[^] # Re: Kagi
Posté par Letho . Évalué à 4 (+2/-0).
D'où tiens-tu cela ?
Kagi dispose bien de son propre index, pas de Google ni de Bing ici. Les résultats sont enrichis par l'appel à des API tierces (Wikipedia, Wolfram, etc).
https://help.kagi.com/kagi/search-details/search-sources.html#search-sources
[^] # Re: Kagi
Posté par orfenor . Évalué à 3 (+1/-0).
T'as raison, je ne sais pas ce que j'ai foutu. En plus j'ai regardé hier.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.