Forum général.général Avancement du moteur de recherche de linuxfr

Posté par . Licence CC by-sa.
7
6
août
2018

Cher·e forum·e,

je t'ecrite pour solliciter une revue de code (ca serait bien gentil <3).

C'est ici, c'est ecrit en Scala vanilla: framagit.org/j_m/linuxfr-reader

Pour rappel le parser se decompose en trois executables independants. Oui, c'est enorme. C'est pire que des micro services. L'avantage c'est que c'est decoupe en petits morceaux et certaines parties sont remplacables.

A la fin ca devrait ressembler a ca:

$ linuxfr-reader | document-parser | es-writer

Voire a ca:

$ cat journaux.archives.json | document-parser | postgres-writer

Merci

Journal Crowd sourcing pour le nouveau data pipeline de linuxfr

Posté par . Licence CC by-sa.
8
22
juil.
2018

Bonjour'nal

L'outil de recherche integre a linuxfr est decevant. La population linuxfr gronde, en temoigne ce journal: computingfroggy/journaux/recherche-sur-dlfp. Les reproches sont nombreuses: impossible de retrouver un article lu recemment. Une recherche sur 0ad. renvoie un article de 2009 comme premier resultat, une recherche par les tags omet des articles recents aleatoirement. Et il y a plein d'autres problemes.

Certains utilisateurs desesperes se tournent meme vers "le grand mechant" (ref).

Considerant tout ceci, je propose de crowdsourcer un (...)

Journal Recherche sur DLFP

28
19
juil.
2018

Salut Nal,

Aujourd'hui, j'ai essayé de faire une recherche à propos d'un article relativement récent sur un outil de capture d'écran (qui permet d'effectuer des modifications de la capture directement) … sans succès.

Et ce n'est pas la première fois ! La recherche sur ce site (avec Duck Duck go) ramène les contenus par rapport à la pertinence des mots clefs quand la plupart du temps (pour ma part, en tout cas), il serait intéressant de trier le contenu trouvé (...)

Scrutari, moteur de recherche pour sites gentils

Posté par . Édité par ZeroHeure, patrick_g et Davy Defaud. Modéré par patrick_g. Licence CC by-sa.
29
26
jan.
2018
Internet

Scrutari est un moteur de recherche destiné à effectuer des recherches sur un nombre précis de sites (les sites « abonnés »). Sa particularité est de baser sa recherche sur les méta‐données transmises par les sites abonnés et non sur les documents des sites eux‐mêmes (pages HTML, fichier PDF, etc.), contrairement aux moteurs de recherche classiques.
logo Scrutari

Le projet s’est développé d’abord autour de besoins pratiques, initialement autour de la fondation Charles‐Léopold Mayer. En 2008, il a été relancé par la Coredem, dont le but est de rassembler des sites ressource autour des questions de développement, notamment international, qui ont décidé de partager leurs ressources documentaires et d’en faciliter l’accès à partir d’un même espace virtuel et via le moteur de recherche commun Scrutari.

Plus d’informations dans la suite de la dépêche.

Journal De la difficulté de trouver un moteur de recherche pertinent pour un site institutionnel du libre

32
11
jan.
2018

Avant de me lancer dans ce journal, j'ai commencé par effectuer une petite recherche "moteur de recherche" sur linuxfr. Il y a quelques pages de résultats. Je ne les ai pas tous consultés mais dans les premiers beaucoup sont vraiment vieux.

Et je suis même tombé sur cet article de 2012 indiquant que le moteur de recherche du site sera désormais interne et basé sur Elasticsearch, une initiative qui semble avoir fait long feu puisqu'aujourd'hui c'est duckduckgo (...)

Journal DeuSu, un moteur de recherche libre avec son propre index

Posté par . Licence CC by-sa.
16
9
sept.
2016

DeuSu est un moteur de recherche libre, qui utilise son propre index (ce n'est pas un méta-moteur comme searx, qui vient de passer en v0.10), ne stocke pas les adresses IP et n'utilise pas de cookies.

Il clame aussi ne pas mettre de pubs et ne jamais en mettre, mais comme c'est un site géré par une seule personne, et qui cherche à financer son serveur par des dons (300€/mois), on ne peut en être sûr (...)

Forum général.cherche-logiciel Moteur de recherche avec interface web

Posté par . Licence CC by-sa.
3
16
avr.
2016

Bonjour,
j'ai un petit blog en local, je note pas mal de choses, et l'idée c'est de pouvoir récupérer et retrouver des anciennes infos/article assez facilement. Je me suis basé sur un blog en mode texte (qui n'utilise aucune base de donnée), et donc met tout nouveau post dans un répertoire, et à chaque fois dans un fichier.

L'idée serait d'avoir un moteur de recherche qui me faciliterait pour retrouver des articles basé sur le full-text (et de continuer avec (...)

Journal Passage à duckduckgo pour mes recherches au lieu de google

Posté par (page perso) . Licence CC by-sa.
29
21
oct.
2015

Cher 'Nal,

Je suis passé à https://duckduckgo.com/ récemment, même si je l'utilisais déjà sur LinuxFr.org
google m'imposant d'accepter ses conditions d'utilisation que je n'ai pas encore réussi à lire en entier(*), ce qui fait que je refuse et cela m'empêche d'utiliser leur moteur de recherche que j'appréciais bien avec adblock virant les liens sponsorisés.

Bref ddg c'est pas mal

configuration de Firefox pour désactiver les moteurs de recherche inopportuns

C'est trivial et bien expliqué sur la page idoine de sélection (...)

Quoi de neuf côté LinuxFr.org

85
4
juin
2015
LinuxFr.org

La dernière dépêche de cette catégorie LinuxFr.org qui ne soit pas une dépêche récurrente type « Les meilleurs journaux du mois » ou « Les prix du mois » ou « Les statistiques de l'année » remonte à mai 2014 pour une mise à jour du serveur. Voici donc, à l'aube de l'été, quelques actualités de type « en coulisses ».

Journal rv/hervé : recherche d’itinéraire vélo minimisant l'énergie en utilisant les données d'OSM

72
25
oct.
2014

Introduction

Il y a quelques temps, plus d'un an déjà, j'ai écrit un journal ici-même présentant un projet sur lequel je passais une partie de mon temps libre. Les choses ayant légèrement évolué depuis, je récidive. Bien que la lecture du précédent journal soit utile, elle n'est pas obligatoire pour comprendre celui-ci, sauf pour des points de détails, j'y ferai référence en temps voulu.

Étant adepte du vélocipède en tant que moyen de transport, et comme tous les amateurs de (...)

Se passer de Google, Facebook et autres big brothers 2.0 #1 - les moteurs de recherche

62
3
juin
2014
Internet

Merci aux participants de cette dépêche collective, c.-à-d. ack, Adrien Dorsaz, alendroi, Anthony Jaguenaud, BAud, baud123, Bruce Le Nain, deor, etbim, fabienwang, Florent Zara, frayd, gUI, HLFH, j, jcr83, jeberger, Jiehong, Laurent Pointecouteau, lenod, M5oul, Mildred, Nicolive, nullard3d, Nÿco, olivierweb, palm123, SidStyler, SKy, tetraf, Thom, titiii, tux-tn, ver2terre, Viish, Vincent Gay, vlamy, Xinfe et Yves Bourguignon

Aujourd'hui, le net est occupé en grande partie par les services de grosses entreprises privées. Ceci pose de nombreux problèmes : logiciels privateurs, centralisation des données, pistage permanent, censure, exploration de données, dépendance à des tiers, etc.

Cette série décrit (et critique) des alternatives soit utilisables en auto-hébergement, soit via des services basés sur des logiciels libres. Dans cette première dépêche, nous allons nous intéresser aux moteurs de recherche. Les commentaires sont là pour préciser des oublis ou corriger les éventuelles erreurs.

watching

Journal DuckDuckGo change de parure

24
6
mai
2014

DuckDuckGo (DDG), qu'une première dépêche nous présentait il y a quelques années, propose une nouvelle interface, mais pas par défaut.

J'avoue n'avoir aucune idée quant à depuis quand elle est accessible.

Vous pouvez maintenant continuer à utiliser l'interface actuelle, tout en essayant la nouvelle.

Pour ma part, je trouve la nouvelle interface bien plus adaptée au navigateurs dits « mobiles ».

Journal Nepomuk est mort, vive baloo

44
25
mar.
2014

Le projet KDE pour la version 4.13 (et donc définitivement pour KDE 5) est en train d'abandonner Nepomuk.

http://community.kde.org/Baloo

Après de nombreuses années à essayer d'optimiser Nepomuk, les devs KDE ont décidé d'abandonner ce dernier en grande partie à cause du format RDF.

D'un point de vu utilisateur, la différence est flagrante, Baloo est rapide et léger. J'ai même activé l'indexation des fichiers tellement je ne vois pas la différence avec et sans (alors qu'avec Nepomuk et je ne parle (...)

Journal Osez votre propre moteur de recherche !

Posté par (page perso) . Licence CC by-sa.
35
15
oct.
2013

Comme vous devriez le savoir, Google et bien d’autres sociétés ne tarissent pas de moyens pour collecter sur vous les moindres détails de votre vie. On peut au moins compter :

  • IP
  • liens de redirection avec ID personnalisée (avec Firefox, faites clic droit -> examiner sur un lien de résultat Google pour voir cette merde)
  • cookie de Google.com mais aussi des services qui partagent leur données avec Google.com (Youtube, GooglePlus ,etc..)
  • Flash variable, javascript et autre technique utilisant les fonctionnalités (...)