Sortie d'Elastic Search en version 0.19

Posté par  (site Web personnel) . Édité par baud123 et NeoX. Modéré par Lucas Bonnet. Licence CC By‑SA.
Étiquettes :
14
3
mar.
2012
Base de données

Elastic Search est un moteur de recherche full-text, sous licence Apache 2. Plus précisément, c'est une interface Rest (Representational State Transfer) distribuée, utilisant le format JSON, qui permet d'exposer des index Lucene pour construire des moteurs de recherche avec des fonctionnalités avancées comme de la recherche par facette. On peut donc le comparer à Solr, mais avec une approche plus moderne et plus proche du mouvement NoSQL.

Il existe de nombreux clients pour Elastic Search comme la gem Tire dans le monde Ruby ou ElasticSearch.pm pour Perl. Elastic Search est utilisé en production par Mozilla, Stumble Upon , yfrog, Klout, af83, etc.

NdM : LinuxFr.org utilise Elastic Search pour son moteur de recherche interne, dans sa version 0.19 depuis le jour de sa sortie. Merci Lukhas !

Nouveau moteur de recherche interne à LinuxFr.org

65
1
fév.
2012
LinuxFr.org

Jusqu'à présent, la recherche de contenus sur LinuxFr.org se faisait avec Google. Ce n'est plus le cas : nous avons maintenant notre propre moteur de recherche \o/. C'est une fonctionnalité qui était très demandée. Pour les utilisateurs pressés de l'utiliser, le champ de recherche est en haut à droite avec la feuille de style par défaut (« Entrer un mot-clé »). Il permet de rechercher sur tous les contenus de LinuxFr.org : dépêches, journaux, forums, sondages, pages de wiki et entrées de suivi.

D'un point de vue technique, ce moteur de recherche utilise Elastic Search et la gem Ruby Tire. Elastic Search est une interface REST (Representational_State_Transfer), sous licence Apache2, construit au dessus de Lucene. Il permet donc de profiter de la puissance des index Lucene, et notamment des facettes, en HTTP et JSON. Tire, de son coté, est une petite bibliothèque Ruby qui simplifie les requêtes d'indexation et de recherche à destination d'Elastic Search. Un autre avantage est qu'il est possible de profiter des opérateurs de recherche avancée de Lucene. Par exemple, "Elastic Search"^3 OR Google permet de faire une recherche sur la chaîne Elastic Search ou sur Google, mais en favorisant Elastic Search. Ce moteur est bien sûr perfectible (N'est pas Google qui veut !). Une première entrée a déjà été ouverte dans le système de suivi de LinuxFr.org. N'hésitez pas à y ajouter vos remarques de manière constructive.

Auparavant, comme mentionné plus haut, le champs de recherche renvoyait vers Google search. Pour la transparence, cela leur permettait de placer de la publicité et pour LinuxFr.org cela générait quelques petits revenus, en décroissance régulière cependant (moins de 100 $ par an désormais). Donc nous perdons une petite source d'argent (l'autre étant les dons ponctuels), mais nous gagnons désormais encore plus en indépendance.

Plus que de l'argent, ce dont LinuxFr.org a vraiment besoin pour vivre, c'est du contenu. Nous avons de sympathiques mécènes pour l'hébergement ou la motivation. Le meilleur moyen de nous aider est donc de contribuer. Merci à tous.

Journal Sonka, une librarie pour construire les interfaces graphiques de Seeks

Posté par  (site Web personnel) . Licence CC By‑SA.
Étiquettes :
14
4
août
2011

Bonjour à tous, un petit journal pour exposer Sonka, un gros travail de Fab, contributeur du projet Seeks. Pour rappel, Seeks propose un méta-moteur de recherche collaboratif décentralisé.

Sonka est une librairie javascript basée sur JQuery et qui permet de construire des interfaces de recherche au-dessus d'un noeud Seeks en place, même distant. Sonka vient de sortir en version 4.0, http://www.kafe-in.net/index.html%3Fn=Blog.Sonka-400.html

Le nouveau moteur de Sonka est événementiel et modulaire, permettant même à chacun des utilisateurs de définir (…)

Journal Google dé-dé-référence la presse belge francophone

Posté par  .
19
18
juil.
2011

Trois petits jours et puis s'en vont.

Il n'aura pas fallu bien longtemps pour que Copiepresse rentre dans le rang (sans réellement le dire) et demande se réintroduction volontaire dans la matrice.

La baisse de l'audience si précieuse en terme de retombée publicitaire commençait à démanger quelques périodiques.

Selon rlt.be "La Dernière Heure / Les Sports perd 15% de son audience. Sudpresse de son côté, lâche 17% de ses internautes quant au Soir, ils sont 19% à se perdre dans (…)

Journal Google dé-référence la presse belge francophone

Posté par  .
8
16
juil.
2011

Les éditeurs de la presse belge francophone ont gagné leur procès face à Google pour que ce dernier arrête de reprendre les articles de presse et les photos dans Google News.

Google fait alors du zèle et retire toute la presse francophone belge de son moteur de recherche.

Juste de retour de bâton ou abus de position dominante ?

Journal Moteur de recherche orange

Posté par  .
8
4
juil.
2011

Dans un élan de nostalgie, je suis allé faire un tour sur voila.fr

Mon attention s'est portée sur le moteur de recherche. En effet, c'est un moteur de recherche maison, et non pas une interface à grand moteur de recherche, comme le fait par exemple free avec google.

Sur l'assistance, qui liste les moteurs plébiscités par les internautes : http://assistance.orange.fr/les-moteurs-de-recherche-7.php On apprends que le moteur est disponible sur :

Après quelques recherches, il semblerait que ce soit (…)

Journal Google : Panda, nouvel algorithme d’indexation

Posté par  . Licence CC By‑SA.
Étiquettes :
16
22
avr.
2011

Google a mis en place un nouvel algorithme d’indexation des pages web : Panda. Pour l'instant uniquement sur google US et UK.

Il permet d'en finir avec las fermes de contenus qui pollue google.

Panda permettra, quand il sera mis en place en France, de mettre enfin un terme à "comment ça marche", "info du net" ou dix pages de comparateur de prix quand on cherche des informations sur un produit.

http://www.pcinpact.com/actu/news/63227-google-panda-indexation-fermes-penalites-referencement.htm

DuckDuckGo

Posté par  . Modéré par Bruno Michel. Licence CC By‑SA.
47
8
avr.
2011
Internet

DuckDuckGo est un moteur de recherche.

Créé par Gabriel Weinberg en février 2008, il utilise les résultats d'autres sites web (Crowdsourcing) comme Wikipedia. Son objectif est de permettre un accès rapide, pertinent et confidentiel à ces données brutes.

DuckDuckGo se différencie d'autres moteurs de recherche par une réelle confidentialité (versions SSL, non-JS, avec un service Tor caché, possibilité de remplacer le stockage des préférences personnelles par des urls personnalisées au lieu de cookies…).

Il vise aussi à donner une expérience de recherche plus rapide. Sur ce point, il permet d'obtenir des "réponses instantanées", c'est-à-dire des informations sans avoir besoin de cliquer sur l'un des résultats d'une recherche (un ou deux exemples). De plus, la syntaxe !bang permet d'effectuer des recherches sur des sites via DuckDuckGo. Ainsi, au lieu de taper "amazon" dans un moteur de recherche puis le titre du livre que vous voulez acheter sur le site d'amazon, vous pouvez taper directement, dans DuckDuckGo, "!a titre" ("!a" indique que "titre" sera cherché directement sur amazon.fr).

Le modèle économique de DuckDuckGo repose sur une publicité minimale et désactivable et sur les ventes effectuées à partir d'une recherche avec DuckDuckGo sur des site comme Amazon ou eBay. Il est possible de sélectionner le français pour la recherche mais pas encore pour l'interface.

Enfin, pour ne rien gâcher, DuckDuckGo consacre une partie de ses revenus à financer des projets libres.

Journal je découvre yacy, moteur de recherche p2p

Posté par  . Licence CC By‑SA.
31
2
mar.
2011

Journal,

J'ai un problème : google est très gentil, mais ça m'embête fortement qu'un seul acteur contrôle autant la recherche sur internet. Je suis parano : que faire si mon pays demande à google de censurer les résultats ou s'il modifie sciemment certains résultats ? Dans ma quête de liberté, je suis tombé sur le moteur de recherche yacy.

L'idée est séduisante : un moteur de recherche décentralisé, résistant à la censure et qui ne stocke pas les données des (…)

Sortie de Seeks en version stable 0.2.4

Posté par  (site Web personnel) . Modéré par Nÿco.
16
19
août
2010
Internet
Le Projet Seeks développe une architecture et une application libres pour la recherche collaborative sur le Web.

La première étape logicielle du projet est un méta moteur de recherche libre (AGPL), sous forme de serveur mandataire (proxy) ou de serveur HTTP. Seeks est déployable aussi bien en tant que moteur public que sur machine personnelle.

La version 0.2.4 est la seconde importante version livrée de Seeks. Elle comprend plusieurs nouveaux outils pour la recherche en ligne, comme la recherche d'images et l'analyse de similarité des résultats, y compris des images. Aujourd'hui il est possible à chacun de monter son propre nœud ou d'utiliser des nœuds publics.

La prochaine étape sera la livraison pour cet automne/hiver du module pair à pair pour le regroupement automatique des utilisateurs sur la base de la similarité de leurs requêtes. Cela permettra l'inter-connexion des noeuds existants et la collaboration entre utilisateurs à partir des résultats fournis par le méta-moteur. Sur cette base Seeks permettra l'émergence d'un véritable moteur décentralisé, avec un contrôle continu et collaboratif des utilisateurs sur les résultats et leurs données.

Comme le projet grandit, votre aide devient cruciale. Une aide indirecte mais simple aujourd'hui consiste à s'inscrire et voter pour nous sur la plate-forme Drumbeat de Mozilla. Toute participation est un plus, Seeks cherchant à redonner le contrôle aux utilisateurs sur leurs données de recherche et sur les algorithmes des moteurs existants.

Solr 1.4 est de sortie

Posté par  . Modéré par tuiu pol.
12
11
nov.
2009
Java
Solr est un moteur de recherche libre, écrit en java, et faisant partie du projet Apache. Après plus d'un an depuis la dernière version stable, Solr 1.4 est finalement disponible depuis hier en téléchargement.

Les améliorations sont nombreuses, tant au niveau de l'optimisation des performances que du point de vue fonctionnel. Au menu de cette version toute fraîche, on trouvera entre autre :
  • Meilleure intégration aux SGBD grâce au gestionnaire d'import de données ;

  • Possibilités d'indexation de documents externes (Word, OOo, PDF, HTML, etc.) grâce au projet Apache Tika ;

  • Clustering dynamique de résultats de recherche avec Carrot2 ;

  • Une tonne d'améliorations, de nouveaux greffons et de corrections de bugs ;

La liste des améliorations est vraiment très importante. Les intéressés auront tout intérêt à consulter le CHANGELOG complet.

Pour rappel, Lucene est une bibliothèque de recherche full-text écrite en Java et gérée par le projet Apache. Solr utilise Lucene pour proposer les fonctionnalités d'un moteur de recherche de qualité professionnelle (recherche à facette, recherches approximatives, requêtes booléennes, etc.).

La communication avec Solr se fait via appels de web-services, et des bibliothèques existent déjà dans la majorité des langages les plus utilisés. Il est ainsi parfaitement possible d'utiliser Solr pour gérer le moteur de recherche d'un site en PHP.

Journal Moteurs de recherche de code Open Source

Posté par  .
Étiquettes :
0
30
avr.
2008
En lisant la nouvelles du rachat du moteur de recherche Koders par l'américain, Black Duck Software [1] j'ai découvert leur site web : http://www.koders.com

Concrètement Koders est un moteur de recherche gratuit, spécialisé dans les codes open source. Ce moteur regroupe actuellement plus de 766 millions de lignes de code écrites dans plus de 30 langages auxquelles il faut ajouter les déjà quelques 520 millions de code (et non lignes de code) de Black Duck Software.

L'un des intérêts de (…)

Forum général.cherche-logiciel alternative libre à Copernic Desktop Search ou Google Desktop

Posté par  .
Étiquettes :
0
23
oct.
2007
Bonjour à tous,

au travail, de plus en plus d'utilisateurs nous demandent d'utiliser l'un de ces deux produits, je me demandais donc si une (ou plusieurs) alternative libre existe.
Bien évidemment, il faut :
- un logiciel pour Windows... pas le choix :(
- quelque chose de simple à utiliser
- qui ne mette pas à genoux mes machines qui peuvent avoir jusqu'à 5 ans.

Merci d'avance.

ps : je sais qu'il existe quelques logiciels côté serveur utilisant des librairies (…)

Journal Nutch et Mozdex

Posté par  (site Web personnel) .
Étiquettes :
0
26
juil.
2004
LinuxFr avait parlé il y a quelques temps déjà ( http://linuxfr.org/2004/05/18/16260.html(...) ) du moteur de recherche Mozdex ( http://www.mozdex.org/index.html(...) ), basé sur Nutch ( http://sourceforge.net/projects/nutch/(...) ), lui même utilisant Lucene ( http://jakarta.apache.org/lucene/docs/index.html(...) ), de la Fondation Apache).

Or, depuis quelques temps, le moteur de recherche Mozdex est fermé (plus de possibilité de faire des recherches).

De plus, je ne trouve plus trace nulle part du code source de Nutch ( http://www.nutch.org/docs/fr/faq.html(...)), indisponible sur le site de référence et sur (…)