pilouche a écrit 61 commentaires

  • [^] # Re: Seeks

    Posté par  (site web personnel) . En réponse au journal Moteur de recherche orange. Évalué à 2.

    Pour rappel, Seeks cherche à redonner le contrôle aux utilisateurs, et à leur permettre de partager les résultats et leur appréciations de ceux-ci, ni plus, ni moins. Google peut être désactivé, il est même possible de n'utiliser aucun moteur sous-jacent, mais dans ce cas il faut qu'au moins une requête approchée ait été défrichée par d'autres.

  • [^] # Re: DDG

    Posté par  (site web personnel) . En réponse au journal Moteur de recherche orange. Évalué à 2.

    Malheureusement DDG est propriétaire. Il utilise Bing (par l'API Yahoo BOSS), qu'il supplémente avec un ensemble de petits crawlers.

  • [^] # Re: Prems

    Posté par  (site web personnel) . En réponse à la dépêche Move Commons, un nouveau système de marqueurs pour les initiatives du libre et au-delà. Évalué à 2.

    D'une part on peut imaginer qu'un tel projet reçoive son label de l'extérieur, par exemple par un moteur de recherche. Ces informations ensuite pourraient permettre de faire le tri dans les recherches.

    D'autre part ça n'est pas parce que les projets à buts lucratifs n'utiliseraient pas le label que celui-ci perdrait son sens pour le reste. Par exemple, nous connaissons tous les labels 'agriculture biologique' ou 'commerce équitable', et les produits qui ne participent d'aucune de ces catégories ne portent pas un label 'non équitable' etc... (ce qui est probablement bien dommage d'ailleurs, un label négatif aurait probablement un effet psychologique supérieur à l'absence de label).

    Enfin, peut-être existe-t-il des combinaisons de marqueurs peu utiles, voire irréalistes. Mais visiblement comme le disent les auteurs, Move Commons est un projet dont les marqueurs sont amenés à évoluer.
  • # PGF/TIKZ mindmaps

    Posté par  (site web personnel) . En réponse à la dépêche Freeplane, l'avenir de la carte mentale libre en Java ?. Évalué à 5.

    Il est possible de produire de superbes 'mindmaps' avec Latex et le package PGF/TIKZ :
    http://www.texample.net/tikz/examples/feature/mindmaps/
    Pour information, PGF/TIKZ permet de faire bien plus que ça, voire presque tout :)
  • [^] # Re: Déception

    Posté par  (site web personnel) . En réponse à la dépêche Sortie de Seeks en version stable 0.2.4. Évalué à 3.

    > En fait, j'ai l'impression de voir le schéma suivant :
    > On part de Privoxy ( qui propose des options de filtrage )
    > On lui retire ces options
    > On cherche ensuite à les réécrire ( et en cherchant des développeurs pour ça… )
    > Je pense que vous avez vos raisons pour ça, mais sur ce coup elles m'échappent

    Le module de blocage de publicité de Privoxy est bien moins avancé que celui de AdBlockPlus. Un peu sur le plan de la génération des règles, beaucoup en ce qui concerne les performances (rapidité notamment). Les optios retirées l'ont bien été en connaissance de cause et après exposition de nos buts sur la 'mailing list' Privoxy.

    L'écriture d'un plugin dans Seeks pour remplacer le système de Privoxy est donc à l'ordre du jour, en C++ et sur une base plus efficace que celle de Privoxy.

    En attendant le plugin 'blocker' remplit une partie de ce travail, je l'utilise depuis un an sans problème avec ma propre liste de regexps.

    > ( de plus on sort du statut de moteur de recherche là… )

    Pas du tout. Qui dit moteur collaboratif dit information en partie éditée par les utilisateurs, donc spam, résultats indésirables, vandalisés ou d'ordre publicitaire. Le filtrage de ces éléments fonctionne de la même façon que celui des publicités sur le Web aujourd'hui.
  • [^] # Re: Question

    Posté par  (site web personnel) . En réponse à la dépêche Sortie de Seeks en version stable 0.2.4. Évalué à 1.

    > Je connais tous ces liens. Je n'ai fait que survoler le dernier pdf, trop technique pour moi.

    > En fait j'ai l'impression que mes questions ne peuvent trouver de réponse actuellement, puisque je voudrais connaître l'implémentation des techniques et des objectifs décrites sur le site.

    > Tant que cette implémentation n'est pas faite, il est normal qu'on ne puisse pas la décrire.

    L'implémentation repose sur des spécifications rendues publiques depuis un long moment :
    http://www.seeks-project.info/seeks/doc/seeks_archi_socwebs_(...)

    La section 'Collaborative Filtering' (p. 29) répondra à la plupart de tes questions, en des termes plus appliqués que le document théorique.
  • [^] # Re: Question

    Posté par  (site web personnel) . En réponse à la dépêche Sortie de Seeks en version stable 0.2.4. Évalué à 2.

    > – Est-ce la possibilité de clavarder en direct avec un quidam qui cherche la même chose que moi au même moment?

    Oui, ce sera un plugin.

    > – Est-ce la possibilité de discuter de façon indirecte de l'indexation des résultats, à l'image d'une discussion dans wikipedia sur la pertinence de telle ou telle phrase?

    Oui, ce sera un autre plugin. On pense à l'historique des notations actives (à opposer aux notations passives, par exemple les clics), et à une page discussion par résultat de recherche / URL.

    >– Est-ce le fait d'indexer les résultats en fonction de ce qu'ont choisi d'autres utilisateurs lors de requettes similaires?

    Oui, c'est la base, le filtrage collaboratif, ce sera le premier plugin à sortir, et automne/hiver avec la première version P2P.
  • [^] # Re: Essai concluant

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 1.

    "Aug 05 19:21:50.550 7f4aaa7fc710 Error: curl error: connect() timed out!
    ...
    Aug 05 19:21:51.649 7f4aabfff710 Error: curl error: Operation timed out after 3000 milliseconds with 16829 bytes received
    ...
    Aug 05 19:59:25.828 7f93457ea710 Error: curl error: transfer closed with outstanding read data remaining

    des erreurs (qui ne m'empêche pas d'obtenir des résultats à mes recherches) qui n'ont peut être rien à voir avec seeks en lui même, mais je trouve ces erreurs étonnantes, vu qu'en lançant curl en ligne de commande avec les uri précisés, je n'ai pas de probs"


    La raison ici :
    [http://www.seeks-project.info/wiki/index.php/Seeks_Configura(...)]

    "Et l'install est le package arch "
    Ach, Arch, nous ne sommes pas responsable :)
  • [^] # Re: Essai concluant

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 1.

    "plantages réguliers"

    A qualifier, nous n'avons aucun ticket de plantage ouvert, et aucun retour de faute terminale sur plusieurs centaines de téléchargements et plusieurs noeuds publiques administrés.

    A rapporter donc, mais c'est très probablement une erreur d'installation.
  • [^] # Re: Essai concluant

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 3.

    "* Le lien « similar » est étonnant, et m'a semblé plus efficace que l'équivalent chez google."

    Effectivement, nous ne faisons pas la même chose. Là où google fait de la recommendation de liens, nous avons choisi de faire du réordonnement basé sur la similarité avec le lien choisi.

    "est-ce un équivalent de « similar » qui affiche les groupes trouvés plutôt que le contenu d'un groupe?"

    Oui c'est tout à fait ça. Le clustering est véritablement utile dans certaines situations, si l'on ne sait pas ce qu'on cherche ou bien si l'on souhaite opérer une segmentation des résultats.
    Pour un meilleur fonctionnement il faut pousser un peu la recherche avec l'expansion, puis 'clusteriser'.

    A ce propos, cf. l'aide, qui contient quelques 'trucs' :
    [http://www.seeks-project.info/wiki/index.php/User-Manual_See(...)]

    "À mi-chemin entre « cluster » et « similar », il me semblerait utile de pouvoir faire un tri par similarité à partir d'une sélection de trois ou quatre réponses (avec une case à cocher par exemple)."

    Les nouvelles idées sont les bienvenues. Il est possible de créer des tickets ici :
    [http://redmine.seeks-project.info/projects/seeks]
    ou de venir discuter et faire fermenter les idées :
    [http://seeks-project.info/wiki/index.php/Contact]
  • [^] # Re: Partage de signets

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 2.

    Pour information il est déjà possible d'installer le logiciel ou d'utiliser les noeuds publics :
    [http://www.seeks-project.info/wiki/index.php/List_of_Web_See(...)]

    Rappel : seul le méta-moteur est implémenté pour le moment, mais les retours sont les bienvenus.
  • [^] # Re: Question habituelle

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 3.

    A question simple réponse simple, il est prévu de gérer le 'spam' avec les outils existants. Un filtre Bayésien aujourd'hui a une efficacité mesurée proche de 99% de classifications correctes sur les pourriels.

    Pour aller plus loin cependant, quatre niveaux supplémentaires vont jouer :

    - un système de liste noire distribuée (et signée, voir ci-dessous).

    - le filtrage collaboratif comme son nom l'indique filtre et personnalise les résultats. L'ordre des résultats pour un utilisateur A, est influencé plus fortement par les notations des utilisateurs ayant effectué des requêtes et notations similaires aux siennes.

    - un système de confiance basé sur des signatures PGP similaire aux 'keyring' existants par ailleurs.

    - un niveau final d'élimination et de vérification par les utilisateurs. On ne trompe pas mille fois mille personnes n'est-ce pas, mais on trompe mille fois un seul algorithme. Les résultats non certifiés seront affichés sur le côté (à la place de la pub :) ), en attente de vérification.

    Au niveau réseau, des protections sont déjà en place pour contrôler la pollution rapide et les attaques de noeud par refus de service.
  • [^] # Re: Question habituelle

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 4.

    Pas vraiment. Comme un moteur de recherche conventionnel mais avec des possibilités de collaboration et de traitement de l'information notamment.

    Pour mieux comprendre, il y a une petite série de documents ici :
    [http://seeks-project.info/wiki/index.php/Documents]

    Les transparents des présentations aux RMLLs offrent une entrée en matière simple et un peu illustrée.
  • [^] # Re: Beau travail!

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 2.

    Merci. En simplifié, Seeks a pour but de construire des sessions de recherche collaboratives qui s'apparenteraient à de petits reddit... Il y a peut être des ponts à faire !
  • [^] # Re: Question habituelle

    Posté par  (site web personnel) . En réponse au journal Pour revenir sur les buts du projet Seeks, un moteur de recherche collaboratif et décentralisé. Évalué à 5.

    Yacy utilise un modèle découvreur / index (crawler/indexer) conventionnel. A l'inverse Seeks ne 'découvre' (crawl) pas, il réunit les utilisateurs, rapporte les résultats des moteurs existants et permettra aux utilisateurs de proposer du contenu directement aux groupes dynamiquement créés. Ce contenu prendra la forme de résultats de recherche, qui pourront être notés, enrichis, etc... par les utilisateurs.

    Avec tout le respect dû aux développeurs de Yacy, celui-ci a des bases théoriques erronées (il ne peut calculer le pagerank à cause de sa décentralisation, et donc fournit des résultats avec un ordre très approximatif, qui le rend en pratique inutilisable). De manière générale, le modèle crawler/indexer en décentralisé est une mauvaise idée, cf. [http://pdos.csail.mit.edu/~rtm/papers/search_feasibility.pdf].

    De plus Yacy fait passer les requêtes aux autres noeuds qui recherchent dans leurs propres indexes. C'est à dire que ces noeuds là voient les requêtes en clair (de ce que je connais du projet). Seeks à l'inverse peut réunir les utilisateurs sans révéler les requêtes elles-même, ce qui est un plus.

    Donc en résumé Seeks construit directement un modèle alternatif au modèle crawler/indexer, tout en se servant des moteurs conventionnels pour mieux glisser vers un modèle complètement contrôlé par les utilisateurs.
  • [^] # Re: metadata

    Posté par  (site web personnel) . En réponse au journal Pourquoi les services de recherche d'image par similarité sont défaillants dans leur fonctionnement même. Évalué à 1.

    "La linguistique est et restera irremplacable. La recherche d'une image par une autre est absolument inutile."

    Ceci est faux. Quand nous cherchons quelqu'un ou quelque chose dans notre champs de vision, nous ne cherchons pas par tag mais bien par similarité d'image (vive le cortex).

    Ce que fait le cerveaux humain peut être copié par les machines, il y a déjà bien des travaux là-dessus.
  • # quel est le problème ?

    Posté par  (site web personnel) . En réponse au journal Pourquoi les services de recherche d'image par similarité sont défaillants dans leur fonctionnement même. Évalué à 3.

    Je ne comprends pas ton problème. Tu recherches l'origine d'une image ? Quel est le rapport avec la similarité ?

    Les services de similarité utilisent un ensemble de points descripteurs calculés à partir de l'image (typiquement points SIFT ou SURF). Ces points dits 'invariants' peuvent être retrouvés dans des bases de données construites à cet effet.

    La recherche par similarité sort un ensemble d'image, par ordre de similarité décroissant avec l'image soumise. La similarité elle-même est une distance calculée à partir du nombre de points descripteurs en commun.

    Alors évidemment, puisque le réseau est un outil de copie avant tout, les X premiers résultats vont être des images identiques à celle soumise. Normalement un moteur devrait les aggréger, pour plus de clareté.

    Quand à l'image 'originale', ce n'est pas par similarité que tu vas la découvrir...
  • [^] # Re: Différence ?

    Posté par  (site web personnel) . En réponse à la dépêche Nouvelle base de données clés-valeurs : Kyoto Cabinet 1.0. Évalué à 2.

    La valeur est un pointeur vers des données. Ca peut être une chaîne de caractères, mais des routines existent aussi pour directement additionner des entiers ou des rééls dans le champs valeur.

    Il existe des couches d'accès pour de nombreux langages, y compris python.
  • [^] # Re: Différence ?

    Posté par  (site web personnel) . En réponse à la dépêche Nouvelle base de données clés-valeurs : Kyoto Cabinet 1.0. Évalué à 2.

    Non Tokyo & Kyoto cabinet ne font pas de partitionnement automatique des bases. Pour cela il te te faut le coupler avec autre chose.

    L'une des solutions existante est lightcloud (http://opensource.plurk.com/LightCloud/) qui travaille au dessus de Tokyo Tyrant (une couche de service réseau pour Tokyo Cabinet).
  • # site bas débit

    Posté par  (site web personnel) . En réponse au journal Un nouveau site pour voyages-sncf.com. Évalué à -1.

    Solution personnelle, utiliser le site bas-débit, http://sncf.com/fr_FR/html/

    Maintenant si quelqu'un sait comment utiliser le site pour mobiles sur un Firefox de bureau... Ca pourrait rendre les réservations plus douces !
  • [^] # Re: Mutualisation des besoins

    Posté par  (site web personnel) . En réponse au journal Système de don pour les créations collaboratives. Évalué à 2.

    D'après ce que je comprends, c'est exactement ce que fait yooook hein.

    Au delà du système de don, c'est un système de mutualisation de la création numérique. Ca marche pour le code aussi donc à priori.

    Il est clair que certains détails de la mutualisation peuvent différer d'une création à une autre. Mais grossièrement, on peut imaginer que le programmeur fixe un prix, l'argent des donateurs va dans une jauge, comme sur le site. Une fois le palier du prix atteint dans la jauge, le programmeur pourrait par exemple commencer (s'il n'a pas commencé avant).
    L'argent peut venir d'un ou plusieurs donateurs, comme pour les donations.

    En tout cas, de ce que je comprends yooook semble permettre une granularité même plus fine, avec plusieurs paliers sur la jauge, éventuellement des goodies pour les donateurs etc...

    La différence par rapport à d'autres systèmes il me semble c'est le passage (ou libération) des créations sous licence libre, car une fois la jauge remplie, la création est considérée payée à son auteur.
  • [^] # Re: Un pas vers KDE ?

    Posté par  (site web personnel) . En réponse à la dépêche Sortie de KDevelop 4.0. Évalué à 1.

    Idem, jamais pu sortir d'un éditeur minimal. Dans le genre, jed (http://www.jedsoft.org/jed/) est parfait. C'est sûr qu'il manque la complétion et le refactoring, et évidemment je lis ces commentaires et lorgne sur kdevelop, mais à chaque fois j'en reviens à jed :)
  • [^] # Re: Google n'est pas tout puissant

    Posté par  (site web personnel) . En réponse au journal The Google problem. Évalué à 1.

    @refuznik Défense des brevets logiciels et des solutions non AGPL. Confusion entre censure et blocage structurel de l'innovation. Et bien, tu sembles à l'avant-garde du logiciel libre !

    Pas de pub dans les applications google ? Regarde un peu plus loin que le bout de ton nez : http://www.businessinsider.com/chart-of-the-day-in-case-you-(...)

    Contredire pour contredire, c'est parfoix marrant, mais aller de l'avant et décoder le monde d'aujourd'hui c'est encore mieux!
  • [^] # Re: Chrome OS, le problème s'aggrave

    Posté par  (site web personnel) . En réponse au journal The Google problem. Évalué à 2.

    Tu fais du conservatisme en refusant de voir plus loin que l'existant.

    Mais beaucoup plus grave, tu refuses de voir que les services par le réseaux sans AGPL reviennent à du logiciel propriétaire : aucun contrôle ni liberté sur ce qu'ils font en réalité avec tes données.

    Et puis allez, tu es probablement assez 'grand' pour t'en rendre compte, non ? :)
  • [^] # Re: Google n'est pas tout puissant

    Posté par  (site web personnel) . En réponse au journal The Google problem. Évalué à 2.

    «la recherche sur le web est en retard. En effet, chacun est forcé de chercher dans son coin, sans interaction avec les autres. Anachronique, à l'heure de gloire des réseaux sociaux, de Twitter et Identi.ca à Facebook et Ohloh. "
    Je ne comprends pas ce que tu veux dire. par là. Croisement des différents réseaux pour faire de la recherche ? Ou alors on est plusieurs à chercher sur le même sujets ?»

    Il s'agit de chercher à plusieurs sur les mêmes sujets et de partager les requêtes. Aucun moteur basé sur la publicité ne le fera jamais. Essaie de penser au delà des services que tu utilises déjà, tu verras que ça n'est pas si simple, ni sans contreparties. Et demandes toi pourquoi certaines choses évidentes comme la recherche collaborative ne sont pas disponibles.

    «Pour les licences nous le savons tous Google utilise principalement la licence Apache. »

    Ils viennent de poser un brevet sur Map/Reduce, qui par ailleurs existe depuis les années 70. Google n'est pas là pour te rendre un service sympathique, c'est l'entreprise qui fait certains des plus gros bénéfices de la planète. Si ton courrier papier était ouvert et lu pour y insérer de la pub, tu ne serais peut être pas si angélique. Et pourtant c'est ce que gmail fait pour des centaines de millions d'échanges. Tu utilises chrome ? ils te traquent avec un identifiant dédié. Tu utilises un téléphone android ? ils suivent tous tes téléchargements et désinstallations.

    «@pilouche, le socialgraph et tout le tintouin bah tu n'as jamais vu un service de traking ou publicitaires.»

    Ca ne vient pas de mon commentaire.

    «Après désolé mais si les gens veulent étaler leur vie sur internet c'est leurs problèmes. »

    La responsabilité individuelle n'est-ce pas ? Avec ça on solutionne tout, et c'est toujours la faute et le problème des autres. Pense aux autres justement, regarde bien ton écran, et moins ton miroir. Le monde est ouvert, il existe de nombreuses autres possibilités, architectures et solutions bien plus respectueuses des libertés individuelles et de la vie privée. Tu aimes le libre, soit libre de penser à autre chose que l'existant, c'est notre moteur.

    Ce que mon commentaire initial proposait de montrer c'est que justement il y a des limites au système google. Et que plutôt de trouver tout ça merveilleux, il faut surtout se rendre compte que ce mastodonte bloque l'innovation dans le monde entier, et notamment en ce qui concerne la recherche sur le web (bien que tu la trouves si parfaite n'est-ce pas).

    Mais le principal, c'est qu'il faut se bouger, maintenant. Parce que c'est déjà difficile d'intervenir et plus tard il ne faudra pas venir râler quand toutes tes données et tes actions seront stockées par des entreprises de droit privé.