Journal La Banquise is back

Posté par (page perso) .
Tags : aucun
0
5
mai
2005
Après quelques mois d'absence, la banquise est de retour pour notre plus grand plaisir ...

La Banquise [1] est un projet de moteur de recherche (francophone pour l'instant) sur le libre.

Modération : Nous avons actuellement 116 sites validés en base, et 277 à valider (issus notamment de l'annuaire de Lea [2]), aussi un petit coup de main serait le bienvenu. Si vous n'avez ne serait-ce qu'une heure ou deux pour nous aider, ce sera avec plaisir, cela va vite ...

But du projet : Le but serait de reprendre aspseek [3], le moteur libre servant de base à max et sa banquise pour tout d'abord documenter ce moteur de recherche, puis l'améliorer afin qu'il corresponde mieux à nos besoins pour l'indexation complète du libre (pas seulement francophone) ...

Infrastructure : Pour l'instant je met gracieusement à disposition l'infrastructure matérielle nécessaire à l'hébergement d'un tel projet, mais une réflexion sur l'indépendance du projet est bien évidemment en cours.

Développements : Parallèlement à l'étude et aux éventuels développement pour aspseek, il me parait bon de proposer rapidement à des projets comme dlfp, léa ou framasoft[4], voire tout site du libre de disposer d'un moteur de recherche puissant et indépendant de google :) xml/rpc, soap & co seront nos amis dans ce contexte pour proposer ce service de recherche interne ...

Pour contacter max et sa banquise : benjamin arobase labanquise.org. Vous êtes bien sur invités à nous aider sur ce projet (modération, développement sous cvs php/C++)

[1] http://www.labanquise.org/(...)
[2] http://www.lea-linux.org/(...)
[3] http://www.aspseek.org/(...)
[4] http://www.framasoft.net/(...)

ps: avis aux modérateurs : si vous voulez en faire une dépêche, merci de ne pas le faire : je préfère attendre que le projet se stabilise vu qu'il était arrêté depuis octobre, genre un bon trimestre ... Merci
  • # quoi de plus ?

    Posté par . Évalué à 3.

    Bonjour,

    en fait, je me demandais ce que ce moteur va rajouter par rapport à :
    -> google ou même google linux : http://www.google.com/linux(...)
    -> koders : http://www.koders.com/(...)

    -> Y aura-t-il plus de dance (tel la google dance) ?
    -> Les résultats seront-ils meilleurs ?
    -> Avoir une réelle indépendance par rapport à google ?
    -> Est-ce un nouveau portail/point d'entrée du libre ?
    -> ...

    Je pense que préciser un peu ce point aiderait à comprendre l'intérêt d'un tel projet ?


    Ce commentaire ne se veut pas négative, c'est juste de la curiosité...
    • [^] # Re: quoi de plus ?

      Posté par . Évalué à 6.


      en fait, je me demandais ce que ce moteur va rajouter par rapport à :
      -> google ou même google linux : http://www.google.com/linux(...)(...)

      a priori que ce ne sera pas google justement.
      • [^] # Indépendance

        Posté par (page perso) . Évalué à 8.

        Bein oui, on n'utilise pas du tout google, c'est un peu comme demander l'utilité de Yahoo Search vu qu'il y a Google :-D

        - la liste des sites est proposée par les internautes (lien soumettre un site, pas trop utile pour l'instant vu que la base de modération est déjà bien pleine... et que l'on n'a pas encore de détecteur de doublons dans "soumettre" )
        - les sites sont modérés (acceptés ou refusés) par des modérateurs (2 pour l'instant) qui se basent uniquement sur les critères suivants:
        - Ca parle du libre (et quasiment uniquemnet du libre de préférence)
        - C'est en Français (et quasiment uniquemnet en Français pour l'instant, faute de ressource suffisante)

        à partir de là, ca marche plus ou moins comme google, à savoir que le "banquise bot" passe entre une fois par semaine et une fois par mois sur le site, selon son taux de mise à jour

        Ajoutons à cela que nous prévoyons de proposer des apis évoluées (et non limitées contrairement à google) aux sites du libre pour leur permettre d'utiliser le moteur dans leur site, soit pour un moteur de recherche interne (avec site:) soit pour un moteur du libre
  • # A la place d'un serveur dédié

    Posté par (page perso) . Évalué à 6.

    Pourquoi pas un ensemble de serveurs personnels?
    Comme je t'avais proposé en privé y a je sais plus combien de temps
    Pourquoi ne pas avoir un serveur maitre et disons une dizaine de serveurs (ahum) esclaves
    qui copient la base SQL et le moteur
    et différents entrée en round robin sur le dns? (une solution à la geoip me conviendrait aussi bien mais je sais pas comment on implémante ca :)
    Bon sinon je veux bien aider pour modérer les sites mais je vois pas de lien sur la page d'accueil
    • [^] # Re: A la place d'un serveur dédié

      Posté par (page perso) . Évalué à 3.

      Un petit mail et je t'envoie un compte de login/pass pour modération.
    • [^] # Re: A la place d'un serveur dédié

      Posté par . Évalué à 5.

      C'est vrai que surtout au niveau des "dances", le fait de répartir la charge peut être intéressant, en effet, selon le rapport débit/temps de calcul 2 cas se présentent :

      -> soit le temps de calcul est supérieur au débit donc c'est intéressant de distribuer le calcul
      -> soit le débit est supérieur au temps de calcul et si les résultats lié à une page sont inférieurs à la taille des pages traités, il est aussi intéressant de distribuer le calcul.

      De plus, une petite question : pourquoi le choix du C++, peut-être qu'un langage de plus haut niveau (perl,python) augmenterait la quantité de contribution ?
      • [^] # Re: A la place d'un serveur dédié

        Posté par (page perso) . Évalué à 3.

        - pour l'histoire de la recherche distribuée, je suis tombé sur ce document de l'apache foundation qui a confirmé ce que j'avais déterminé depuis bien longtemps par l'expérience : http://incubator.apache.org/nutch/faq.html(...)

        Will Nutch be a distributed, P2P-based search engine?

        We don't think it is presently possible to build a peer-to-peer search engine that is competitive with existing search engines. It would just be too slow. Returning results in less than a second is important: it lets people rapidly reformulate their queries so that they can more often find what they're looking for. In short, a fast search engine is a better search engine. I don't think many people would want to use a search engine that takes ten or more seconds to return results.

        That said, if someone wishes to start a sub-project of Nutch exploring distributed searching, we'd love to host it. We don't think these techniques are likely to solve the hard problems Nutch needs to solve, but we'd be happy to be proven wrong.


        - Pour le C++, ca n'est pas NOTRE choix mais celui de l'équipe d'Aspseek à l'époque. Ce moteur étant celui qui nous a paru le plus abouti et le plus simple pour la recherche puissante multi-site avec mise à jour, nous l'avons choisi. Le projet est bien évidemment ouvert à toute nouvelle suggestion ;) Par exemple, on utilise déjà un module de php spécial pour ne pas avoir à utiliser le CGI peu modulaire fourni avec Aspseek ...

        - Pour les histoires de débit, une liaison asymétrique à 10Mbps / 1Mbps va lui être dédié, je pense que cela suffira pendant un bon temps ... et d'ici là on aura eu le temps de se poser 1000 autres questions ...
        • [^] # Re: A la place d'un serveur dédié

          Posté par (page perso) . Évalué à 7.

          Je pensais pas vraiment faire en P2P
          Juste différents serveurs réparti à travers la France
          Sinon 10Mbits en upload ou download?
          Si c'est le 1Mbit upload alors n'importe quelle connexion Free passe (en adsl 2+ pas trop pourrite)
          Si c'est 10Mbit, 1+10 serveurs passeront
  • # Quelques questions

    Posté par . Évalué à 3.

    Voici mes question :

    1) Est-ce que la base de donnée ne contient des sites se trouvant dans l'annuaire de Léa Linux ?

    2) À quel niveau y a-t'il "modération" ?

    3) La base semble avoir été "réinitialisée", ou au moins "nettoyée" . Est-ce le cas ?

    Merci pour vos réponses !

    « Je vous présente les moines Shaolin : ils recherchent la Tranquillité de l'Esprit et la Paix de l'Âme à travers le Meurtre à Main Nue »

    • [^] # Re: Quelques questions

      Posté par (page perso) . Évalué à 2.

      1) oui, quasiment, moins certains "non libres" ou "hs" plus certains persos ajoutés parce que j'en connaissait l'existance. Reste à accueillir des contributions sur http://www.labanquise.org/submit.php(...)

      2) il y a modération pour ne pas mettre ce genre de site : http://www.seek.fr/(...) qui ont été proposé à l'époque (octobre 2004) donc pour se limiter pour l'instant au libre francophone. Sinon c'est très ouvert.

      3) Oui, Jean ayant perdu la base, on a du la refaire, c'est pour cela que je suis parti de l'annuaire de lea (wget + grep/sed sont mes amis ...) et d'un peu de boulot de modération. Avec l'aide proposée depuis ce journal, les quelques 300 sites à valider seront validés rapidement je pense, on aura donc une base de départ fiable pour commencer à réfléchir aux power features :)
      • [^] # Re: Quelques questions

        Posté par (page perso) . Évalué à 7.

        tu nous aurais demandé, je t'aurais fait une requête sur la table ça t'aurait évité le travail de récupération des urls ;-p

        Ceci dit, comme je te l'ai dit samedi, ça me botte de virer google comme moteur de recherche de Léa : tu peux me contacter quand tu penseras qu'on peut le virer définitivement que je mette la banquise à la place.
      • [^] # Re: Quelques questions

        Posté par . Évalué à 3.

        <i>2) il y a modération pour ne pas mettre ce genre de site : http://www.seek.fr/(...) qui ont été proposé à l'époque (octobre 2004) donc pour se limiter pour l'instant au libre francophone. Sinon c'est très ouvert.</i>

        bah elle a un probleme la moderation :)
        j'ai tape alpilles ( me demande pas pourquoi ...) et j'ai deux reponses en provenance de seek.fr

        c'etait mes 2 cents de contribution a une idee sympathique doublee d'une realisation sobre et presque soignee ( cf la validation XHTML 1.0 sur http://validator.w3.org/check?uri=http%3A%2F%2Fwww.labanquise.org%2F%3Fq%3Dalpilles%26cs%3D )

        Ce commentaire passe-t-il les trois tamis de Socrate ?

        • [^] # Re: Quelques questions

          Posté par (page perso) . Évalué à 2.

          oui, on est en train de réindexer avec une base plus petite en cours de modération, une patience de 48h je pense.

          ...
  • # et bah moi

    Posté par . Évalué à 2.

    je trouve ce moteur bien sympatoche !

    par contre l'image de l'ours en page d'accueil est-elle libre de droit (ou presque) ?
    • [^] # Re: et bah moi

      Posté par (page perso) . Évalué à 4.

      voir avec l'auteur de l'ours original cité dans "apropos". (lisurc)

      L'ours blanc des bandeaux de apropos, par contre, est réalisé par Laetitia Naly. Les prochains le seront surement aussi (on attend le prochain avec impatience, avec un pingouin tenant une bougie dans l'estomac ...)
      • [^] # Re: et bah moi

        Posté par . Évalué à 1.

        avec un pingouin tenant une bougie dans l'estomac ...

        oO'
        Vous faites dans le gore, aussi ?!?


        Euh, sinon, y'aura la possibilité de personnaliser ses recherches ?

        Voir de voir en particulier le résultat sur les sites que l'on préfères ?


        Mitsuaki, qui va commencer par (re) apprendre à parler(écrire) en français.
  • # plus d'info !

    Posté par . Évalué à 1.

    Salut,

    Tout ce que tu dis semble très bien, mais si on veut plus d'info sur l'organisation du projet et sur les moyens de donner un coup de main...

    Exist-il une mailling-list ?
    Un petit coin sympas sur IRC ?
    Un forum ?
    Autres choses ?

    Bonne continuation ;-)
    • [^] # Re: plus d'info !

      Posté par . Évalué à 2.

      Allez, même pas besoin de google, juste de relire un peu le journal :

      Pour contacter max et sa banquise : benjamin arobase labanquise.org. Vous êtes bien sur invités à nous aider sur ce projet (modération, développement sous cvs php/C++)

      Pour info, la quasi intégralité des 277 urls en attente a été modérée en moins de 24 heures, il en reste 3 ou 4 qui font l'objet de discussions entre modéros.

      A bientôt sur la banquise!

      "Il faut" (Ezekiel 18:4) "forniquer" (Corinthiens 6:9, 10) "avec des chiens" (Thessaloniciens 1:6-9) "morts" (Timothée 3:1-10).

    • [^] # Re: plus d'info !

      Posté par (page perso) . Évalué à 2.

      Je propose #labanquise @ irc.(ipv6.)freenode.net
      J'attend que qqu du projet vienne l'enregistrer :)
  • # Hum, et dmoz.org alors ?

    Posté par (page perso) . Évalué à 2.

    Euh, une annuaire avec modérateur ... ok, mais il faut la race de modérateur pour que ce soit potable. Pourquoi pas utiliser Dmoz plutôt que de réinventer la route ?
    http://www.dmoz.org/about.html(...)

    Dmoz est un excellent annuaire, maintenu par des bénévoles. Chaque soumission passe obligatoirement par un modérateur. De nombreux moteurs vont piocher dedans pour élargir le nombre de pages référencées. La seule limitation que je connaisse est que les sites commerciaux sont proscrits.

    Moi je cherche plutôt un équivalent de Google, mais avec des résultats plus pertinant (hu hu). Il faudrait pour ça un gros paquet de serveurs (donc bande passante), et un gros gros annuaire. Après, ce que je n'aime pas dans Google, c'est les boîtes qui payent pour être en première position, ou encore les "fermes de liens" qui aident à faire monter un site dans le classement (artificiellement). Un algo pour détecter les fermes de liens ou les pages bidons (uniquement remplies de mots clés) doivent être facilement détectables, je suppose.

    @+, Haypo
    • [^] # Re: Hum, et dmoz.org alors ?

      Posté par (page perso) . Évalué à 1.

      Je trouve que dmoz ressemble a une grosse administration, quand je voie le temps de validation d'un site ou le formulaire pour devenir editeur. Mais bon je me trompe peut-etre.
      • [^] # Re: Hum, et dmoz.org alors ?

        Posté par . Évalué à 4.

        C'est normal, il faut plus d'éditeurs ^_^.

        Pour le formulaire, je pense que c'est nécessaire, sinon il y aurait des abus vu que l'inscription dans dmoz d'un site joue sur la place des sites dans certains moteurs de recherches, et que la base de données de dmoz est beaucoup utilisées.

        Pour le temps de validation, il peut y avoir plusieurs problèmes :
        - il n'y a pas d'éditeur pour la catégorie et le premier éditeur de cette catégorie doit en gérer beaucoup d'autres (l'éditeur d'une catégorie est éditeurs de toutes ses sous catégories).
        - le site a été soummis dans une mauvaise catégorie, alors là, l'éditeur de la catégorie redirige le site vers la bonne catégorie, en attendant que l'éditeur de l'autre catégorie valide le site
        - si le contenu du site, ou sa forme pose problème. Je suis greenbuster (j'ai des droits d'éditions sur la liste d'attente) de World: Français: Jeux: Jeux vidéo: Consoles, et les forums, sites perso avec peu d'informations, site de vente de puces ou de consoles modifiées (à la limite de la légalité), il y'en a régulièrement et c'est difficile de savoir ce qu'il faut en faire.
        - si la description du site est mauvaise ou si elle comporte 154 superlatifs, il faut la modifier. Les sites soummis avec ce genre de description font partie des derniers à être validé, pour des raisons de flemmingite.

        Et dans tous les cas, il faut visiter les sites pour vérifier un peu quand même. Avant quand je n'avais pas de connexion adsl, j'ai passer plusieurs nuits sur la catégorie Sega.
        En général, quand on reprend une nouvelle catégorie (enfin je ne suis éditeur que de deux catégories ^^), on passe du temps à rechercher nous même les sites apportant le plus de choses à la catégorie.

        Voilà, il y a du travail et il faut compter que bien que des éditeurs fournissent un travail considérable, certains éditeurs peu scrupuleux comme moi ne passent que le week end sur dmoz et encore, puis voilà d'où vient le temps de validation.

        Au final, l'annuaire est vraiment de qualité, et en effet, pourquoi ne pas utiliser dmoz pour compléter ta liste de sites à référencer ? :)
    • [^] # Re: Hum, et dmoz.org alors ?

      Posté par (page perso) . Évalué à 2.

      euh labanquise n'est pas un annuaire mais un moteur de recherche.

      De plus, nous n'interdisons apparemment pas les sites commerciaux (je pense que les SSLL ont entre autres leur place dans le projet...). Pour ce qui est de passer les "fermes de lien", sachez que Google fait déjà beaucoup d'effort de ce côté. Ils jouent réellement au jeu du chat et de la souris avec cela...

      j'ajouterais à cela à nouveau un lien vers nutch ...

      http://incubator.apache.org/nutch/faq.html(...)


      Won't open source just make it easier for sites to manipulate rankings?

      Search engines work hard to construct ranking algorithms that are immune to manipulation. Search engine optimizers still manage to reverse-engineer the ranking algorithms used by search engines, and improve the ranking of their pages. For example, many sites use link farms to manipulate search engines' link-based ranking algorithms, and search engines retaliate by improving their link-based algorithms to neutralize the effect of link farms.

      With an open-source search engine, this will still happen, just out in the open. This is analagous to encryption and virus protection software. In the long term, making such algorithms open source makes them stronger, as more people can examine the source code to find flaws and suggest improvements. Thus we believe that an open source search engine has the potential to better resist manipulation of its rankings.
    • [^] # Re: Hum, et dmoz.org alors ?

      Posté par . Évalué à 2.

      Non non, les sites commerciaux ne sont pas proscrits, ils sont juste dans les bonnes catégories. Par exemple :
      http://dmoz.org/World/Fran%c3%a7ais/Boutiques_en_ligne/(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.