Google et PageRank... L'avenir passe par le libre?

Posté par Tiwaz le 26 février 2007 à 06:41. Modéré par Florent Zara.

Étiquettes :

fév.

2007

Google doit une grande partie de son succès à l'algorithme du PageRank utilisé. Il peut être intéressant pour ceux qui sont novices en la matière de connaître son fonctionnement, ne serais-ce que pour une question de culture générale.

Le site Interstices propose un très bon article de vulgarisation, qui va plus loin que la simple analyse du moteur de recherche californien, en posant un certains nombre de questions sur le fonctionnement de l'entreprise derrière ce dernier. Entre les interrogations sur la valeur réelle du nombre de pages indexées, ou encore sur certains résultats étranges du moteur, tout comme sur les problèmes même de l'implémentation du PageRanking (est-ce vraiment lui qui est utilisé ?), l'article permet de mettre en perspective certains points intéressants.

En conclusion, l'article espère que le marché forcera plus de transparence pour les modèles utilisés, estimant que l'utilisateur préfère comprendre le classement dans un moteur de recherche plutôt que de faire confiance à une boite noire. Dans le cas contraire, un totalitarisme du marché des moteurs de recherche n'est pas à exclure... L'article, intéressant pour qui n'est pas au fait des évolutions des moteurs de recherche, propose un bref rappel sur ces derniers, et la difficulté de rester au fait des évolutions des sites. Ensuite, nous avons une partie qui se centre plus particulièrement sur les méthodes utilisées par Google, et son fameux PageRank.
De là découle une interrogation qui revient souvent de la part des détracteurs de Google, c'est à dire l'objectivité des résultats et leur pertinence. D'autant plus que l'article se permet de faire de nombreuses hypothèses, tout en soulevant un nombre important de problèmes du moteur de recherche.
Entre objectivité et théorie du complot, l'article s'interroge sur la véritable méthode utilisé par Google, et son secret de type boite noire, en remettant en question le choix de Google d'être discret sur son fonctionnement.
En conclusion, cela rappelle un peu la guerre entre le libre et le propriétaire, où Richard Stallman explique que le Libre est obligé de gagner, parce qu'il est intrinsèquement plus éthique et meilleur. Avec une option dans le cas présent, l'implication de l'État dans le cas où l'ouverture ne triomphe pas.

Aller plus loin

L'article d'Interstice (13 clics)
Le PageRank sur Wikipedia (9 clics)

# Totalitarisme?

Posté par eon2004 le 26 février 2007 à 07:32. Évalué à 4.

A la différence de windows, changer de moteur de recherche est des plus facile et n'a pas vraiment de conséquence sur son utilisation quotidienne. Si les résultats de Google te plaisent pas, qu'est ce qui t'empêche d'en prendre un autre? En quoi, la concurrence entre moteurs ne peut s'appliquer? Bref, je vois pas très bien le parallèle avec les logiciels proprios (à part qu'on ne sait pas comment ça fonctionne)

Bien sur la concurrence n'existe que si Google ne se rend pas indispensable.
- [^] # Re: Totalitarisme?
  
  Posté par Tiwaz le 26 février 2007 à 09:30. Évalué à 10.
  
  Je tiens à répondre avant que le post ne parte en sujet "google vs le reste du monde". Tout d'abord, je n'ai que fait pointer l'article, je n'ai jamais dit "google c'est mal". On ne parle pas d'appliquer la concurrence, mais d'avoir une parité. Actuellement, lorsque tu vas sur Wikipedia pour faire des recherches, tu sais comment ce dernier fonctionne, et tu sais quel crédit apporter aux propos tenus sur le site.
  Pour Google, Yahoo, MSNLive et autre, tu ne sais pas vraiment, et ainsi, il est très simple de faire de la manipulation d'information très simplement.
  De plus, changer de moteur de recherche implique du travail que tout à chacun n'est pas forcement à même de faire, pour preuve les statistiques qui expliquent que la majorité des requètes n'est effectué qu'avec un seul mot clé, ou que l'exploration se fait souvent avec les premiers liens, et rarement avec les premières pages. Peut être que cela est satisfaisant si l'information trouvé est bonne, certes, mais qui garantie cette information, et la partialité de cette information? Tu dis que changer d'OS est plus difficile que de moteur de recherche, je n'en suis pas sur. En effet, si sur le papier, c'est plus simple, la volonté et même la démarche nécessaire est presque la même. Les habitudes ont la vie dure.
  Contrairement à l'article, je ne suis pas sur que l'ouverture des protocoles d'indexations permettent de faire évoluer les choses, mais c'est la seule solution proposée, parceque ce modèle est simple. Ce n'est par exemple pas parceque linux est libre qu'il n'y a pas de rootkit dessus. Ce n'est pas parceque l'on sait comment il fonctionne qu'il l'y aura pas de tricherie sur le moteur de recherche.
  De plus, actuellement, on remarque que c'est la seconde solution qui est le plus souvent adopté, c'est à dire que les états régulent ce qui ne leur plait pas. (Chine et France en premier :D ). Comme ces états ont obligés les mesures techniques, on peut donc penser que c'est techniquement possible. Qu'est ce qui empèche une entreprise de payer pour avoir le même service?
  Enfin, dire "Bien sur la concurrence n'existe que si Google ne se rend pas indispensable.", je pourrais dire la même chose avec TF1 par exemple. Après tout, on a de tout, info, film, série, comme sur les autres chaines. C'est la présentation et l'orientation de la chaine après qui bien souvent attirent. Si TF1 dit qu'il est objectif, entièrement libre, et que la publicité ou les politiques ne l'influence pas, tu aurras des doutes. Pour les moteurs de recherche (et pas uniquement google), il y a peu de remise en question, puisque l'on pense souvent que seul, l'algorithme est impartial.
  
  Après, il est inutile aussi de tomber dans la paranoïa actuelle des anti-google ou anti-wikipedia. Il est seulement intéressant de noter que cela "pourrait" devenir une réalité.
# .

Posté par ultimat le 26 février 2007 à 10:00. Évalué à 4.

L'article est intetressant, rien que pour le côté scientifique du calcul théorique du pagerank.

Après sur la question du fond "Est-ce que Google doit donner le vrai algorithme de son moteur ?" :

* d'un côté l'article dit : " Chacun a le droit de savoir selon quelles lois on le juge", c'est pas faux. Google est indéniablement le moteur le plus utilisé. Ne pas (ou mal) apparaître sur google devient un sacré problème aujourd'hui pour les sociétés.

* d'un autre côté : qu'est ce qui force une société privé à expliquer comment elle fait des calculs. Argument "massue" : et l'argus comment il calcul le prix des véhicules ?

A mon avis, il faut profiter des autres moteurs de recherche pendant qu'il sont encore là.
- [^] # Re: .
  
  Posté par Jean-Max Reymond (site web personnel) le 26 février 2007 à 10:12. Évalué à -6.
  
  on peut aussi "profiter" des moteurs pour équilibrer un petit peu la donne. Pour ma part, un petit robots.txt empêche la visite par les moteurs msnbot ;-) Qu'ils fassent déjà tourner correctement leurs Win$$$ et après, on en reparlera
  - [^] # Re: .
    
    Posté par Nicolas Schoonbroodt le 26 février 2007 à 11:14. Évalué à 4.
    
    Et tu penses que le temps que les bots de chez MS ne passeront pas chez toi va leur permettre de coder sur Windows ? Je ne savais pas que Windows était codé par les bots qui indexent le web...
    - [^] # Re: .
      
      Posté par jmny le 26 février 2007 à 14:02. Évalué à 1.
      
      bottes ? ... c'est pas faux.
      --->[]
  - [^] # Re: .
    
    Posté par thoasm le 26 février 2007 à 11:17. Évalué à 6.
    
    C'est vrai, je propose de généraliser ça à tous les sites qui traîtent de linux.
    
    Comme ça les windowsiens n'auront aucune chance d'apprendre son existence ... niark niark, bien fait pour eux. En plus ils ont nous contaminerons pas.
# Donner un éclairage ne veut pas dire assombrir..

Posté par url le 26 février 2007 à 11:05. Évalué à 0.

.. pourquoi pas en introduction du lien vers l'article parler technique à ceux que ça intéresse (pros et amateurs donc). On dira alors que le principe du PageRank est largement dépassé en SEO. Donc ça commence mal.

Ensuite, en règle générale, si les professionnel veulent comprendre, les utilisateurs veulent : utiliser. Il faut que ça fonctionne sinon je change de crèmerie.

Enfin la chute se casse la gueule ;) ... totalitarisme ! pourquoi pas Staline ou chambre à gaz pendant qu'on y est ? La liberté d'entreprendre est à l'opposée du totalitarisme et la libre concurrence que les moteurs se livrent avec une saine critique de Google depuis disons le lancement de Gmail nous prouve qu'elle existe.
# divulgation ou pas

Posté par Laurent J (site web personnel, Mastodon) le 26 février 2007 à 11:16. Évalué à 6.

Je pense qu'ils ne divulgent pas les détails sur leurs algo, pour au moins une raison : rendre difficile le travail des "tricheurs" en matière de référencement. En effet, plus tu sais comment leurs algos fonctionnent, mieux tu pourras "optimiser" tes pages pour que les résultats de recherche soient en ta faveur (et pas seulement sur les requêtes qui ont un réèl rapport avec ton site). Bref, polluer les résultats quoi...
- [^] # Re: divulgation ou pas
  
  Posté par esdeem le 26 février 2007 à 12:59. Évalué à 1.
  
  D'un autre côté, tout le monde sait bien que livrer le code source des logiciels libres entraîne irrémédiablement tous ces logiciels à être :
  
  1) détournés pour des utilisations "frauduleuses"
  2) truffés de cochonneries
  3) etc.
  
  Ton raisonnement ne tient pas la route!
  0. Assume good faith 1. Be kind to other people 2. Express yourself 4. Apply rule 0
  - [^] # Re: divulgation ou pas
    
    Posté par thoasm le 26 février 2007 à 13:19. Évalué à 2.
    
    Ouais, enfin je trouve que l'argument "la sécurité par l'obscurité" est un peu trop facilement écarté / jeté aux orties, parce que c'est contraire aux principes du ll, parce que les ll c'est bien connu ils ont moins de failles, donc ça marche pas, blablabla raisonnement expédié. Ça marche très bien dans la rhétorique du libre.
    
    La sécurité par l'obscurité ce n'est certe pas la panacée, mais ça peut être un élément d'une politique de sécurité, quoi qu'on en pense ici. Entre un algo sûr au sens ou il ne repose pas sur la sécurité par l'obscurité et publié, et le même algo mais inconnu de l'attaquant, je veux dire par là qu'il ne connait pas le principe de la protection, laquelle il aura le plus de mal à attaquer ? si il ne sait même pas par quel bout prendre le problème, sans même connaître l'algo à priori ça lui simplifie pas la tâche.
    - [^] # Re: divulgation ou pas
      
      Posté par Nicolas Boulay (site web personnel) le 26 février 2007 à 14:05. Évalué à 3.
      
      Le problème de la sécu par la sécurité, c'est que tu crois rendre impossible une attaque par compréhension de l'algo. Or, il suffit de regarder ce qui se fait dans le milieu de la sécurité pour voir tout les outils de dépouillage/désossage/étude de binaire.
      
      Un mecs habituté va te lire ton algo en ASM quasiement aussi bien que toi tu le lis en C. C'est juste une question d'habitude.
      "La première sécurité est la liberté"
      - [^] # Re: divulgation ou pas
        
        Posté par thoasm le 26 février 2007 à 14:10. Évalué à 3.
        
        Pas "impossible", seulement plus difficile. En plus, dans le cas de google par exemple, tu le lis comment le code asm du programme ?
    - [^] # Re: divulgation ou pas
      
      Posté par bonnaud frederic (site web personnel) le 26 février 2007 à 14:42. Évalué à 0.
      
      Bon, moi je connais rien en sécu.
      
      Mais l'argument des LL sur la sécu, c'est pas plutôt que le fait que le code étant lisible par beaucoup de monde, beaucoup de monde peut dénicher les pb liés à la sécu et les corriger ou les divulguer pour que quelqu'un les corrige ? Alors qu'un algo "obscur", de fait, n'empêche généralement pas les maichans de trouver des failles, mais personne ne peut auditer le code pour les corriger.
      - [^] # Re: divulgation ou pas
        
        Posté par thoasm le 26 février 2007 à 15:09. Évalué à 2.
        
        personne ne peut auditer le code pour les corriger
        
        À relativiser: il peut y avoir des audits de code, mais c'est l'auteur du code qui choisi qui va l'auditer. Et il a tout intérêt à choisir des gens compétentss. Tout le monde ne peut pas le faire, certe, mais personne ne peut c'est faux.
        
        La divulgation des failles, il y a des failles divulgées dans des LL comme dans des logiciels proprios. De même, dans le logiciel libre, si l'attaquant veut garder une faille qu'il a trouvé pour lui il le peut.
        
        Le pari du ll c'est qu'en libérant le code on aura plus de lecture, donc plus de bugreports et tout. Le travail d'audit est facilité pour les gens "bienveillants" comme pour les gens "malveillants", donc il y a plus de chances que les bugs soient trouvés par l'un comme par l'autre, et qu'une faille trouvée par quelqu'un de bienveillant va sécuriser le logiciel, surtout si elle est trouvé aussi par quelqu'un de malveillant.
        
        À relativiser aussi: pour certains logiciels, ça doit être plus facile de trouver des gens "bienveillants" pour auditer ton code, libre ou pas: qui lis le code d'openoffice ? dans tous les cas, il faut le vouloir pour trouver une faille. D'autre part, je crois savoir qu'il y a pas mal de techniques pour trouver des failles qui marchent sur le binaire, genre le fuzzing des entrées, faisables automatiquement, et donc qui marchent aussi bien sur du LL que du proprio.
        
        Tout ça pour dire que le LL, la sécurité la favorise certe, mais ce n'est pas parce qu'un logiciel est libre qu'il sera magiquement sécurisé, et que ce n'est pas la panacée dans tous les cas. Il faut savoir relativiser son discours aussi un peu de temps en temps pour pas tomber dans l'aveuglement.
        
        [^] # Re: divulgation ou pas
        
        Posté par thoasm le 26 février 2007 à 15:16. Évalué à 2.
        
        Oups, mauvaise relecture, il manque un bout :
        
        À relativiser aussi: pour certains logiciels, ça doit être plus facile de trouver des gens "bienveillants" pour auditer ton code, libre ou pas ... en les payant
        
        Qui lit volontairement le code d'openoffice pour le sécuriser? À part les auteurs de plugins d'E/S je vois pas trop ;)
# Wikisari : un futur moteur libre

Posté par Youssef Oualmakran (site web personnel) le 26 février 2007 à 14:57. Évalué à 5.

Jimmy Wales le cofondateur de Wikipedia a lancé un projet de moteur de recherche libre. Il veut que tout soit libre : l'algorithme de recherche, la base de donnée, le logiciel. [1]

Pour l'instant aucune décision ferme concernant la manière dont le moteur de recherche sera implémenté. Jimmy Wales recherche des personnes pour apporter des idées et réaliser des testes sur des serveurs.

Pour en discuter, aller sur la liste de discussion. [2]

[1] http://search.wikia.com/wiki/Search_Wikia
[2] http://lists.wikia.com/pipermail/search-l/2007-February/0002(...)
# de l'inutilité d'un moteur de recherche libre

Posté par Mouns (site web personnel) le 26 février 2007 à 18:13. Évalué à 10.

Apres moult lectures de l'articles, et quelques recherches sur l'auteur, je suis deçu par l'absence flagrante de qualité de cet article.

l'article me semble etre une tartine rance issu d'un fond de confiture moisi. le propos est dur, je le reconnais, peut etre meme un peu exagéré, mais elle repose sur certaines observations que je fais sur le texte.

Qu'un chercheur en mathematique fasse un article sur un algorithme d'un moteur de recherche et se pose sur le secret l'entourant, ne doit pas l'empecher de faire des recherches annexes, sur les personnes utilisant le moteur de recherche. Pourtant, cette personne ignore une grande partie, voire la plus grande partie des clients des moteurs de recherches : les webmasters & autres propriétaires de sites.

L'utilisateur premier aurait du être l'internaute, le gentil surfeur, la menagere de plus de 50 ans, ... mais la réalité est tout autre, le premier utilisateur de moteur de recherche est celui qui veut voir son site etre dans les 10 premiers liens de google sur certains mots clés.

L'article a été publié en novembre 2005, je présume qu'il n'a pas été écrit en 98 ou 99 mais plus probablement un peu avant novembre 2005. Durant la même année, j'ai eu pour mission de referencer certains sites, j'ai eu à me renseigner sur diverses techniques pour améliorer le réferencement sur google, yahoo, msn, et d'autres.

Le premier point qui me chiffone est celui ci : l'auteur ne semble pas savoir ce qu'est le cloaking , le duplicate-content , les PR10 locaux, le PR spoofing, et tant d'autres techniques qui permettent d'etre classé dans les 10 premiers liens ...

Dès que google a connu un peu de notoriété, le fameux article de Brin et Page fut publié, décortiqué, analysé, torturé pour comprendre un peu la mécanique sous-jacente ...

Et pour faire un parallèle avec la cryptographie, Google a subit des attaques d'un nouveau genre à son encontre : des attaques de referencement.

Google a donc modifié son algorithme au fil du temps car certaines de ces attaques nuisaient à la qualité des résultats.

un exemple tres simple et un des premiers si je me souviens bien :
si l'on regarde l'algo lui meme, on constate que si on reference X pages contenant une dizaine de liens vers diverses pages qui elle-meme pointent sur leur source et sur une destination unique, qui repointe sur certaines source de source, on peut creer des nébuleuse de PR 10 sans avoir aucune notoriété reelle.

Pourquoi ? tout simplement par ce que l'algorithme manipule un graphe qui est en fait une foret de graphe, c'est a dire que ce graphe représentant internet peut etre coupé en sous graphe sans couper aucun lien existant.

Maintenant, pour clarifier un point, cette attaque repose sur une contrainte budgetaire "avoir un portefeuille de domaine suffisament important" donc ce n'est pas avec 4 ou 10 domaines que l'on peut monter une attaque^W un referencement de la sorte :p

Google a donc changer son algo pour gerer ce type de problemes.

apres on trouve le tres classique SPAMlog :
c'est la meme IP qui balance plusieurs milliers de requetes sur certaines pages d'un site avec differents referers. si ce site publie ses statistiques web, le site fourni une page de referencement permettant de falsifier le PR d'un site.

Encore une fois, Google a cherché encore à contrer ce genre de choses.

il y a les liens "no-follow" et d'autres solutions proposés qui ont un impact au niveau meme de l'algo utilisé par google.

donc, l'algo d'origine quelqu'il soit, n'est plus le meme depuis des années :D ... et cette information et le pourquoi n'est meme pas evoqué dans l'article.

donc à mon sens, le seul interet potentiel de l'article aurait pu etre une reflexion sur l'interet ou non de publier l'algorithme, mais serieusement, si l'on reflechit 30s, publier l'algorithme c'est accepter de prendre le risque de devoir mettre en faillite google.

Quel est le lien entre la publication et ce risque de mise en faillite de google ?

il est simple :
un referenceur apres plusieurs mois d'analyse de l'algorithme, arrive a detourner l'algorithme de google, et fait apparaitre des liens pour son site de vente de Viagra quelque soit le mot clé utlisé dans sa recherche.

si google ne trouve pas une parade rapide (quelques heures), le moteur de recherche sera totalement decredibilisé, et plus personne n'utilisera le moteur de google, donc google connaitra la nécessité d'une mise en faillite.

Changer un algortihme de ce genre, ne se fait pas en quelques heures, c'est plusieurs mois de travail. l'expérience le prouve car il faut plusieurs mois pour que google detecte ce genre d'attaque encore aujourd'hui.

Aujourd'hui, l'open source ne peut pas fournir de garantie contre ce genre de risque là ou le closed-source offre une garantie :
celle que l'attaqant doivent tout refaire, tout réapprendre à chaque changement car il n'en a pas la connaissance.
La boite noire est la meilleur garantie d'une certaine tranquilité pour les 99,99999% des personnes qui utilise google pour autre chose qu'améliorer son propre referencement ( le pouilleme restant etant ceux qui seront satisfait par du viagra pour tous les mots clés ).

L'on peut me retorquer que sur l'argument du closed source pour éviter les détournement, l'article répond fort justement en disant : "Le Droit s'adapte pour prendre en compte l'évolution de la délinquance et personne n'en déduit que la loi doit être secrète." avec comme seul exemple, le google bombing. mais encore recemment, nous avons pu voir que certaines sociétés ont été victime de google bombing parce que leurs activités déplaisent à certains internautes.

Sur la problematique de moyen, je tiens à rappeler qu'un nom de domaine s'achete à moins de 10 euros l'unité, et qu'un hébegement mutualisé est souvent offert avec chaque domaine, et qu'un serveur dédié coute moins de 20 ¤/mois chez certains hébergeurs.

Apres, il y a une une erreur non-négligeable qui est commise, le droit est public et c'est ce qui garantie l'équité de chacun (dans une certaine mesure du moins). un algo de ce type pourrait etre public si il n'y a aucun moyen et/ou interet à le contourner.

la loi s'adapte lentement, mais s'adapte, et surtout il y a le juge qui est createur et garant du droit à chaque fois qu'un tier lui demande de prendre position.

La comparaison d'une chose reposant sur une propre faculté au vivant (pour certains de l'homme ) celle de conscience et d'independance d'etre, à une chose fonctionnant comme un automate-presse-puré est ... comment dire ... hum ... mais, si l'automate presse-puré avait une conscience, je pense qu'elle serait flatté :)( et d'un autre coté, un automate presse-puré avec une conscience ... pour moi, c'est un être vivant, mais c'est un autre débat ).

toujours est il que cette possible garantie d'équité ne répond pas à la question importante :
quelle garantie peut apporter le libre sur le fait que des qu'un algo critique est rendu public .cela facilite d'autant plus la pollution electronique ?

Cet algorithme est utilisé par des centaines de millions de personnes, et peut etre détourné de sa finalité, par un individu qui ne publiera jamais sa technique garantir la perenité de son interet/placement/investissement/operation.

Est ce que cet algorithme peut il etre rendu public ?

Oui, si cet algo est formellement inviolable. Or, l'experience prouve le contraire, puisque google le modifie sans cesse.

Oui, si il peut etre modifié rapidement sans nécessité de truquer la base de données ou de reconstruire l'integralité du savoir existant. Encore une fois, il est connu des referenceurs que google recalcule regulierement "from scratch" l'integralité de la base et que la convergence de l'algorithme est de l'ordre de plusieurs semaines voire quelques mois.

Dans un algorithme de chiffrement, l'algorithme rendu public est rendu public de maniere incomplete : il manque les clés utilisés.

A mon sens, rendre public cet algorithme, est comme si un admin libriste rendait public le mot de passe root de ses serveurs pour etre "open" jusqu'au bout.

Ma conclusion, google faisant de l'open-source sur certains dossiers, n'a pas de raisons de publier cet algo & son code source parce que :
- sa publication affaiblira la pertinence des resultats ( resultat deja connu, au travers du spamdex, googlebombing qui deviendrait un jeu d'enfants )
- sa publication ne garantira à aucun moment ni à terme que l'algorithme pourra etre rendu insensible aux corruptions
- sa publication ne garantira aucune amélioration de reactivité ou reduction de couts, par contre, cela a plus de risque d'augmenter les coûts

Cette reflexion sur l'interet de publier l'algorithme de google, s'applique sans mal à tout projet de publication d'un algorithme de recherche, si cet algorithme est utilisé par un moteur de recherche "grand public". Cela implique, que un moteur de recherche libre est soit condamné à n'être utilisé que par 3 personnes, soit à devenir une usine à SPAMdex et donc à être tellement pollué que plus personne ne l'utilisera. La seule possibilité d'un moteur de recherche libre est plus de l'ordre d'un annuaire libre qui connaitrait un engoument equivalent que wikipédia ... mais wikipédia n'est il pas déjà un peu cela ?
- [^] # Re: de l'inutilité d'un moteur de recherche libre
  
  Posté par patrick_g (site web personnel) le 27 février 2007 à 00:30. Évalué à 2.
  
  Par curiosité est-ce que tu est partisan du fait que Linden Lab ouvre le code des serveurs de Second Life ?
  Après tout si ils ouvrent le code alors tout le mode pourra étudier le source et trouver les failles pour en profiter injustement (équivalent d'étudier l'algo de Google pour en profiter de façon indue).
  
  Je reconnais la force de certains de tes arguments mais je ne peux m'empêcher de faire confiance à l'influence stabilisatrice du code libre. Certes cela peut tanguer au début quand le code est effectivement pleins de trous (ou l'algo susceptible de pleins de détournements) mais à long terme je persiste à penser que c'est plus sain.
  
  Le code ou l'algo évolue en toute transparence pour éviter les failles et les détournements...et le public (toi, moi, tous) nous avons l'assurance que tout se déroule en toute honnêteté.
  
  Quelle assurance ais-je que Google ne dévie pas subtilement les résultats des recherches des internautes à l'heure actuelle ? J'ai juste la parole de l'entreprise et je j'aimerais mieux, à l'instar des préconisations de Stallman, que le source soit exposé au yeux de tous pour que le soupçon ne s'installe pas.
  - [^] # Re: de l'inutilité d'un moteur de recherche libre
    
    Posté par Mouns (site web personnel) le 27 février 2007 à 03:33. Évalué à 5.
    
    je comprend ce que tu essaie de dire, mais tu confonds Second Life et l'algo de google.
    
    Second Life est proche d'un logiciel de type MMORPG (meme si ce n'est pas un MMORPG d'apres ce que j'en sais).
    
    Liberer le code source du client "Second Life", n'aura pas d'influence majeur sur le comportement des joueurs, puisque :
    1. le client depend fortement du serveur
    2. si tu monte ton propre serveur ou tu es dieu, tu n'auras que 3/4 joueurs pas 3/4 000 000 de joueurs puisque tu ne seras pas sur le serveur principal
    3. quand bien meme tu arrives a faire certains trucs l33ts avec ton client, cela n'aura quasiment aucune portée dans le jeu
    4. avec le code source du client que tu utilise, tu n'auras aucune influence sur le client des autres
    
    Par contre, sur un moteur de recherche libre, il te faudra te prémunir contre toute personne qui ayant trouvé une faille dans le source ou l'algo du moteur, et en profite sans rien publier assurant ainsi la pérénite de la promotion de son site de vente de viagra.
    
    Si le "profiteur" est malin il s'assurera une presence discrete mais pertinente pour eviter de rendre trop visible sa pollution. Par contre, statistiquement, il y aura un jour ou l'autre, des gros boulets qui rendront la faille trop visible en bourrinant comme des gorets pour etre ostensiblement présent.
    
    Imagine que le probleme n'est pas au niveau de l'algo mais du code, évidemment en quelques heures, cela peut etre reglé.
    
    Mais ici, l'on parle d'algorithme pas de maniere de coder un algorithme : cela implique que le meme algorithme est un sujet de R&D ... donc si une personne trouve une faille dans l'algorithme, les developpeurs se retrouverent dans les memes conditions que Sir Andrew Wiles en 1993 quand il fut forcé de retarder sa publication d'un an (c'est à titre d'exemple, il me semble qu'il y a aucun rapport entre le grand theoreme de Fermat et les moteurs de recherche ;) ).
    
    Et 1 an de non-présence d'un site internet pour cause de réécriture de l'algorithme, cela s'appelle la mort d'un site.
    Quand bien meme, l'algorithme serait modifié rapidement, il y a comme contrainte supplémentaire, la reconstruction de la base et donc potentiellement la réindexation de l'ensemble des sites antérieurement connu.
    
    Enfin, quand on sait qu'aujourd'hui avec ses centaines de milliers de serveurs, l'algorithme de google converge en plus d'un mois ... ou est ce qu'un moteur open-source trouvera les liquidité pour se payer pareil redondance et puissance de calcul ? A moins que sa composante open-source ne soit qu'un leure pour s'acoquiner avec des libristes incapables d'en voir son absurdité.
    
    Bien entendu, si un moteur de recherche arrive à mettre au point un algorithme pertinant et efficace, je pense que doucement une migration se ferait sentir vers celui ci dans les statistiques de l'ensemble des sites ... mais a part une constance assez provoquante et une pertinance des resultats hors mots-clés concurrencielles de google, personne ne se présente à l'horizon.
    
    Pour faire une apparté, je rappelle que les statistiques de Linux restent désesperantes coté internaute pourtant, chacun ici utilise linux regulièrement et en tire satisfaction, et tout le monde est d'accord qu'il manque encore des choses à linux pour qu'il progresse auprès du grand public.
    
    L'algorithme formellement inattaquable ne semble pas encore connu du grand public, donc l'hypothese du moteur open-source aura difficilement sa place.
    - [^] # Re: de l'inutilité d'un moteur de recherche libre
      
      Posté par nats le 27 février 2007 à 16:51. Évalué à 4.
      
      J'ai lu les divers commentaires et je ne pense pas l'avoir vu posté avant mais bon si je me trompe frapper moi bien fort ^^
      La première raison de l'esprit closed-source de cet algo n'est peut-être tout simplement pas technique, mais économique...
      Si Google rend public cet algorithme les concurrents pourront le reprendre et ainsi profiter de la recherche de google (je ne dis pas que c''est mal, je constate). Or le principal revenu de google est la pub. Pub qu'il vend grâce à la "pertinence reconnue" de ses recherches. Si ses concurrents arrivent au même niveau, voir le dépasse...
      Et comme dit plus haut le temps d'adaptation d'un algorithme destiné au traitement d'une telle masse de donnée est extrêmement long. Donc Google ne serait plus en mesure de conserver cette avance (il faut le rappeler c'est une société coté en bourse... Avec tout ce que cela implique.) Et contrairement au LL Google ne vit pas de ses programmes mais de sa capacité à gérer des données, il n'y a donc pas de service au dessus de celui-là qui permettrait de rattraper les pertes. (Cas avec les distrib payantes de nulix ^^ Où les sociétés comptent énormément sur le "SAV").
# Web sémantique

Posté par Jehan (site web personnel, Mastodon) le 26 février 2007 à 20:10. Évalué à 1.

Salut,

bon l'article est un peu vieux apparemment donc il est peut-être normal que le gars n'ait pas approfondi ce bouleversement dans les manières de penser le web. Mais, bien que je ne me tiens pas particulièrement au courant des avancées dans le domaine de la recherche massive, j'ai cru comprendre que le web sémantique commence à prendre de l'importance et que tous les labos de recherche planche là-dessus, sur les moyens d'améliorer la pertinence de recherche web en fonction du contenu et surtout "de son sens".

Le gars évoque un peu ces points en survol sur la partie sur le contenu:

[quote]
Une autre conséquence importante de la définition de PageRank est que le contenu des pages, à l'exception des liens qui y apparaissent, n'a aucune importance pour sa notation et que cette notation est globale
...
[/quote]

Mais ça m'a vraiment déçu qu'il n'approfondisse pas plus ça, qui est ce qui est vraiment intéressant dans l'avenir de la recherche sur le web, je trouve.

Clairement il est clair que la méthode selon laquelle il suffit de trouver des mots recherchés répartis dans une page (et de préférence proches), couplée au pagerank, est insuffisante.
Le web sémantique, ça sert à organiser, et surtout donner un sens aux partis d'un texte web. Ainsi si on cherche des infos sur un gars dont on donne le nom au moteur de recherche, il y a fort à parier que si le nom du gars est dans un titre du texte, il y a des chances pr que ce dernier texte soit plus pertinent sur cette personne que dans un autre où on trouve le nom mélangé à d'autres noms dans un paragraphe par ex.
C'est pourquoi le web sémantique, ça consiste par exemple à donner de la pertinence si on trouve le nom entre des balises hx (et h1 plus pertinent que h2, plus que h3, etc.) que dans une balise p.

De même, ça arrive souvent qu'on recherche l'auteur d'une citation (genre on l'a vu sur un site mais le gars a pas précisé son auteur), ben le web sémantique permet de préciser que ce qu'on cherche est une citation et il va donner priorité à des pages où on trouve les mots cherchés entre des balises "quote".

Au final on devrait même être capable de préciser en recherche avancés nos critères, genre "une page avec tel mot, mais je veux qu'il soit dans un titre de section au moins", etc.

Enfin voilà, pour moi c'est ce genre de truc l'avenir de la recherche web. Si le moteur de recherche a le moyen de connaître le "sens" d'une page, il peut donner des résultats bien plus pertinents.
Evidemment ça implique de devoir bien structurer ses pages (utiliser donc les bonnes balises, séparer fond/forme avec css, etc.), donc un webmaster utilisant simplement les bonnes normes w3c devrait déjà avoir un avantage sur les autres. ;-)

Sinon, je trouve le gars parfois un peu dur avec Google, surtout sur la fin où on dirait qu'il a une dent contre Google. Ceci dit, sur le fond et idéalement, il a pas toujours tort et c'est sûr que si on avait à dispo un moteur de recherche aussi performant (ou presque) et au développement entièrement transparent et Libre, je dirais pas non et serai le premier à me jeter dessus.

Je pense aussi qu'un système qui fait intervenir l'humain pour "noter" la pertinence des sites, et en plus en fonction de "tag" (les mots clés html un peu) en particulier pour dire que c'est en particulier pertinent sur tel ou tel sujet, ça peut rendre bien. Ca permettrait de faire descendre "manuellement" aux oubliettes du web un mauvais site qui aurait une trop bonne position dans le moteur de recherche ou au contraire de pousser au cul un site de qualité mais mal placé.

Bon ça pose qques problèmes et faudra avoir des systèmes pour empêcher les abus. Par ex, des "commerces" de placement pourrait se créer (enfin... ça existe déjà ceci dit, mais là ça crée de nvelles possibilités) avec des gars qui créent des bots qui vont voter en continu pr des sites. Donc faut des scripts pr empêcher les votes multiples venant d'un même ip ou bien qui puisse reconnaître des bots (sans trucs illisibles à recopier par contre!).
Et pis aussi, un bon site mal placé, ça peut aussi être dû au fait qu'il soit mal foutu, codé avec les pieds. Mais qd le contenu est intéressant qd même, la question à se poser reste de savoir si ça vaut le coup de l'aider au référencement, ce qui risque de conforter le webmaster dans la médiocrité d'un code mal écrit s'il voit que ça l'empêche pas de référencer bien.

Enfin bon, y a plein de questions à se poser sur la recherche web et le référencement, et je crois qu'il y a plusieurs chemins très intéressants (à essayer au moins pour certains qui sont peut-être de fausses bonnes idées) à l'heure actuelle. Je trouve vraiment que cet article ne va pas au fond des vraies choses intéressantes dans le monde et l'avenir du référencement web. Il reste très superficiel avec un peu trop de véhémence à l'égard de Google à mon avis.
Bye.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.