Journal Le succès de Google est-il mathématique?

Posté par (page perso) . Licence CC by-sa
Tags : aucun
17
19
mai
2013

Cher journal,

Le titre de ce journal est repris à une série de trois vidéos publiée sur une chaîne Youtube par Olivier Mgbra, mathématicien qui s'est donné pour objectif d'enseigner les mathématiques sur internet. A ce jour plus de 1600 vidéos représentant plusieurs centaines d'heures de cours sont disponibles sur les domaines les plus variés.

Ce travail colossal est réalisé par un jeune homme originaire de Côte d'Ivoire et vivant, je crois, au Canada.

Cela faisait quelques temps que je voulais parler ici de ces cours et je découvre aujourd'hui que sa dernière publication concerne notre moteur de recherche le plus aimé et détesté.

Il ne s'agit pas ici de découvrir en quoi et comment Google espionne les internautes mais de comprendre le mécanisme de classement des résultats d'une requête et la notion de page rank, que je connaissais vaguement mais dont je n'avais pas une idée aussi claire.

Je partage donc ici le lien vers ces trois courtes vidéos en espérant qu'elles intéresseront les lecteurs de ce site.

Le succès de Google est-il mathématique? 1
Le succès de Google est-il mathématique? 2
Le succès de Google est-il mathématique? 3

  • # Titre racoleur, vidéo intéressante.

    Posté par . Évalué à -7.

    Généralement, la supériorité technologique n'a pas grand chose à voir avec le succès.

    À mon avis google c'est un peu de théorie des graphe pas très complexe mais bien utilisée, et beaucoup de marketing.

    Please do not feed the trolls

    • [^] # Re: Titre racoleur, vidéo intéressante.

      Posté par (page perso) . Évalué à 10.

      Sur la supériorité technique je pense qu'aujourd'hui la taille et la puissance des serveurs Google lui assure une réelle primauté mais j'ai commencé à utiliser Google vers 1999 et je t'assure que du jour au lendemain le web a pris du sens, la qualité des réponses s'est accrue considérablement et les temps passés sur les annuaires, moteurs de recherches s'est réduit drastiquement.
      Certes les bases mathématiques présentées dans la vidéo ne sont pas d'une complexité extraordinaire, il me semble même avoir compris l'idée, mais la notion de popularité d'une page en fonction du nombre de lien pointant vers elle est clairement définie sur un plan mathématique et je t'assure que ce concept n'avait rien d'évident, sur un plan pratique il y a quinze ans.

      • [^] # Re: Titre racoleur, vidéo intéressante.

        Posté par . Évalué à 2.

        Et puis les vidéos sont sympa (en tant que vulgarisation de l'ordre de Page), mais depuis 98 ça a beaucoup évolué. Le moteur de recherche Google ça fait un moment que c'est pas uniquement basé sur PageRank d'une part, et d'autre part la prouesse technique est autant dans la théorie mise en oeuvre que dans l'implémentation (le temps entre la mis à jour d'une page web et la mise à jour de l'index utilisé par le moteur est de quelques secondes, la quantité de données indexées etc.)

        • [^] # Re: Titre racoleur, vidéo intéressante.

          Posté par (page perso) . Évalué à 3.

          Oui les vidéos sont sympas, Olivier Mgbra est avant tout un passioné de maths qui sait partager ses connaissances et je vous invite à regarder les autres sujets traités dans ses vidéos, c'est un vrai plaisir, même si l'on est pas spécialiste de la question, on se sent moins bête après.

          Pour en revenir aux moteurs de recherche, l'amélioration de la pertinence des résultats s'est faite dans deux directions principales: la force brute avec des algos simples couplés à une puissance de traitement élevée des informations et les moteurs de recherche "sémantiques" qui impliquait d'enseignerau moteur de recherches une "compréhension" de la question au travers d'une heuristique. Les résultats obtenus par Google, et sa position dominante aujourd'hui, favorisés par la loi de Moore et l'évolution des processeurs en général ont donné un clair vantage du premier sur le second.
          Finalement ce qui semble donner les résultats les plus pertinents ce n'est pas une reproduction de la pensée humaine mais bien un système de classement des résultat, la fonction "sens" est déléguée aux auteurs de pages web qui publient des liens en rapport avec certains mots clés.

          • [^] # Re: Titre racoleur, vidéo intéressante.

            Posté par . Évalué à 1.

            Les résultats obtenus par Google, et sa position dominante aujourd'hui, favorisés par la loi de Moore et l'évolution des processeurs en général ont donné un clair vantage du premier sur le second.

            Google fait énormement de sémantique (le cadre à droite dans les résultats de recherche, le cadre qui apparait quand on fait des recherches de type question comme [how old is obama?]).

            Voir aussi: http://www.youtube.com/watch?v=9pmPa_KxsAM&feature=youtu.be&t=2h1m12s (y'a une premiere requete, puis une seconde du type [how far is it from here], et le "here" et "it" sont interprétés correctement).

            • [^] # Re: Titre racoleur, vidéo intéressante.

              Posté par (page perso) . Évalué à 3.

              Je ne doute pas que Google ne tente pas des innovations, mais je me souviens d'une conversation sur les techniques de traduction automatiques avec un doctorant qui m'expliquait, il y a deux ou trois ans que leur méthode en force brute donnait de meilleurs résultat pour traduire du mandarin que toutes les tentatives d'apprentissages.

              • [^] # Re: Titre racoleur, vidéo intéressante.

                Posté par . Évalué à 7.

                Il faut voir ce que tu appelles "brute force", DistBelief (http://research.google.com/archive/large_deep_networks_nips2012.html) c'est le type de brute force utilisé en traduction ou en reconnaissance vocale, ça n'empeche que le but c'est l'analyse sémantique et la compréhension.

                La différence c'est que certaines personnes pensent que le compréhension (AI, si on veut) peut se formuler sous forme de règles, alors que d'autres pensent que c'est plus une question de stats, de données et de puissance de calcul.

          • [^] # Re: Titre racoleur, vidéo intéressante.

            Posté par (page perso) . Évalué à 2.

            N'oublions les bulles des moteurs de recherches.
            http://dontbubble.us/

            • [^] # Re: Titre racoleur, vidéo intéressante.

              Posté par . Évalué à 3.

              C'est quoi le rapport ? (Perso j'aime la personalisation, si je tape [python string], je m'interesse au langage programation pas aux sous-vetements en peau de serpent, idem pour le biais via la geolocalisation).

              Dontbubbleus c'est pour moi une excuse pour justifier une qualité moindre (qui est attendue vu qu'ils font un compromis différent notamment au niveau des logs, mais ils n'ont pas—et ne cherchent pas à avoir—la technologie pour faire de meilleurs résultats).

              • [^] # Re: Titre racoleur, vidéo intéressante.

                Posté par (page perso) . Évalué à 4.

                Le rapport est qu'on parle des choses qui entrent en compte dans ce que nous renvoi un moteur de recherche.

              • [^] # Re: Titre racoleur, vidéo intéressante.

                Posté par (page perso) . Évalué à 2.

                Le rapport est aussi que ça montre l'impact que peu avoir un choix technologique sur le monde, sans qu'on en soit conscient.

                Attention à la facilité. Pour le moment c'est le langage de programmation qui t'intéresse, mais le jour où tu voudras un beau string en peau… comment feras-tu pour le trouver ?

                Perso, je préfère être maitre des filtres plutôt que les filtres soient mes maitres.

                On en revient à une problématique récurrente des nouvelles technologies. Ce qui est favorisé, c'est toujours la facilité d'apprentissage et non la pertinence. L'apprentissage du traitement de texte dans les écoles est à pleurer, car beaucoup croient qu'il faut apprendre un outil facile. Alors que ce serait le bon moment de prendre les bonnes habitudes (structure, puis contenu, puis présentation et pas tout mélangé). Le passage à des outils performant comme latex serait alors facile.
                De la même façon, la bulle nous évite d'apprendre à poser correctement les questions en écartant des mots… C'est sur que ça va plus vite à apprendre, mais on perd l'ouverture…

                • [^] # Re: Titre racoleur, vidéo intéressante.

                  Posté par . Évalué à 1.

                  le jour où tu voudras un beau string en peau… comment feras-tu pour le trouver ?

                  [python string sous-vetement]

                  Un moteur de recherche c'est un outil, tu peux aussi apprendre à l'utiliser (et raffiner ta requete quand t'as besoin)…

                • [^] # Re: Titre racoleur, vidéo intéressante.

                  Posté par . Évalué à 2.

                  Attention à la facilité.

                  On en revient à une problématique récurrente des nouvelles technologies. Ce qui est favorisé, c'est toujours la facilité d'apprentissage et non la pertinence.

                  Tu parles de toi même là non ? Par ce que si tu veux une recherche décontextualisée, il suffit de lire l'aide et de décocher l'option… Le meilleur des deux mondes est disponible.

                  Être maître de la technologie c'est savoir utiliser rationnellement les outils que l'on met à ta disposition en fonction d'un besoin. Par rejeter en bloc un outil par peur. Après c'est des problèmes d'UI/UX pour savoir où et comment exposer telle ou telle fonction.

      • [^] # Re: Titre racoleur, vidéo intéressante.

        Posté par (page perso) . Évalué à 3.

        les temps passés sur les annuaires

        C'est surtout qu'à l'époque c'était essentiellement ça : des annuaires. Donc à part les sites qui se faisaient inscrire dessus, ben on ne trouvais pas grand chose. La grand force de Google à ce moment ça a été de faire un vrai moteur de recherche, en suivant les liens, en apprenant. Et pas en listant bêtement des contenus approuvés.
        Il est donc devenu plus facile de référencer des nouveaux sites, finalement juste par lien entre eux.

        Bon et aussi le fait d'être bien plus rapide et léger que les autres aussi.

    • [^] # Re: Titre racoleur, vidéo intéressante.

      Posté par . Évalué à 8. Dernière modification le 19/05/13 à 18:56.

      À mon avis google c'est un peu de théorie des graphe pas très complexe mais bien utilisée, et beaucoup de marketing.

      C'est surtout la volonté farouche d'innover et d'apporter des produits suffisamment bons aux utilisateurs pour qu'il n'y ait pas besoin d'un marketing massif. Avant Chrome google n'avait que très peu utilisé les canaux traditionnels du marketing, n'empêchant en rien son succès.

      Les plus jeunes ne le réalisent peut-être pas mais des produits comme Earth, Map ou Images ont été des claques phénoménales pour le public en leur temps. Et c'est bien le bouche à oreille qui a entraîné l'adoption massive.

      • [^] # Re: Titre racoleur, vidéo intéressante.

        Posté par . Évalué à -10.

        On ne doit pas avoir la même définition de "bouche à oreille". Quand la "bouche" c'est un grand groupe de presse, ça n'en est plus, ça devient du marketing.

        Please do not feed the trolls

        • [^] # Re: Titre racoleur, vidéo intéressante.

          Posté par (page perso) . Évalué à 10.

          Ouais mais non google au début c'était pas du marketting bien au contraire. C'etait juste le premier moteur de recherche qui ne soit pas farci de pubs lourdingues, avec une page d'acceuil hyper legere et dépouillée, et des résultat incomparablement plus pertinents que les autres. Quand il est apparu google était tout simplement le meilleur, et pas de peu. Et c'est clairement le bouche à oreille qui l'a fait connaitre progressivement, en tout cas moi je faisais partie des gens qui ne pouvaient pas s'empecher de dire aux autre de laisser tomber leur altavista tout moisi et d'essayer ce nouveau moteur de recherche

          • [^] # Re: Titre racoleur, vidéo intéressante.

            Posté par (page perso) . Évalué à 8.

            Puis d'ailleurs, à la base, ils ont tenté de vendre leur concept à Altavista et Yahoo! sans succès, ils ne croyaient pas au principe. C'est un investisseur (de Sun je crois) qui leur a conseillé de monter leur boîte pour le faire…

        • [^] # Re: Titre racoleur, vidéo intéressante.

          Posté par . Évalué à 9.

          On ne doit pas avoir la même définition de "bouche à oreille". Quand la "bouche" c'est un grand groupe de presse, ça n'en est plus, ça devient du marketing.

          On peut savoir de quoi tu parles ?

      • [^] # Re: Titre racoleur, vidéo intéressante.

        Posté par . Évalué à 0.

        N'oublie pas Gmail. Quelle claque quand on a vu qu'on nous offrait 2Go pour les mails, qu'on n'avait plus besoin de trier ses mails, ni de supprimer les anciens.

    • [^] # Re: Titre racoleur, vidéo intéressante.

      Posté par . Évalué à 5.

      « À mon avis google c'est un peu de théorie des graphe pas très complexe mais bien utilisée »

      J'avais passé un entretien au téléphone pour bosser chez Google à Zurich il y a un paquet d'années. Après 30 s de bonjour-comment-ça-va, le type me demande (in english of course) : on souhaite qu'une recherche de deux mots renvoie une seule réponse. On connait pour tous les mots référencés la probabilité d'apparaître dans une page. Quelle valeur choisir pour maximiser la réussite du souhait précédant ?

      Je n'ai pas été pris, donc je ne sais pas si il font des trucs complexes. Par contre je sais que dans la plupart des entretiens que j'ai passé, le sujet habituel était plutôt mon absence de cravate…

  • # il manque la suite...

    Posté par . Évalué à 1.

    J'ai loupé un morceau où dans le système présenté la pertinence de la page par rapport à la requête n'est pas pris en compte pour estimer le meilleur résultat ?

    J'étais peut être distrait, il m'a semblé comprendre que le système énoncé ne tient compte que du maillage de la toile.

    Dans tous les cas j'espère que la 4ieme partie sera publiée un jour prochain !

    • [^] # … ou pas.

      Posté par . Évalué à 3.

      J'étais peut être distrait, il m'a semblé comprendre que le système énoncé ne tient compte que du maillage de la toile.

      Ça correspondrait assez à l’impression que j’en ai depuis un certain temps.

      Scénario typique : je cherche une page sur un sujet un peu pointu, pas le genre de truc qui « fait le buzz », et donc référencée par d’autres pages, mais pas tellement. J’ai oublié l’URL, mais je sais ce que contient la page et donc je cherche sur trois ou quatre termes qui ont peu de chance d’apparaître ensemble dans beaucoup d’autres pages.

      Résultat : Google me sort un tas de pages très populaires — sans intérêt pour moi — qui contiennent un de mes termes de recherche tel quel et un autre remplacé par un mot de la même famille (substantif au lieu d’adjectif ou autre), sauf que c’était le mot exact qui était déterminant.

      Là, je prends un moteur de recherche moins « intelligent », j’entre les mêmes termes de recherche et paf, j’ai la bonne page dans les premiers résultats.

      Moralité : quand je sais je que je cherche, je n’utilise plus Google, j’utilise directement un moteur de recherche qui ne prend pas l’utilisateur pour un con.

      Note : bon, je fais en sorte que Google ne m’identifie pas. Si vous le laissez vous pister, vous avez probablement des résultats plus pertinents, mais par rapport à vos centres d’intérêt, pas par rapport aux termes de la recherche (enfin seulement incidemment).

      Théorie du pot-au-feu : « Tout milieu où existe une notion de hauteur (notamment les milieux économique, politique, professionnels) se comporte comme un pot-au-feu : les mauvaises graisses remontent. »

      • [^] # Re: … ou pas.

        Posté par (page perso) . Évalué à 3.

        Si j'ai bien suivi l'explication la pertinence de la page compte pour 15%, les 85% suivants sont déterminés par le nombre de liens correspondant à une sorte de referendum des internautes sur l'intérêt de ladite page, chaque page faisant hériter de sa propre popularité les pages liées par un lien hypertexte.

        • [^] # Re: … ou pas.

          Posté par . Évalué à 3.

          Merci de la précision (je ne sais pas si elle était dans les vidéos, je ne les ai pas encore vues : je n’ai plus vraiment Internet, j’ai Free…).

          Avec une telle proportion, c’est clair, si tu cherches des informations sur un sujet qui intéresse très peu de monde, Google n’est pas le bon choix…

          Théorie du pot-au-feu : « Tout milieu où existe une notion de hauteur (notamment les milieux économique, politique, professionnels) se comporte comme un pot-au-feu : les mauvaises graisses remontent. »

      • [^] # Re: … ou pas.

        Posté par . Évalué à 4.

        Tu peux utiliser "verbatim search" pour ces cas la (dans search tools -> all results, tu changes pour "verbatim"). Ou alors tu peux rajouter des guillemets sur les termes (ça bloque la synonymisation et autre).

        https://support.google.com/websearch/answer/1734130?hl=en

        • [^] # Re: … ou pas.

          Posté par (page perso) . Évalué à 5.

          Pour ceux qui utilisent Google en français, ça s'appelle « Mot à mot ».

          « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

      • [^] # Re: … ou pas.

        Posté par . Évalué à 0.

        Note : bon, je fais en sorte que Google ne m’identifie pas. Si vous le laissez vous pister, vous avez probablement des résultats plus pertinents, mais par rapport à vos centres d’intérêt, pas par rapport aux termes de la recherche (enfin seulement incidemment).

        Je laisse faire. Mais je peux dire que leur système, n'est pas très fin.
        Je travail pour une société spécialisée dans la cosmétique, et moi homme barbu de 28 ans je peux vous dire que le ciblage est complètement à côté de la plaque.

        Par contre j'avais trouvé que le ciblage opéré par youtube est hautement plus efficace et effrayant.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.