L’odeur de l’internaute


Pas de billet la semaine dernière pour cause de gastro (je vous passe les détails?).

 

Ce billet n’aurait pas été possible sans les informations que m’a communiqué il y a quelques temps Turillo : merci vieux briscard, et au plaisir de te lire peut être un jour ici même :)

 

L’odeur de l’internaute serait un concept à l’étude depuis kkes années déjà au Googleplex.

 

Il est possible qu’il en soit toujours au stade théorique, ou testé seulement de manière ponctuelle, ou encore mis en application sur le .com seulement. Ceci reste cependant un point de vue intéressant pour appréhender comment Google envisage de réussir sa quête en matière de pertinence des résultats.

 

Google catégorise tout ce qu’il peut afin d’améliorer l’efficience de sa pondération et d’économiser ses ressources. Il catégorise les sites, il catégorise les requêtes, il catégorise les liens…il lui manquait de catégoriser l’internaute.

 

Quelques rappels avant d’aller plus loin :

 

- Google developpa ses algos «  »Query Deserve Freshness » suite à la gigantesque panne de courant qui frappa New York en  2003. En effet les Googleboys notèrent un afflux sans précédent de requêtes (en rapport avec la panne de courant sur la Cote Est) jusqu’alors peut tapées. Ce genre de pic ne peut être interprété que d’une façon : il concerne un événement d’actualité majeur (ce qui implique de fournir des résultats tirés de sites d’actualités, de blogs et forums à l’internaute plutôt que des annuaires ou des wiki-like).

 

- Google dispose en effet aujourd’hui de statistiques de masse qui lui permettent d’avoir une vision sur la noosphère comme jamais une société privée n’en a disposé. De ces milliards de requêtes, des innombrables metadatas qu’il collecte via ses outils gratuits (cf Historique des moteurs de recherche), les googleboys peuvent aujourd’hui déterminer les grands schémas comportementaux de notre inconscient collectif. Les gros chiffres ne mentent pas.

 

- Webmasters, Google ne vous fait pas confiance, et ne fait pas confiance à votre site. Conséquence, il préfère écouter ce que les gens disent de votre site plutôt que ce que votre site dit de lui même. De plus, il peut aujourd’hui juger votre site à l’aune de ces vérités statistiques, rendues fiables par son hégémonie.

 

Néanmoins, faire du cas par cas avec des données de masse, c’est un peu comme sculpter une figurine avec un marteau pilon. La grande majorité de nos requêtes sont suffisamment spécifiques pour demander une analyse comportementale subtile.

 

C’est là que le concept de l’odeur de l’internaute intervient, et il se résume très simplement :

 

Toutes les informations que Google arrive à collecter sur nous sont anonymes mais sont quand même tagguées via un numero d’identifiant unique. Google peut ainsi mettre en place une grille d’analyse de différents profils d’internaute : l’internaute féru d’High tech, de cinema, de cyber-achat etc.
Une valeur plus ou moins élevée est alors donnée à l’internaute en fonctions des profils établis. Les sites que l’internaute visitera bénéficieront d’une partie de cette valeur.
Cette « odeur » s’estompera avec le temps, mais sera réactualisée si cet internaute revient régulièrement sur le site.

 

Alors, après le PR des sites, le PR des internautes (voire Trustrank) ?

 

Une chose est sûre : même la méthodologie la plus solide pour analyser les résultats (pour une bonne base : des algorithmes et des thématiques) est mise de temps en temps en défaut par des sites positionnés de manière incompréhensible. Certains évoquent un facteur purement aléatoire pour expliquer ces incohérences, mais peut être est-ce justement ces données comportementales – gros volume de données donnant une moyenne fiable et « odeur de l’internaute » – qui constituent ces variables qui nous échappent ?

 

Il reste cependant très dur d’en évaluer l’impact, et il est quasi impossible de déterminer si cet impact est systématique, ciblé ou ponctuel.
De plus, à part essayer d’obtenir et de fidéliser un nombre conséquent d’internautes leader d’opinions, au niveau magouilles pour en tirer un bénéfice en terme de positionnement, il n’y a pas grand chose à explorer.
En conclusion, on pourrait de prime abord penser que pour un moteur de recherche, la quête de la pertinence est un effort de R&D toujours plus important pour permettre un jour à un programme de tirer du sens d’un texte. Néanmoins il semble probable que seule une Intelligence Artificielle pourrait se montrer réellement à la hauteur de la tâche.

 

« Heureusement » face à la propagation de l’Internet dans les pays industrialisés ou en fort développement, et le fait que tout y est potentiellement archivable et analysable, une alternative s’est offerte pour reconnaître l’information signifiante sans avoir à la comprendre.
Pour cela Google dispose de deux leviers : les données sur le comportement humain via des statistiques de masse, et une capacité de profiling très aboutie.

 

En clair, Google pourrait bien être tenté de renoncer à comprendre pour singer l’humain qui comprend…et dans l’état actuel de notre technologie il a peut être raison.

 

On peut continuer à crier au loup sur cette volonté d’en savoir toujours plus sur nos us & coutumes de la part du grand G, c’est d’ailleurs devenu un sport international. L’objectif est pourtant noble : avoir un outil de recherche pertinent.
Certes il y a tous les enjeux d’une publicité de plus en plus ciblée en filigrane, mais à ce niveau nous devrions plus nous offuscer de ce genre de chose.

 

Bonne semaine à tous et à toutes !

 

Jeffer

 

[Pour ceux qui sont interessés par l'Intelligence Artificielle, un document inédit de Jean Philippe de Lespinay vous passionnera sans doute : l'Intelligence Artificielle raisonnante : fini les intermédiaires entre utilisateurs et ordinateurs.]


9 Comments, Comment or Ping

  1. 1h que je me balade sur des blogs, forums, textes, … et je lis ce billet. alors, une idée, simple, en forme de ras le bol : classer les sites en fonction d’une note de grammaire/orthographe.
    bon, ok, je sors.
    non, je reste, un peu. Cela ne me dérange pas qu’on me connaisse (un peu), au moins on me propose des choses potentiellement en accord avec mes attentes. mais « (…) statistiques, rendues fiables par son hégémonie » c’est bien ce passage qui me dérange le plus.
    qu’un acteur déclare ce qui est bien ou mal de part ses seules règles me pose un profond problème (voir le bug de ce week-end).

    février 2nd, 2009

  2. referenceurdulundi

    Oh oui ca pose problème !
    On pourrait déjà commencer par un sitting en face des bureaux de mediametrie, c’est moins loin que la Californie :)

    A moins que tu considères que la posture du poing brandi soit un palliatif suffisant ?

    Jeffer

    février 2nd, 2009

  3. nez bouché

    Juste une question : y a t-il un rapport entre ta gastro et le nom de ton billet ? coïncidence ou effet de bord…
    Sinon très bon article :)

    Merci

    février 2nd, 2009

  4. Excellent article, merci. Un peu HS, mais je trouve ça fou que Google puisse prévoir les épidémies de grippe mieux que quiconque grâce au nombre de requêtes sur le mot grippe !

    J’ai entendu dire qu’il commencerait à classer les sites en fonction des clics des internautes dans les SERP…

    En tout cas c’est pour moi une orientation nécessaire dans l’algo de Google ça ne peut qu’améliorer les résultats.

    février 2nd, 2009

  5. referenceurdulundi

    Nez bouché : beuh :p
    En fait il semblerait que ce soit les googleboys eux même qui ont décidé d’appeler le concept ainsi (c’est de l’info de 1ère main he ;)

    Anto : des tests sont en cours pour voir si le nbre de clicks/taux de rebond etc. ont une influence, et si oui si elle est généralisée ou ponctuelle.

    On en reparlera certainement :)

    Sinon oui niveau mémétique ca doit être assez hallucinant d’avoir accès à ce flot de requêtes et de données comportementales. Je serai maître du monde, j’aimerai avoir la même pour prévoir les grands courants sociaux présents et à venir !

    Jeffer

    février 3rd, 2009

  6. Quid

    Mémétique ! Je ne m’attendais pas à voir un jour ce mot sur un blog de ref, comme quoi tout arrive !
    Maintenant, faut-il s’en inquiéter ? ;-)

    février 3rd, 2009

  7. BESCHRELLE

    @QUID
    le compte est bon : 11 lettres
    chronophage
    http://www.starzik.com/extrait1814925-b34fb893705325.mp3

    février 4th, 2009

  1. SEO.Social-bookmark.me - février 2, 2009