Historique des moteurs de recherche


Rapide historique de l’évolution des moteurs de recherche pour expliquer pourquoi le capital de Google doit peser plus lourd que celui de Wal-Mart, Coca-Cola ou IBM.

 

Les 1ers moteurs de recherches ont été conçus dans le milieu des années 80 afin de traiter les informations numériques en Intranet (intranets militaires, bibliothécaires, universitaires puis privés).

 

Etonnament, la qualité de l’analyse plain text d’un document n’a que peu évolué depuis, car déjà à cette époque ces moteurs étaient équipés de nombreuses options avancées (recherche dans le titre d’un document, recherche entre guillemets, etc.).

 

De fait, les principaux changements entre alors et maintenant sont plutôt axés sur…l’utilisateur.

 

En effet, à leur début, il semblait normal pour tout le monde d’être formé au maniement d’un moteur de recherche. L’élaboration de celui-ci étant une chose complexe il semblait logique que son maniement le soit aussi.
Et justement, plus une requête est formulée de manière précise, plus le moteur est guidé naturellement vers des résultats pertinents : une requête d’un ou deux mots le laisse dans le flou, alors qu’une requête exploitant toutes les syntaxes avancées lui permet d’établir des filtres qui vont restreindre ses choix en terme de résultats pertinents.

 

Il faut avouer cependant que même à l’époque, et malgré ce contexte, les utilisateurs avaient déjà tendance à taper le moins de caractères possibles. Pour tout dire, bien que la qualification nécessaire pour utiliser un moteur de recherche était à l’aune de critères professionnels, si on les avait laissé faire le taux d’utilisation des syntaxes avancées de recherche auraient peut être été presque aussi bas qu’aujourd’hui (c’est à dire 0,5% des utilisateurs).

 

Cette tendance fut confirmée quand les 1ers moteurs de recherche sortirent des Intranets pour explorer et commencer à indexer le Web dans le début des années 90.
En Intranet, même si la masse d’informations à traiter pouvait être conséquente, elle était sans commune mesure avec les perspectives qu’ouvrait Internet. Et surtout, les utilisateurs devenant plus hétéroclites, les sacro saintes méthodologies à appliquer pour la recherche d’informations via un moteur de recherche furent de moins en moins suivies.

 

Une information est nommée data. Devant la multiplication exponentielle de ces datas apparut rapidement la nécessité de les classer et les catégoriser, ou en d’autres termes, de produire de l’information sur l’information : le metadata.

 

Hors – et c’était encore plus vrai à l’époque – l’élaboration de metadatas est horriblement coûteuse et, à cause de la nature par définition volatile de l’information, est un travail sans fin.
Fin 90s, les outils de recherche pensèrent se tirer d’affaire en élaborant des metadatas (meta description, meta keywords…) qui seraient remplis par l’auteur lui-même.
Le système marcha bien jusqu’à ce qu’un nouvel enjeu fasse son apparition : être bien positionné en 1ère page de résultats d’un moteur était devenu une source importante de trafic pour l’éditeur de contenu.

 

La chute d’Altavista fin 90 est tout à fait révélatrice de cette évolution.
Altavista disposait d’une syntaxe avancée si poussée que même Google n’ose pas la proposer à ses utilisateurs (comme le * à la fin d’un mot qui permettait de chercher simultanément pour l’exemple de « métaphor* » : « métaphore », « métaphores », « métaphorique », « métaphoriquement »… certes il est possible de mettre un * dans une recherche de google mais seulement dans une expression entre guillemets).
Mais Altavista pondérait aussi de manière extrêmement importante (et donc particulièrement naïve) les balises meta description et meta keyword. Ainsi, des sites ne contenant pas de manière visible les mots clés recherchés apparurent rapidement très bien positionnés dans ses pages de résultats.
Parallèlement à ce marasme arrivait un nouveau moteur qui allait utiliser un metadata inédit : « l’indice de popularité » d’une page web, aka le fameux Page Rank.

 

L’appétit de Google envers les metadatas ne s’est jamais démenti, au contraire.
Devant une utilisation destinée à un grand public qui tape en moyenne une requête composées de 2 mots clés, et surtout devant un succès si croissant que sa marque devint un verbe officiellement reconnu de la langue courante (en 2006, et malgré l’opposition acharnée de Google lui-même), Google s’est trouvé aspiré dans la même spirale infernale que le fut feu Altavista : étant la porte d’entrée incontournable que franchissent les internautes pour accéder à un site Web, les éditeurs de sites allaient tout faire pour bénéficier de la meilleure visibilité googlelienne possible.
Dans ce cadre, il était bien sûr hors de question de confier l’élaboration de metadatas aux seuls soins des producteurs de contenus, que les coûts soient faramineux ou non, et ils le furent.

 

Un exemple d’acquisition d’un metadata coûteux fut certainement en 2005, quand Google devint registrar (achetant les droits pour les extensions en .biz, .com, .info, .name, .net, .org et .pro.). Ce ne fut pourtant pas pour vendre des noms de domaines qu’il fit cette acquisition, mais juste pour obtenir un accès illimité aux API whois (qui sont limités à quelques centaines de requêtes par jour pour l’utilisateur lambda). Google acquis ainsi en un coup la connaissance des dates d’expiration des noms de domaines, de leur changement de propriétaires, de l’adresse de leur hébergeur, de la localisation géographique de ce dernier comme de celle du propriétaire, etc.).

 

On peut trouver curieux l’abondance d’outils GRATUITS élaborés par Google et qui ne semblent n’avoir aucun rapport avec les fonctions d’un moteur de recherche : google chrome, google analytics, gmail, googledoc etc… Cela l’est moins quand on considère la foule de metadatas obtenus GRATUITEMENT par le moteur de recherche sur les internautes eux-mêmes comme sur les sites qu’ils fréquentent.

 

Google dispose aujourd’hui d’une hégémonie sur l’information qui pourrait être terrifiante si nous n’avions pas leur fameuse baseline « don’t be evil » assenée suffisamment régulièrement pour nous rassurer. Et globalement, ils semblent s’y tenir (sauf en Chine). Néanmoins Google reste une société privée cotée en bourse, et nul ne sait quand ses fondateurs historiques n’auront plus les moyens d’influer sur les actionnaires.

 

Pourtant, cette masse d’informations sur l’information est la condition sin equa non de la pertinence du moteur. C’est en tout cas la principale arme qu’il leur reste face à la légitime (ou non) exigence de chaque webmaster de bénéficier de la meilleure visibilité possible. Cette pression s’est bien sur accrue par des enjeux financiers devenus énormes (en 2003, l’immonde franao.com qui, à l’aide de la base de données du non moins immonde Espotting (qui s’est racheté une crédibilité en changeant de nom pour Miva) trustait des centaines de milliers de résultats sur Google, et rapportait plus de 150k € par mois à son propriétaire).

 

Voici pourquoi les soit-disant « spécialistes reconnus des moteurs de recherche » qui se demandent régulièrement « si Google n’est pas en train de perdre de vue sa véritable vocation en se diversifiant trop », ne sont platement que des spécialistes de la promotion de leur propre image et ne comprennent rien du sujet qu’ils traitent :)

 

Cependant la principale morale à retenir reste celle-ci : on hurle au loup-big-brother devant l’intrusion de plus en plus poussée de Google dans notre vie privée !
C’est pourtant – tant qu’on ne confiera pas cette tache à une IA – le seul moyen de délivrer des résultats pertinents. La pertinence est une valeur extrêmement suggestive. La captation de cette suggestivité est le principal recours pour un programme idiot d’être à la hauteur de nos attentes.
Google n’essaye pas de créer une IA, il accumule les informations en masse pour en dégager les schémas comportementaux qui correspondent à une demande de pertinence assouvie.
Plusieurs applications concrètes découlent de cette constatation, celles-ci feront peut être l’objet d’un prochain billet.

 

La morale annexe est que – partout et tout le temps – nous générons de l’information (même malgré nous avec l’information comportementale) et cette information a une valeur marchande. Ce n’est pas propre aux moteurs de recherche, c’est propre à notre société (la fameuse ère de l’information he).

 

La maîtrise de l’information comme la maîtrise de son accès est le fruit le plus juteux de la corbeille. A ce titre la profession de référenceur est au coeur de problématiques sociales, politiques et économiques qui donnent le vertige. Malheureusement la masse de référenceurs est composée de gens si médiocres que cet aspect des choses leur passe très loin au dessus de la tête. Quant aux autres le fric reste leur priorité pour le meilleur mais trop souvent pour le pire (le spam de masse, j’y reviendrai).

 

A ma connaissance il n’existe pas de référenceur (moi compris) qui profiterait de son savoir faire comme un super héros profiterai de ses pouvoirs : pour changer et améliorer le monde.
Et pourtant, grâce à la caisse de résonance qu’est devenue le net aujourd’hui et l’assimilation de Google à un media à part entière par l’internaute lambda, un bon référenceur possède des leviers – comme jamais un être humain isolé n’en a disposé – pour influencer la société.

 

Personnellement je ne désespère pas de tomber sur une (ou des) voix que j’aurai envie d’amplifier.
Un jour peut être…

 

En attendant, rdv Lundi prochain :)

 

Jeffer


14 Comments, Comment or Ping

  1. toms

    Interessant votre billet.
    A Lundi prochain alors :-)

    septembre 15th, 2008

  2. Je suis impressionné par autant d’objectivité : très bonne analyse !

    septembre 15th, 2008

  3. De l’histoire, j’adore !

    septembre 16th, 2008

  4. Excellent, voila un blog qui promet, de plus à lire le lundi, parfait ;)

    Ton blog est validé sur notre site au passage, ce fût avec plaisir, tu passes en coup de cœur d’ailleurs.

    A bientôt, surement lundi prochain ;)

    septembre 18th, 2008

  5. J’apprécie que tu parles de l’impact que peut avoir le référenceur sur le monde, c’est un sujet rarement évoqué.

    septembre 18th, 2008

  6. En espérant que ce magnifique billet sera le commencement d’une longue série.

    septembre 18th, 2008

  7. AP73

    Un article écrit si finement et avec tant de justesse, exprimant tant de choses mérite d’être relu, et vivement la suite ! Vivement lundi prochain!

    septembre 18th, 2008

  8. A lire sur le sujet pour avoir un autre angle d’analyse :
    -http://soleilvert.hautetfort.com/

    J’ajouterai que le problème des moteurs de recherche aujourd’hui c’est de ne pas arriver à comprendre qu’un service peut être utilisé par plusieurs milliers de personnes sans pour autant figurer dans les premières pages.
    ( ‘D’ailleurs je ne sais pas comment fait la SNCF pour être si bien placée ; personnellement je ne connais aucun site qui mette un lien dessus !)
    Aujourd’hui il ne suffit pas d’avoir de bonne idées et des bons produits, il faut aussi savoir amadouer Mr Google : est-ce bien normal ?

    octobre 16th, 2008

  9. referenceurdulundi

    Mouaip, je viens de lire « ton autre angle d’analyse », et à part une serie de clichés bateau ou complétement faux y a pas grand chose à se mettre sous la dent.

    Jeffer

    octobre 16th, 2008