Les 3 axes du référencement (et le 4ème bien caché).


Ce billet ne se veut pas technique, c’est juste un retour d’expérience, expérience qui s’étale maintenant sur 13 ans.

Petite précision, quand j’utilise le terme « référencement », c’est dans le sens oldschool de « positionement naturel dans les moteurs de recherche (surtout Google) ».

 

Aujourd’hui, nos leaders d’opinion définissent les 3 pilliers du référencement comme suit :

 

1) E-reputation (réseaux sociaux avec Facebook puis Twitter en pôle position)

 

2) Linking (PR, échange de liens, articles, soumission, farmlinks…)

 

3) Optimisation du site (contenu, arborescence, nombre et structure des pages).

 

La question que je veux poser dans cet article, c’est quand on a X heures de travail à consacrer au réf (ou X€ de budget, le principe est le même), quelle doit être la repartition de nos actions parmi ces 3 axes ?

 

La réponse tient en l’analyse du ratio entre le temps consacré et l’efficacité du résultat obtenu (en terme de positions naturelles, toujours).
Mais également : quelle est leur efficacité à « l’instant T » comme 1 an plus tard ?
Et enfin : quel effort d’entretien doit être fourni en continu et quel est celui à fournir de temps en temps ?

 

En bref, si je passe 1 heure à faire de l’E-reputation, 1 heure à faire du linking ou 1 heure à faire du contenu, quelle heure m’aura été le plus profitable à court comme à long terme ?

 

 

Trustrank et scoring, théorie perso.

 

Je n’ai pas la science infuse, ce que vous allez lire n’est que le résultat de mes déductions perso.

Le scoring d’un site peut être défini comme sa « note de pertinence globale ». Selon la concurrence, le scoring à atteindre pour être positionné est plus ou moins elevé. Simple… ou pas !

En effet, comme le scoring n’a pas de limite, il suffirait donc à un référenceur de booster son score jusqu’à obtenir la 1ère position. Un peu trop facile !

Afin de préserver une certaine stabilité de résultats (et se premunir des spammeurs), quelque soit le score du site, Google met des filtres avant de prendre en compte ce scoring dans sa totalité.

 

Un exemple pour être plus clair.

 

Un site tout neuf est mis en ligne, l’optimisation interne du site est mega top, avec du contenu unique qui relègue wikipedia à une bande d’amateurs (ce qu’ils sont d’ailleurs :p).

Son scoring lui permet d’obtenir la 1ère position sur les requêtes visées.

 

Très bien, mais il est tout neuf et donc pour l’instant Google ne sait pas à quoi s’en tenir. Ca peut être un super site de passionné, comme un site de bidouilleur PHP qui repompe et spin comme un porc.

Dans le doute, Google va prendre 10% de son scoring seulement pour évaluer son positionnement.

 

Au fur et à mesure que le temps passe, il va lever progressivement sa limite à 15%, 20% etc. Mais le temps qui passe n’est pas le seul facteur, il est possible (et nécessaire) d’accélerer le processus. Pour cela des liens provenant des réseaux sociaux (axe 1) comme d’autres sites (axe 2) vont être fortement utiles.

 

Ce n’est pas le splog qui est repris sur Twitter, ce n’est pas le MFA de base qui buzz sur Facebook. Ce n’est pas la moulinette à spam qui fait le tour des bloggeurs (meuh si vont me dire les BlackHats et leurs milliers de splogs à construction pyramidale et leur myriades de faux comptes FB et twitter, mais je vais y venir).

 

 

Pour en revenir à l’interrogation du début : quelle est l’action la plus rentable à court et long terme ? La réponse peut prendre la forme suivante :

 

La pertinence d’un site est son contenu, c’est sa principale source de scoring.
Mais la prise en compte de ce score est conditionné par des facteurs externes (réseaux sociaux et backlinks).

 

Donc, si j’ai 100 heures à consacrer au référencement, le plus rentable est d’en consacrer 60 au contenu, car c’est la source même du scoring, et 20 pour les reseaux sociaux et 20 pour le linking qui sont là pour sa bonne prise en compte.

 

« Ben oui mais » me sortira le vétéran du réf qui a découvert la profession par l’usage de logiciels « LFE like », juste en bombardant de liens je te positionne ce que tu veux (d’ailleurs le google bombing est la preuve la plus flagrante que seuls les liens peuvent suffire).
« Ben oui mais non », ô confrère car il faut prendre en compte ceci :

 

Qu’est ce qui dans le temps perd de sa valeur ?

 

- Contenu => quasi pas de perte (on met de côté les thématiques d’actualité). Le contenu s’aditionne, mais ne se dégrade pas.

 

- Linking => forte perte de la transmission de PR dans le temps. Résultat, effort à fournir de manière constante (dans le but de positionner s’entend). De plus, vue l’engouement des spammeurs pour les linking artificiel, Google oriente tous ses efforts de chasse aux méchants vers la pondération des liens, liens qui ne sont pas sous votre contrôle direct dans le meilleur cas de figure (liens naturels), alors que vous aurez toujours la maîtrise de votre contenu.

 

- Réseaux sociaux => liens en nofollow, retransmission du jus zéro MAIS : aide à l’indexation (délais entre un post sur un profil FB de quelques centaines d’amis et le passage de Googlebot sur la page, à peu près 15 secondes).

 

La bonne tactique (par rapport aux efforts fournis / résultats) est donc :

 

- Avoir un petit écho FB (et éventuellement Twitter, mais FB est plus efficace) pour faciliter l’indexation des pages.

 

- Avoir le linking suffisant pour obtenir la levée des facteurs bridant la prise en compte de l’intégralité du scoring : quelques liens suffisent (classique : quelques annuaires, quelques blogguers, quelques échanges de liens). Le but n’est pas en effet de positionner par le lien, juste de monter le trustrank du site (qui est par défaut de 0).

 

- Consacrer la majorité de son temps à la rédaction de contenu afin d’offrir une belle arborescence pertinente. Le contenu est la matière première des moteurs, et la source de la longue traine (qui represente normalement pour un site même bien référencé sur des mots clés majeurs 60% du trafic). Le contenu est perin, il se capitalise facilement sur la durée.

 

Voilà en substance, il y a matière à dire et à débat je n’en doute pas. Ce sera peut être à developper pour un autre article.

 

Et le 4ème axe d’optimisation dans tout ça ?

 

On en parle un peu, pas assez en tout cas, surtout si l’on considère les choses sous l’angle « effort/efficacité » ! Il s’agit de l’hébergement du site.

En effet, comme Google l’a annoncé cette année, il prend en compte aujourd’hui le temps de chargement des pages. Est ce que cela suffit à être en top position ?
Certainement pas.

 

Mais la montée du scoring pour chaque milliseconde de gagnée n’est pas négligeable et en terme de temps consacré, c’est peanuts (faut juste trouver le bon hébergeur).

 

D’ailleurs, comme c’est mon blog et que je suis chez moi, je vais me fendre d’une pub éhontée (mais méritée).
Il existe en effet pas mal de procédés pour améliorer le temps d’affichage, mais cela dépasse le rôle de l’hébergeur lambda, et à ce niveau je n’ai pas trouvé moins cher pour ce genre de savoir faire que chez DAG. Un article peut être consulté sur le site consacré à leur approche de cette problématique ici : Ameliorer les performances d affichage de vos pages Web.

 

Possible que je me fende d’un article sur « comment créer de faux profils FB avec quelques centaines de vrais personnes en amis en quelques heures ».

 

Que sera sera.

 

Bonne bourre !

 

Jeffer



Prime de fraîcheur, le faux ami


Ah la fameuse « prime de fraîcheur », ce phénomène courant affectant les jeunes sites : peu après leur prise en compte par Google, ils se voient obtenir de bonnes positions sur leurs mot-clés principaux… mais seulement sur une courte période ! Ensuite, ils sont relégués en 30ème ou 40ème position, quand ce n’est pas pire.

 

En fait, le terme « prime de fraîcheur » est un faux ami, le terme exact devrait être « période de test« .

 

Quand Google n’a aucun moyen de jauger de la qualité d’un site par son trafic réel (pas de Google Analytics sur le site), il peut se permettre d’avoir une idée assez précise du comportement des internautes pour un jeune site. En effet un jeune site, dans la très grande majorité des cas, voit sa première source de trafic provenir de Google (ou alors il y a un problème dans l’optimisation du site). Google peut donc (au début en tout cas) avoir une idée assez précise du comportement type des visiteurs par une manip’ assez simple : lors des 3-4 premières semaines, il y a une période (ou il peut y en avoir une, ce n’est pas systématique – possible que ce ne soit le cas seulement si le site est suffisamment optimisé pour etre un candidat potentiel sur des positions sérieuses) où il va booster le site sur les positions visées.
Par cette mise en avant, Google assure sur cette période un trafic tres correct sur le site. Et si il n’a pas accès aux logs de ce dernier… il a accès aux clics sur ses propres résultats :)
Il peut ainsi (peut être) faire une pondération avec le taux de rebond et aussi (plus sûr) évaluer si quelques liens vont être crées « spontanément » via cet afflux de trafic.

 

Le site est ensuite remis en file d’attente (pour un site bien optimisé, c’est souvent en 4ème page de résultats qu’on le retrouve).

 

Ces deux facteurs – taux de rebond et BLs – pendant la période de mise en avant semblent après tests influencer la pondération future du site. Sans rentrer dans les détails de nos expériences (j’ai tenté, ça tournait au roman), ventiler de bons BLs et assurer un trafic d’internautes intéressés via les réseaux sociaux, MSN-like ou mails lors de la « période de test », permet au site de revenir rapidement dans les 1ers résultats avec une remarquable stabilité.

 

C’est en tout cas ce qu’il semble ressortir des différentes politiques de lancement de site que nous avons mises en place, où par ce procédé nous avons réussi à positionner de manière stable un site à partir du 28/01 alors que ça mise en ligne datait du 03 Janvier. 25 jours, c’est un record !

 

Si vous lancez un nouveau site, ne grillez pas vos précieux BL trop tôt, attendez la mal nommée « prime de fraîcheur » et faites alors en sorte de donner les bons signaux, ceux du succès : du buzz et des liens. La période de test ne dure que quelques jours, une bonne connaissance de la fréquence de rafraîchissement de vos référents sera donc un plus.

 

Encore une fois, il s’est écoulé 15 jours entre ce billet et le dernier :x
Beaucoup de boulot en ce moment, autant pour moi que pour Apocalx, EasyGuy et Refmond… je vous rappelle que ce blog peut être aussi votre tribune (à condition que cela ne concerne pas le nouveau logoday de Google ou autres conneries insignifiantes) ! N’hésitez pas à nous contacter et nous proposer votre prose.
Au passage, je salue bien bas les blogueurs qui arrivent à poster un billet par jour, respect, vraiment ! Moi 1 par semaine et je m’essouffle…
Vous faites comment les mecs ? 0o

 

Jeffer



Des algorithmes et des thématiques.


Suivant le chiffre d’affaire généré par un secteur, l’environnement concurrentiel des mots clés qui y sont associés varie de « quasi inexistant » à « saturé ». En fonction du poids de la concurrence, une optimisation plus ou moins poussée est nécessaire.

 

Il est normal que les ORs n’adoptent pas les mêmes grilles d’analyse pour (par exemple) des sites de vente en ligne et des sites universitaires, et n’appliquent pas le même traitement dans un cas ou dans l’autre. Ce qui sera bien vu ici pourra être sans conséquence voire pénalisant ailleurs.

 

Pour le référenceur, il s’agit donc de déterminer qu’elles sont les moyens nécessaires à mettre en oeuvre, ce qui se fait en fonction de la concurrence, et selon quels procédés ils seront appliqués, ce qui se fait selon la thématique.

 

Les actions effectuées sur le site auront pour but de lui faire acquérir un statut d’authority via l’optimisation de l’arborescence, des pages et du contenu. Vient ensuite le travail sur sa notoriété qui sont les actions hors site : la soumission auprès de certains annuaires, la création éventuels de blogs, le recours à son propre réseau de site, l’échange de liens…

 

Au fur et à mesure du temps et de l’expérience, le référenceur peut s’essayer à lister les grandes thématiques (tourisme, vente en ligne, sport, actualités, sexe, communauté, etc.) avec leurs spécificités. Pour ce faire une grille de lecture des résultats lui est nécessaire.

 

En effet, il ne suffit pas de plagier le site positionné en 1er dans les résultats, Google préférant donner des résultats variés. Pour avoir un site « bien vu » par Google, il faut procéder à une étude sérieuse des 20 premiers résultats donnés sur un grand nombre de requêtes afin de dégager deux familles de sites :
- ceux dont on serait satisfait de voir la présence si on était Google, et
- ceux qui n’ont rien à y faire
Les sites de la seconde catégorie peuvent mettre en évidence les failles des algorithmes qui les ont positionnés. Ils seront à étudier très minutieusement.
Les sites de la 1ere catégorie offriront du contenu à reprendre (et à re-rédiger) en cas de contenu faible de la part du site client.

 

 

Au départ, pour obtenir ce « grand nombre de requêtes », il faut donc un thésaurus le plus exhaustif possible de l’activité du site, sa thématique et ses objectifs de communication.

 

C’est à partir de ces informations que va commencer l’appréciation du scoring à atteindre pour réaliser les objectifs de positionnement.

 

 

Les différents critères d’évaluation du scoring : l’approche globale.

 

Le nombre d’occurrences sans les guillemets.

 

C’est un indicateur grossier, car pour peu que les deux mots clés de l’expression soient usuels, le nombre d’occurrences peut être très élevé sans pour autant dénoter d’un environnement concurrentiel difficile. A l’inverse certaines occurrences faibles mais sur un marché réduit et précis vont peut être renvoyés peu de résultats mais qui seront tous tirés de sites optimisés pour les moteurs. Ce critère seul ne suffit pas, il n’est là que pour permettre un ratio avec le critère suivant.

 

Le nombre d’occurrence avec les guillemets.

 

Ici par contre tous les résultats indiqués peuvent être considérés comme des concurrents directs, et même un chiffre aussi réduit que quelques dizaines de milliers correspond à quelques dizaines de milliers de pages à dépasser, ce qui peut s’avérer ardu.

 

Le ratio entre le nombre d’occurrences sans les guillemets et avec.

 

Cela donne une idée du « bruit » autour de l’expression. Plus le ratio est élevé et plus le bruit est important : les résultats donnés ont bien les deux mots clés de l’expression dans leurs pages, mais ces mots sont éloignés l’un de l’autre. Le fait de les avoir simplement contigus sur le site client sera bien sûr un avantage.

 

La présence de nombreux annuaires dans les résultats.

 

Qu’il y ait 1 ou 2 annuaires dans les résultats est normal, au dessus c’est un signe que la thématique a attiré l’attention de « pure players », et que la difficulté à positionner le site sera accrue.

 

Le nombre d’adwords affichés en résultats.

 

Même si Google se défend de mélanger ses bases de données dédiées aux Adwords et ses bases de données dédiées aux résultats naturels, le nombre important d’adwords correspondant à une requête est un indicateur suffisamment révélateur pour qu’il puisse le prendre en compte pour déterminer si une requête concerne un marché porteur de business ou non.

 

La présence de blogs, de sites persos, de forums.

 

C’est un facteur indiquant le besoin purement informatif que Google attribue à la requête (cf Requêtes et algorithmes pour avoir une idée du profil de sites privilégiés par Google selon le type de requête), ce qui donne une indication sur la reactualisation nécessaire du contenu et le poids attribué à l’analyse textuel pour rester positionné.

 

Des résultats avec le nom de domaine à la racine ou non.

 

Si en 1ere page de résultats il n’y en a aucun qui soit sous forme http://www.nomdedomaine.com/rep/page.html mais que ce soit seulement des ndds à la racine, c’est en général signe que le marché est suffisamment trusté et concurrentiel pour que l’indice de popularité soit plus important que le plain text. Si jamais des résultats trouvés un peu plus profondément dans l’arborescence sont indiqués, alors l’optimisation plain text devrait suffire même avec un indice de popularité faible.
Attention, certains sites sont tellement bien pondérés qu’un simple répertoire peut avoir le même poids qu’un ndd à la racine !

 

 

Les différents critères d’évaluation du scoring : les 1ers résultats.

 

En plus de cette approche globale, chaque site peut être analysé plus précisément :

 

- Via google, avec la commande « site:ndd.com ndd » qui indique le nombre de pages présentes dans la base. On peut aussi taper « site:ndd.com mots clés », ce qui donne une idée de l’entendue des efforts fournis par ce site pour être positionner sur ces mots clés.

 

- Analyse des backlinks (ancre, IP du site, PR de la page…il existe plein d’outils ! Si vous voulez indiquer les votres…)

 

- Comparer les résultats via les différents data centers de Google : http://www.seocritique.com/datacentertool/

 

- Connaître l’âge du site via http://web.archive.org/collections/web/advanced.html. Ce critère est important car l’âge du site aujourd’hui est un critère de poids pour Google.

 

- Regarder la version cache de google : celle-ci indique la date du dernier crawl, de plus avec l’option « texte seulement » il permet de détecter un éventuel texte caché et donne une idée précise de la structure de la page.

 

- Analyser la structure du site avec Xenu : à l’origine conçu pour repérer les erreurs 404, il dresse une cartographie précise du site et de ses titres.

 

- GRKDA est un logiciel qui dissèque le contenu textuel d’une page (pourcentage des mots, emplacements etc.).

 

 

Bonne année à tous, avec pleins de sous (bien sûr) et une santé à toute épreuve (surtout !) :)

 

Jeffer



Génération de contenu


Les référenceurs ont très vite compris que le contenu était un aspect essentiel pour élargir sa visibilité sur les moteurs de recherche et donc augmenter le trafic d’un site web.

Même si cela peut paraître relativement évident, il est encore (trop) fréquent de voir des sites sans contenu concret sur la toile.

Et il est vrai que la création d »un contenu original et de qualité n’est pas toujours facile et peut demander un temps important.

Mais il existe des outils de plus en plus efficaces pour générer du contenu de manière automatisée.

Nous allons, dans cet article, examiner un de ces outils …



Content Is King


Bon je passe toute l’argumentation qui prône un contenu de qualité, déjà parce que c’est tellement vrai qu’il n’y a pas matière à débat, mais surtout parce que c’est un poncif qu’on peut trouver sur tout forum ou blog dédié au référencement.

 

C’est en fait ce point que j’aimerai évoquer aujourd’hui.

 

En effet j’aimerai qu’on m’explique comment un référenceur qui s’occupe de kkes dizaines de sites chaque année rédige du contenu de qualité dans des dizaines de domaines différents où il n’est pas expert.

 

Certes, le référenceur peut être de bons voire de très bons conseils pour la communication rédactionnelle d’un site. Apres tout pour obtenir de bons backlinks thématisés rien ne vaut un bon contenu qui peut être cité par des sites à fort PR.

 

Que les blogs ou forums dédiés au référencement nous fassent des laius sans fin sur les vertus du contenu, soit, ils s’adressent à des webmasters dont c’est la principale activité quotidienne. Content is king, + titre & H1 is king + good links is king = l’intégralité des conseils que « les pros de référencement » prodiguent à longueur de threads et de billets depuis des années !

 

C’est quand ces bloggeurs et posteurs prétendent s’adresser à des référenceurs que là je tic.

 

N’en déplaise à nos leaders d’opinion, qui spam comme des creuvures avec la main gauche tandis que la main droite nous mime les vertus de l’intégrité vis à vis des moteurs de recherche, le référencement est l’art et la manière de manipuler le moteur à tous les coups.
Pour ce faire, il faut comprendre les notions de pertinence imposées par les concepteurs d’algorithmes.
Une fois cette « pertinence » cadrée, il faut forcer un tout petit plus la dose que le voisin pour lui passer devant.

 

L’ennui, c’est que face à des sites bien optimisés, ce petit plus peut produire des pages moches (cf La morale dans le référencement, partie blaklistage). Puisque cette optimisation est dédiée aux moteurs et non aux visiteurs, alors autant la cacher !

 

Le référencement historique, c’est l’art de répondre aux attentes des concepteurs d’algorithmes des moteurs sans altérer l’ergonomie propre au site et sans réduire le confort de l’internaute. Bref concevoir une optimisation qui sait se faire oublier.

 

L’ennui, puisque depuis kkes années les leaders d’opinion ont jeté le bébé avec l’eau du bain en assimilant « caché » et « arnaque à l’internaute » (ce qui est une fumisterie, voir encore une fois « La morale dans le référencement« ), ce n’est plus possible pour un référenceur « sérieux » de prodiguer son savoir faire (voir même de proposer des prestations) qui consiste à faire le distinguo entre visiteurs et moteurs : la page devra satisfaire les 2, et tant pis pour le webmaster qui veut se lâcher !

 

C’est finalement un des éléments qui m’a poussé à faire ce blog : dire haut et fort qu’il existe une alternative à la vision dominante et aseptisée de la profession.

 

Jeffer



Requêtes et algorithmes


Les moteurs utilisent de façon systematique les metadatas (non ce n’est pas que des metadatas du <HEAD> dont je parle, cf Historique des moteurs de recherche« ) pour compenser leurs faiblesses en analyse de texte.

 

Cependant les metadatas seuls ne suffisent pas à déterminer ce qu’est un résultat pertinent pour l’internaute (notion de pertinence qui de plus change d’un utilisateur à l’autre). C’est pourquoi les moteurs créent sans cesse de nouveaux filtres afin de diminuer la masse d’informations à traiter au pire, et pour mettre certains résultats en valeur au mieux.

 

A ce titre la formulation de la requête elle même donne lieu à une catégorisation qui va déclencher une pondération plus forte de certains critères et en atténuer d’autres.

 

Les requêtes des internautes peuvent être divisées en 5 grandes familles de requêtes.

 

- Navigationnelles : l’internaute connait déjà le nom de domaine qu’il veut atteindre, mais au lieu de la taper directement dans la barre d’adresse, il le tape dans la box du moteur. Les requêtes navigationnelles représentent entre 20 et 25% des recherches effectuées par les internautes, ceci explique sans doute pourquoi le nom de domaine reste un critère très bien pondéré par Google (le sitelink n’est qu’un symptôme d’une requête navigationnelle, n’en deplaise aux chasseurs de trustrank).

 

- Informationnelles : le but est de trouver un panel de sites répondant à un thème plus ou moins large. Ce sont les requêtes les plus courantes, celles où les ORs vont tenter de mixer dans leurs résultats sites Authorities et Hubs (et de fait c’est la niche la plus souvent exploitée par les référenceurs).

 

- Transactionnelles : l’internaute cherche à acheter, l’analyse plain text s’oriente sur les catalogues, la popularité est très bien pondérée.

 

- Solutionnelles : il s’agit d’une réponse à une question précise, la popularité est mise de coté au profit du plain text (et les forums ont souvent la vedette).

 

- Evenementielles (ou QDF pour « Query Deserve Freshness ») : alors que google a tendance à privilégier les « pages qui ont fait leur preuve », s’il arrive à déterminer que la requête concerne un sujet d’actualité il indiquera dans ses résultats des pages très fraîchement mises à jour, comme des articles de blogs ou tirés de GoogleNews.

 

En fonction du type d’expressions clés que l’on veut positionner, on peut orienter le profil de son site pour correspondre à la famille de requête correspondante.

Certes, la famille « informationnelle » est là plus fréquente et n’est pas détaillée ici. Déjà parce que se sont des requêtes qui contraignent le moteur à la diversité, ensuite parce que je ne fais pas ce blog pour donner des recettes « clés en main » ;)

 

La formulation de la requête est néanmoins une piste rarement évoquée dans les forums connus (et de leurs leaders d’opinion, malgré leurs milliers de posts au compteur), elle a pourtant tout à fait sa place dans les critères à prendre en compte lors de l’optimisation d’un site.

 

Enfin, elle ne peut être ignorée quand, pour comprendre le fonctionnement d’un moteur, on se base sur quelques expressions tests : ces expressions ne sont pas neutres ! Si a cela on rajoute le classement par thématique et les variations de pondération des différents critères qui en découle, voici qui relative nombre de tests…

 

A Lundi prochain :)

 

Jeffer



Historique des moteurs de recherche


Rapide historique de l’évolution des moteurs de recherche pour expliquer pourquoi le capital de Google doit peser plus lourd que celui de Wal-Mart, Coca-Cola ou IBM.

 

Les 1ers moteurs de recherches ont été conçus dans le milieu des années 80 afin de traiter les informations numériques en Intranet (intranets militaires, bibliothécaires, universitaires puis privés).

 

Etonnament, la qualité de l’analyse plain text d’un document n’a que peu évolué depuis, car déjà à cette époque ces moteurs étaient équipés de nombreuses options avancées (recherche dans le titre d’un document, recherche entre guillemets, etc.).

 

De fait, les principaux changements entre alors et maintenant sont plutôt axés sur…l’utilisateur.

 

En effet, à leur début, il semblait normal pour tout le monde d’être formé au maniement d’un moteur de recherche. L’élaboration de celui-ci étant une chose complexe il semblait logique que son maniement le soit aussi.
Et justement, plus une requête est formulée de manière précise, plus le moteur est guidé naturellement vers des résultats pertinents : une requête d’un ou deux mots le laisse dans le flou, alors qu’une requête exploitant toutes les syntaxes avancées lui permet d’établir des filtres qui vont restreindre ses choix en terme de résultats pertinents.

 

Il faut avouer cependant que même à l’époque, et malgré ce contexte, les utilisateurs avaient déjà tendance à taper le moins de caractères possibles. Pour tout dire, bien que la qualification nécessaire pour utiliser un moteur de recherche était à l’aune de critères professionnels, si on les avait laissé faire le taux d’utilisation des syntaxes avancées de recherche auraient peut être été presque aussi bas qu’aujourd’hui (c’est à dire 0,5% des utilisateurs).

 

Cette tendance fut confirmée quand les 1ers moteurs de recherche sortirent des Intranets pour explorer et commencer à indexer le Web dans le début des années 90.
En Intranet, même si la masse d’informations à traiter pouvait être conséquente, elle était sans commune mesure avec les perspectives qu’ouvrait Internet. Et surtout, les utilisateurs devenant plus hétéroclites, les sacro saintes méthodologies à appliquer pour la recherche d’informations via un moteur de recherche furent de moins en moins suivies.

 

Une information est nommée data. Devant la multiplication exponentielle de ces datas apparut rapidement la nécessité de les classer et les catégoriser, ou en d’autres termes, de produire de l’information sur l’information : le metadata.

 

Hors – et c’était encore plus vrai à l’époque – l’élaboration de metadatas est horriblement coûteuse et, à cause de la nature par définition volatile de l’information, est un travail sans fin.
Fin 90s, les outils de recherche pensèrent se tirer d’affaire en élaborant des metadatas (meta description, meta keywords…) qui seraient remplis par l’auteur lui-même.
Le système marcha bien jusqu’à ce qu’un nouvel enjeu fasse son apparition : être bien positionné en 1ère page de résultats d’un moteur était devenu une source importante de trafic pour l’éditeur de contenu.

 

La chute d’Altavista fin 90 est tout à fait révélatrice de cette évolution.
Altavista disposait d’une syntaxe avancée si poussée que même Google n’ose pas la proposer à ses utilisateurs (comme le * à la fin d’un mot qui permettait de chercher simultanément pour l’exemple de « métaphor* » : « métaphore », « métaphores », « métaphorique », « métaphoriquement »… certes il est possible de mettre un * dans une recherche de google mais seulement dans une expression entre guillemets).
Mais Altavista pondérait aussi de manière extrêmement importante (et donc particulièrement naïve) les balises meta description et meta keyword. Ainsi, des sites ne contenant pas de manière visible les mots clés recherchés apparurent rapidement très bien positionnés dans ses pages de résultats.
Parallèlement à ce marasme arrivait un nouveau moteur qui allait utiliser un metadata inédit : « l’indice de popularité » d’une page web, aka le fameux Page Rank.

 

L’appétit de Google envers les metadatas ne s’est jamais démenti, au contraire.
Devant une utilisation destinée à un grand public qui tape en moyenne une requête composées de 2 mots clés, et surtout devant un succès si croissant que sa marque devint un verbe officiellement reconnu de la langue courante (en 2006, et malgré l’opposition acharnée de Google lui-même), Google s’est trouvé aspiré dans la même spirale infernale que le fut feu Altavista : étant la porte d’entrée incontournable que franchissent les internautes pour accéder à un site Web, les éditeurs de sites allaient tout faire pour bénéficier de la meilleure visibilité googlelienne possible.
Dans ce cadre, il était bien sûr hors de question de confier l’élaboration de metadatas aux seuls soins des producteurs de contenus, que les coûts soient faramineux ou non, et ils le furent.

 

Un exemple d’acquisition d’un metadata coûteux fut certainement en 2005, quand Google devint registrar (achetant les droits pour les extensions en .biz, .com, .info, .name, .net, .org et .pro.). Ce ne fut pourtant pas pour vendre des noms de domaines qu’il fit cette acquisition, mais juste pour obtenir un accès illimité aux API whois (qui sont limités à quelques centaines de requêtes par jour pour l’utilisateur lambda). Google acquis ainsi en un coup la connaissance des dates d’expiration des noms de domaines, de leur changement de propriétaires, de l’adresse de leur hébergeur, de la localisation géographique de ce dernier comme de celle du propriétaire, etc.).

 

On peut trouver curieux l’abondance d’outils GRATUITS élaborés par Google et qui ne semblent n’avoir aucun rapport avec les fonctions d’un moteur de recherche : google chrome, google analytics, gmail, googledoc etc… Cela l’est moins quand on considère la foule de metadatas obtenus GRATUITEMENT par le moteur de recherche sur les internautes eux-mêmes comme sur les sites qu’ils fréquentent.

 

Google dispose aujourd’hui d’une hégémonie sur l’information qui pourrait être terrifiante si nous n’avions pas leur fameuse baseline « don’t be evil » assenée suffisamment régulièrement pour nous rassurer. Et globalement, ils semblent s’y tenir (sauf en Chine). Néanmoins Google reste une société privée cotée en bourse, et nul ne sait quand ses fondateurs historiques n’auront plus les moyens d’influer sur les actionnaires.

 

Pourtant, cette masse d’informations sur l’information est la condition sin equa non de la pertinence du moteur. C’est en tout cas la principale arme qu’il leur reste face à la légitime (ou non) exigence de chaque webmaster de bénéficier de la meilleure visibilité possible. Cette pression s’est bien sur accrue par des enjeux financiers devenus énormes (en 2003, l’immonde franao.com qui, à l’aide de la base de données du non moins immonde Espotting (qui s’est racheté une crédibilité en changeant de nom pour Miva) trustait des centaines de milliers de résultats sur Google, et rapportait plus de 150k € par mois à son propriétaire).

 

Voici pourquoi les soit-disant « spécialistes reconnus des moteurs de recherche » qui se demandent régulièrement « si Google n’est pas en train de perdre de vue sa véritable vocation en se diversifiant trop », ne sont platement que des spécialistes de la promotion de leur propre image et ne comprennent rien du sujet qu’ils traitent :)

 

Cependant la principale morale à retenir reste celle-ci : on hurle au loup-big-brother devant l’intrusion de plus en plus poussée de Google dans notre vie privée !
C’est pourtant – tant qu’on ne confiera pas cette tache à une IA – le seul moyen de délivrer des résultats pertinents. La pertinence est une valeur extrêmement suggestive. La captation de cette suggestivité est le principal recours pour un programme idiot d’être à la hauteur de nos attentes.
Google n’essaye pas de créer une IA, il accumule les informations en masse pour en dégager les schémas comportementaux qui correspondent à une demande de pertinence assouvie.
Plusieurs applications concrètes découlent de cette constatation, celles-ci feront peut être l’objet d’un prochain billet.

 

La morale annexe est que – partout et tout le temps – nous générons de l’information (même malgré nous avec l’information comportementale) et cette information a une valeur marchande. Ce n’est pas propre aux moteurs de recherche, c’est propre à notre société (la fameuse ère de l’information he).

 

La maîtrise de l’information comme la maîtrise de son accès est le fruit le plus juteux de la corbeille. A ce titre la profession de référenceur est au coeur de problématiques sociales, politiques et économiques qui donnent le vertige. Malheureusement la masse de référenceurs est composée de gens si médiocres que cet aspect des choses leur passe très loin au dessus de la tête. Quant aux autres le fric reste leur priorité pour le meilleur mais trop souvent pour le pire (le spam de masse, j’y reviendrai).

 

A ma connaissance il n’existe pas de référenceur (moi compris) qui profiterait de son savoir faire comme un super héros profiterai de ses pouvoirs : pour changer et améliorer le monde.
Et pourtant, grâce à la caisse de résonance qu’est devenue le net aujourd’hui et l’assimilation de Google à un media à part entière par l’internaute lambda, un bon référenceur possède des leviers – comme jamais un être humain isolé n’en a disposé – pour influencer la société.

 

Personnellement je ne désespère pas de tomber sur une (ou des) voix que j’aurai envie d’amplifier.
Un jour peut être…

 

En attendant, rdv Lundi prochain :)

 

Jeffer