Analyse de l’importance des pages par les moteurs de recherche

De la popularité des liens au PageRank

Les moteurs de recherche disposent d’une base de données qui décrit les liens entre les pages du Web. Cette structure, que l’on appelle souvent le graphe du Web, permet de mesurer la popularité relative de chaque page. Historiquement, Google a utilisé l’algorithme de PageRank pour attribuer à chaque page une valeur numérique reflétant l’importance que lui accordent les autres pages qui la citent. Cette valeur ne se calcule pas à chaque requête. Elle est estimée en amont, stockée, mise à jour à intervalles réguliers et utilisée ensuite comme l’un des facteurs qui interviennent dans le classement des résultats.

Le moteur ne se contente pas de compter les liens. Il tente de repérer les stratégies de maillage artificiel, comme les réseaux de sites créés uniquement pour échanger des liens, les fermes de liens ou les schémas de spam. Lorsqu’un profil de liens est jugé non naturel, la contribution de ces liens à la popularité de la page diminue, voire disparaît. La popularité fondée sur les liens ne repose donc pas seulement sur la quantité de liens entrants, mais aussi sur la qualité perçue des sites qui les émettent et sur la cohérence de la structure globale.

Du PageRank global au PageRank thématique

Le PageRank d’origine attribuait une valeur unique à chaque page, sans distinguer les sujets. Avec le rachat de la société Kaltix et l’évolution des travaux académiques, des variantes thématiques du PageRank ont été conçues. Le principe du PageRank thématique consiste à ventiler la popularité d’une page selon plusieurs axes sémantiques. Une page n’a plus une seule valeur de popularité, mais un ensemble de valeurs qui reflètent son importance dans différentes thématiques de l’index du moteur.

Concrètement, chaque page peut être décrite par deux vecteurs distincts. Le premier contient les scores de PageRank thématique qui mesurent la popularité de la page dans chaque grande thématique définie en interne. Le second reflète les pourcentages d’adéquation de la page à ces thématiques, c’est à dire la probabilité que son contenu appartienne à tel ou tel domaine. Lorsqu’une requête s’inscrit plutôt dans un univers donné, le moteur peut privilégier la composante du PageRank correspondant à cette thématique et accorder moins de poids aux autres.

Thématiques de PageRank et clusters thématiques

Les thématiques utilisées pour un PageRank thématique ne correspondent pas directement aux clusters thématiques tels qu’on les conçoit en SEO. Les clusters thématiques sont des regroupements de contenus au sein d’un site, organisés autour d’un sujet précis, avec une page pilier et des contenus associés. Ils constituent un outil de structuration éditoriale et de maillage interne pensé par l’éditeur du site. Les thématiques exploitées par le moteur pour ventiler la popularité fonctionnent à une tout autre échelle. Ce sont de grands ensembles sémantiques définis par le moteur lui-même, parfois inspirés de classifications éditoriales, parfois issus de traitements statistiques sur de très gros volumes de données.

On peut imaginer que des milliers de clusters thématiques issus de sites différents se retrouvent agrégés dans une même thématique interne du moteur. En revanche, il n’existe aucune information publique qui décrive précisément le nombre de thématiques réellement utilisées ni leur granularité. Les travaux académiques qui ont inspiré ces approches utilisaient un nombre relativement limité de catégories, mais les moteurs modernes peuvent en utiliser davantage ou combiner plusieurs niveaux de classification. On ne peut donc pas affirmer que les thématiques de PageRank se confondent avec les clusters SEO, ni indiquer un nombre exact de thématiques. Il s’agit de deux niveaux de structuration différents, l’un interne au moteur, l’autre propre à chaque site.

Autres algorithmes de popularité et signaux d’autorité

La popularité d’une page ne se réduit pas au PageRank, qu’il soit global ou thématique. Les moteurs ont développé de nombreux autres indicateurs pour mesurer l’autorité et la fiabilité des documents. Certains critères s’intéressent à la fraîcheur des liens, à la stabilité de la popularité dans le temps, à la diversité des domaines référents ou encore aux signaux de confiance que renvoient certains sites considérés comme sources fiables. D’autres algorithmes partent des mêmes données de liens, mais appliquent des modèles différents pour mettre en avant des pages jugées plus robustes face au spam ou mieux adaptées à certains types de requêtes.

Il est largement admis que Google n’utilise pas un seul algorithme isolé pour classer les pages. Le moteur combine un grand nombre de signaux, de modèles et de scores, parmi lesquels on trouve des mesures de popularité issues des liens, des analyses de contenu, des signaux comportementaux, des éléments liés à la qualité perçue des sites et des modèles d’apprentissage automatique. Selon la nature de la requête, le contexte, le type d’appareil ou la localisation, certains signaux prennent davantage d’importance que d’autres.

On peut donc raisonnablement considérer que des algorithmes alternatifs ou complémentaires au PageRank interviennent dans le calcul final, non pas à la place de celui ci, mais comme pièces d’un ensemble. Le moteur agrège ces informations dans un modèle de classement qui produit un score global pour chaque document en réponse à une requête donnée. La pondération précise des différents signaux, les algorithmes exacts utilisés et la manière dont ils sont activés pour telle ou telle requête ne sont pas détaillés publiquement. Ce qui est certain, en revanche, c’est que la popularité fondée sur les liens reste un pilier important, mais qu’elle est désormais intégrée dans un système beaucoup plus large, où le PageRank n’est qu’un élément parmi de nombreux autres facteurs d’autorité et de pertinence.