Alexis Madrigal pour The Atlantic est allé voir comment fonctionnait l’algorithme de Google Books, nécessairement bien différent du Page Rank, qui mesure lui le poids des liens entre les pages web. Or, il n’y a pas d’hyperliens entre les livres permettant de donner un poids entre les oeuvres les unes par rapport aux autres. Ce qui nécessite de prendre en compte d’autres critères. Le Book Rank de Google prend en compte plus de 100 signaux, explique Matthew Gray, ingénieur logiciel en chef de Google Books. « Lorsque vous recherchez un livre, Google Books ne regarde pas seulement la fréquence des mots ou si votre requête correspond au titre d’un livre. Il prend également en compte la fréquence des recherches, les ventes de livres récentes, le nombre de bibliothèques qui détiennent le titre et combien de fois un vieux livre a été réimprimé. » Autant de signaux sensés améliorer la pertinence du moteur.
Cet algorithme est alimenté par un corpus bien différent de l’algorithme originel. Les pages de résultats comportent moins de données que les pages web, mais ce résultat est plus structuré et il y a moins de spams à combattre. La part la plus difficile à résoudre, estime James Crawford, directeur de l’ingénierie de Google Books, était de déterminer l’intention d’utilisateurs hétérogènes pour déterminer le service de base du résultat d’une recherche. Car c’est peut-être bien là l’un des défauts de la cuirasse. Pour l’instant, le moteur fonctionne pour un utilisateur moyen. Or tous les utilisateurs n’ont pas le même profil de recherche : certaines requêtes vont être plutôt sur les contenus (à la recherche d’un thème ou d’un sujet d’information), d’autres cherchent précisément des titres ou des auteurs. Et ces deux profils n’attendent pas les mêmes résultats d’une requête. « Parfois, les utilisateurs sont à la recherche d’un aperçu. Parfois, ils sont à la recherche d’informations sur cet ouvrage. Parfois encore, ils veulent acheter un exemplaire de ce livre ». Le nouvel algorithme mis en place va plutôt aider ceux qui cherchent spécifiquement un titre plutôt que les autres.
Finalement, comme le moteur de recommandation d’Amazon, bridé pour satisfaire des nécessités marketing, Google Books est optimisé dans un certain but, avec une certaine vision de ce que nous devons y chercher et y trouver. Les ingénieurs qui manipulent l »algorithme de Google Books ont visiblement décidé de favoriser la recherche et le référencement de titres, la vente d’exemplaire, plutôt que la recherche dans l’ensemble du corpus, la mise en perspective de catégories, de mots clefs… C’est un choix. Pas sûr que ce choix leur permette de se démarquer des autres moteurs de recherche de livres, comme celui d’Amazon par exemple, qui semble fonctionner d’une manière assez identique.