"Mon anonymat sert plusieurs objectifs, explique Data Guy, joint par mail. D’une part, je suis aussi un auteur autoédité de fiction, et je suis de fait un acteur de cette industrie du livre. J’ai ainsi des relations contractuelles avec les revendeurs dont AuthorEarnings aspire les données."
"Cet anonymat me permet de travailler sans arrière-pensée, et en évitant de m’interroger sur la réaction que ces revendeurs pourraient avoir à propos de l’information que je communique", ajoute-t-il, habitué à devoir expliquer les raisons du mystère qu’il entretient.
"D’autre part, lorsque j’ai lancé AuthorEarnings, j’ai aussi été contacté en tant qu’écrivain par des éditeurs intéressés par un de mes romans, et je ne voulais pas d’interférence entre ces deux activités, pour maintenir une intégrité et une indépendance absolues, insiste-t-il. J’ai cependant communiqué mon identité à plusieurs journalistes aux Etats-Unis, qui ont repris mes propos en presse ou en radio, mais sans me citer nommément. A ces conditions, je n’ai aucune réserve pour m’exprimer", conclut celui qui était apparu pour la première fois en public lors de la conférence Digital Book World de janvier dernier. Des photos de cet inconnu ont été publiées à cette occasion.
Ancien directeur technique d’un important producteur de jeux vidéo, secteur où il a puisé le cadre méthodologique de son enquête, le cocréateur d’AuthorEarnings (avec l’auteur de SF Hugh Howey) s’explique aussi sur son travail : si tout est diffusé gratuitement dans l’intérêt des auteurs, il est "fréquemment missionné comme consultant par de grands éditeurs, distributeurs, groupements d’auteurs, fonds d’investissement s’intéressant à l’édition, pour collecter des données et réaliser des études pour leur compte".
Un "Web crawler"
Quant à la méthode, elle paraît simple dans le principe : un robot numérique, un "Web crawler", relève en permanence les classements des meilleurs ventes publiées et actualisées constamment sur Amazon, l’iBooks Store d’Apple, Kobo, Barnes & Noble et en déduit des volumes de ventes.
Pour ce faire, il a obtenu les relevés de ventes réels et quotidiens d’auteurs. "Plus d’un millier d’entre eux, représentant des dizaines de milliers de titres, me transmettent aujourd’hui leurs chiffres", assure-t-il. A partir de ces séries de données complètes (ventes et classements correspondants), il devient possible de déduire la diffusion des titres pour lesquels seul le classement est connu, y compris ceux qui n’apparaissent jamais dans les tableaux des 100 premiers : pour chaque titre, Amazon indique en effet son rang, même très bas.
En utilisant les ressources louées sur les plateformes spécialisées (dont Amazon Web Services), les calculs et relevés sont effectués à l’aide de 250 serveurs qui scrutent 1,5 million de références par heure. "S’il faut ajouter de la puissance de calcul, il suffit de louer plus de serveurs", remarque Data Guy. Ce n’est pas exhaustif, mais Bookscan ou Pubtracks ne le sont pas plus. Ce robot est symbolisé par une araignée exploratrice de la Toile, dont le créateur d’AuthorEarnings a fait son logo.