Les éditeurs définissent un nouveau protocole d’indexation pour les moteurs de recherche

Les éditeurs définissent un nouveau protocole d’indexation pour les moteurs de recherche

Les éditeurs de presse et de livres viennent de mettre au point de nouvelles règles pour l’accès et l’archivage des contenus de leurs sites Internet par les moteurs de recherche.

Par Hervé Hugueny
avec hh Créé le 15.04.2015 à 22h43

Regroupé au sein du projet ACAP, pour Automated Content Access Protocol, l'Association mondiale des journaux (WAN), le Conseil européen des éditeurs (EPC) ainsi que l'Association internationale des éditeurs (IPA) viennent de présenter un nouveau programme qui définit les règles d’accès et d’archivages des contenus de leurs sites Internet par Google, Yahoo, Live, Exalead, A9.com, etc.

Il existait jusqu’à maintenant un seul outil, baptisé robots.txt, utilisé par tous les sites, qui définissait trop basiquement les modalités d’accès, presque limitées à « ouvert » ou « fermé », selon la perception des éditeurs.

L’ACAP précise avec plus de nuances les accès et les droits attachés à l’information mise en ligne par tous les producteurs de contenu : indexation, copie d’extraits, du tout, archivage, durée de la conservation des copies, à destination des moteurs de recherche uniquement – les internautes n’étant en rien concernés par ces règles.

Pour indexer, classer et restituer les contenus des sites en fonction des interrogations des internautes, les moteurs de recherche disposent de programmes (« web crawlers »), qui explorent en permanence les contenus, les copient, et les conservent éventuellement sur leurs propres ordinateurs.

La puissance de Google, mais aussi Yahoo !, Microsoft Live, pour les trois premiers d’entre eux, a provoqué depuis près de deux ans des conflits avec les entreprises délivrant beaucoup de contenus sur leurs sites Internet, la presse étant la première concernée.

Les quotidiens et magazines ont l’impression d’être pillés par les moteurs de recherche, qui aspirent leur information et accaparent ensuite les revenus publicitaires générés par l’audience dont ils disposent auprès des internautes.

Mais les éditeurs de presse ne peuvent se passer de ces moteurs pour que leurs sites soient repérés par le public. D’où la nécessité de créer de nouvelles règles, qui n’interdisent pas l’accès par les moteurs de recherche, sans en laisser tous les contenus à leur disposition et usage.

La presse est en première ligne pour le moment, mais les éditeurs seront aussi concernés avec l’enrichissement de leurs sites et la numérisation de leurs fonds. Quelques éditeurs scientifiques américains et européens font d’ailleurs parties des entreprises qui ont participé aux travaux de développement : John Wiley & Sons, Macmillan/Holtzbrinck, Random House, Reed Elsevier.

Le succès de l’ACAP dépendra de son adoption par les éditeurs des sites, mais surtout par les moteurs de recherche. Ils s’étaient montrés distants lors du lancement du projet, mais s’affichent maintenant plus coopératifs. Yahoo! et Exalead ont déclaré leur adhésion, Google et Microsoft n’ont rien formulé officiellement.

Toute l’information, la définition, les règles d’usage de l’ACAP se trouvent sur www.the-acap.org.

15.04 2015

Auteurs cités

Les dernières
actualités