Face aux besoins toujours plus grands de l’intelligence artificielle générative, une partie du monde de l’édition commence à négocier avec les plateformes et les sociétés d’intelligence artificielle (IA). En échange d’une rémunération convenue, l’auteur renoncerait alors à ses droits pour laisser l’IA s’entraîner sur ses œuvres.
C’est notamment le cas du grand éditeur américain HarperCollins qui vient de proposer à certains de ses auteurs un contrat avec une société d’intelligence artificielle. Si l’identité de celle-ci reste à ce jour confidentielle, elle pourrait néanmoins utiliser les œuvres publiées concernées pour entraîner son modèle d’IA générative.
Des œuvres en libre accès contre une rémunération
Dans un courrier consulté par l'AFP, l'entreprise en question propose 2 500 dollars par livre sélectionné, afin d'entraîner son modèle de langage (LLM) pour une période de trois ans. De fait, afin de produire toutes sortes de contenus sur une simple requête en langage courant, les modèles d'IA générative ont besoin d'être nourris d'une quantité croissante de données.
Contacté par l’AFP, l'éditeur a confirmé l'opération. « HarperCollins a conclu un accord avec une société de technologie d'intelligence artificielle pour autoriser l'utilisation limitée de certains titres (...) pour entraîner des modèles d'IA, afin d'améliorer la qualité et les performances des modèles », a-t-il écrit.
Une collaboration qui fâche
La maison d'édition explique également que l'accord « encadre clairement la production de modèles respectueux des droits d'auteur ». L'offre n’a cependant pas convaincu tout le monde, et des écrivains comme l'Américain Daniel Kibblesmith l'ont sèchement déclinée : « Je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d'argent qui ne me demanderait plus de travailler, puisque c'est le but final de cette technologie », s'est indigné l'auteur sur le réseau social Bluesky.
Si HarperCollins est l'un des plus gros éditeurs à avoir passé, à ce jour, ce type d'accord, il n'est pas le premier. L'éditeur américain de livres scientifiques Wiley a donné accès « au contenu de livres académiques et professionnels publiés pour une utilisation spécifique dans la formation des modèles, pour 23 millions de dollars, à une grande entreprise technologique », indiquait-il en mars dernier, lors de la présentation de ses résultats financiers.
Quand l’IA s’invite dans l’édition
En France, si les éditeurs n’ont pas encore autorisé d’accès libre aux œuvres, ils ont néanmoins commencé à solliciter l’IA dans leur production. Notamment avec la génération d’images artificielles, comme a pu le faire la maison d’édition Michel Lafon en 2022, ou plus récemment Gallimard avec Rimbaud est vivant, titre de Luc Loiseaux qui s’est employé à redonner vie aux proches du poète via des illustrations générées par IA.
Mais les collaborations entre éditeurs et sociétés d’IA sont d’une autre teneur et mettent en lumière l’ampleur de l’action des intelligences artificielles génératives, entraînées sur d'immenses quantités de données collectées sur le Web. Jusqu’à, parfois, enfreindre les droits d’auteurs en vigueur.
Pour Giada Pistilli, responsable de l'éthique chez Hugging Face, une plateforme d'IA en accès libre franco-américaine, cette annonce est un pas en avant, puisque le contenu des livres est monétisé. Néanmoins, celle-ci regrette une marge de négociation limitée pour les auteurs. « Ce que l'on va voir, c'est un mécanisme d'accords bilatéraux entre entreprises de nouvelles technologies et éditeurs ou détenteurs de droits d'auteur, alors qu'il faudrait, à mon sens, une conversation plus large pour inclure un peu plus les parties prenantes », dit-elle.
« Le fait qu’il y ait un accord signifie qu’il y a eu un dialogue »
« On part de tellement loin », commente de son côté Julien Chouraqui, directeur juridique du syndicat français de l'édition (SNE). « C'est un progrès : le fait qu'il y ait un accord signifie qu'il y a eu un dialogue et une volonté d'aboutir à un équilibre entre l'utilisation de données sources, qui sont sous droit et qui vont générer de la valeur », a-t-il ajouté.
Face à ces questions, les éditeurs de presse sont, eux aussi, en train de s'organiser. Fin 2023, le quotidien américain The New York Times a lancé des poursuites à l'encontre d'OpenAI, créateur du logiciel ChatGPT, ainsi que de Microsoft, son principal investisseur, pour violation des droits d'auteur. D'autres médias ont, eux, noué des accords avec OpenAI.
La presse américaine a récemment rapporté que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI. « Sur le net, vous récoltez du licite et de l'illicite, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de qualité des données, observe Julien Chouraqui. Si on a à cœur le développement d'un marché sur des bases vertueuses, il faut donc associer l'ensemble des acteurs ».