Accueil
Le quotidien du droit en ligne
-A+A
Le droit en débats

IA génératives de contenus : pour une obligation de transparence des bases de données !

Alors que les IA génératives inquiètent les titulaires des droits de propriété intellectuelle, la Commission européenne, par la voix de M. Thierry Breton, a affirmé que la réglementation européenne assurait un équilibre entre leurs droits et les intérêts des développeurs d’intelligences artificielles qui souhaitent explorer leurs textes et données… Cette déclaration est intervenue au lendemain d’une prise de position du Sénat qui, dans sa Proposition de résolution européenne, publiée le 30 mars 2023, appelle au contraire à expliciter le respect de la propriété intellectuelle.

Pendant que le Parlement européen examine l’Artificial Intelligence Act (dit « AI Act », dont le projet est d’encadrer l’usage et la commercialisation des intelligences artificielles), les titulaires de droits de propriété intellectuelle expriment de plus en plus d’inquiétudes au sujet des bouleversements que pourraient engendrer les IA génératives sur les métiers de la création. Or, ces inquiétudes seraient vaines, d’après la Commission européenne, puisque si celle-ci reconnaît « la complexité et l’importance de l’interaction entre l’intelligence artificielle (IA) et le droit d’auteur » (v. Réponse donnée par M. Breton au nom de la Commission européenne, 31 mars 2023), elle parvient cependant à la conclusion que le droit actuel assure un équilibre.

Par la voie de Monsieur Thierry Breton, la Commission a notamment posé que les exceptions prévues par la directive européenne (Dir. [UE] 2019/790 sur le droit d’auteur et les droits voisins dans le marché unique numérique) couvrant la fouille de textes et de données sont « pertinentes dans le contexte de l’IA » et assurent « un équilibre entre deux éléments : protéger les titulaires de droits, notamment les artistes, et faciliter l’exploration de textes et de données, notamment par les développeurs d’IA ». D’après la Commission européenne, les nouvelles règles issues de la directive permettraient aux titulaires de droits de refuser que leurs contenus soient utilisés pour l’exploration de textes et de données ; la création d’œuvres d’art par l’IA ne mériterait donc pas une intervention législative spécifique.

Dès lors, elle n’envisage pas de réviser cette directive, mais elle explique qu’elle suivra « de près » les questions que soulève le développement des systèmes d’IA, leur incidence sur les secteurs de la culture et de la création, et l’interaction avec le cadre juridique.

Cette position officielle, qui a le mérite de la clarté, suscite tout de même quelques remarques, quand on sait qu’en pratique, ces fameuses « nouvelles règles issues de la directive » ont du mal à s’appliquer. L’équilibre serait assuré grâce à une clé : l’opt-out, qui permet aux auteurs de s’opposer aux fouilles sur leurs œuvres. Il est pourtant loin d’être atteint en raison du fait que l’opt-out n’est soit pas encore suffisamment appliqué, soit pas respecté quand il est réalisé.

Avant d’en faire la démonstration, il convient de revenir succinctement au cadre légal. Nous verrons également que le fait même de savoir si ces exceptions peuvent s’appliquer au cas des IA génératives de contenus est sujet à débat.

Fouille de textes et de données et droit de l’Union européenne

Si la question de fouilles de textes et de données fait l’objet de débats aujourd’hui, elle n’était sujette à aucune inquiétude spécifique au moment où la directive était discutée. A ce moment-là, personne, ni les négociateurs ni les titulaires de droits, n’avait sans doute cerné tout ce que cette exception pourrait impliquer de manière concrète.

Lorsque l’exception était en cours d’élaboration, c’est au nom de la recherche scientifique qu’elle était d’abord motivée. L’objectif noble de faciliter le travail des chercheurs n’avait pas de quoi inquiéter les titulaires de droits. Si l’on avait su qu’à partir de ces fouilles de textes, des développeurs d’IA génératives seraient en mesure de proposer des images, des textes ou d’autres types de contenus susceptibles de venir concurrencer directement les contenus fouillés, de manière aisée et pour ainsi dire gratuite, sans doute que les négociations se seraient passées autrement…

De plus, lorsque la directive a été publiée, les projecteurs étaient surtout braqués sur l’article 17 (« Utilisation de contenus protégés par des fournisseurs de services de partage de contenus en ligne ») et sur la manière dont les États membres de l’Union pourraient envisager d’engager la responsabilité des GAFAM lorsqu’ils utilisent des données protégées au titre du droit de la propriété intellectuelle.

Cette médiatisation a sans doute mis dans l’ombre certains articles de la directive, à commencer par les articles 3 et 4 qui nous préoccupent tant aujourd’hui : un article 3 relatif aux fouilles réalisées par des organismes et institutions culturels à des fins de recherches scientifiques et un article 4 relatif aux fouilles réalisées par toutes les autres personnes et pour toutes les autres finalités. Ainsi, les textes, images ou données accessibles peuvent être utilisés pour des fins de fouilles de données, sauf si le titulaire des droits a expressément dit qu’il n’était pas d’accord : c’est le principe de l’opt-out.

Fouille de textes et de données et transposition en droit français

Dépourvus des savoirs suffisants pour comprendre les tenants et aboutissants de ces fouilles de données, les intéressés ont également été privés d’un vrai débat parlementaire qui aurait pu éclairer certaines questions lors de la transposition en droit français de la directive puisque, crise oblige, la directive a été transposée en France par voie d’ordonnance (Ord. n° 2021-1518 du 24 nov. 2021). De nouveaux articles ont intégré le code de la propriété intellectuelle (art. L. 122-5-3, R. 122-27 et R. 122-28). Ils définissent la fouille comme la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations.

L’article L. 122-5-3-II du code de la propriété intellectuelle reprend mot pour mot l’article 3 de la directive relatif à la fouille par un organisme ou une institution dans un but de recherche scientifique. Il fait référence à la possibilité de négocier collectivement un accord entre organisations représentatives des titulaires de droits et les organismes de recherches pour définir les bonnes pratiques relatives à la mise en œuvre de ses dispositions.

L’article L. 122-5-3-III du même code transpose l’article 4 de la directive relatif à la fouille par toute autre personne pour tout autre but. Il précise que des copies ou reproductions numériques des œuvres peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille. Il ajoute toutefois que « l’auteur » peut s’y opposer de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis en ligne à la disposition du public.

Quelques remarques s’imposent d’emblée. D’une part, le paragraphe III ne fait aucune référence, contrairement au précédent, à la possibilité de négocier collectivement un accord entre organisations pour définir les bonnes pratiques relatives à la mise en œuvre de ses dispositions, alors même que l’application extrêmement large qu’il implique aurait nécessité de mettre en place un garde-fou et de porter certaines questions à la connaissance des organisations représentatives de titulaires de droits.

D’autre part, la précision « quelle que soit la finalité de la fouille » interroge forcément quand on sait qu’au moment de la transposition, les IA génératives n’étaient pas encore en mesure de créer le cataclysme qui s’annonce aujourd’hui. Or, cette voie ouverte, extrêmement large, semble à première vue légitimer toutes les fouilles, leur finalité étant un élément indifférent. Enfin, on remarquera que l’exercice de l’opt-out est plus restrictif au sein de l’ordonnance puisqu’il est réservé aux seuls auteurs, contrairement à la directive qui vise les titulaires de droits.

Dans sa transposition, l’exception soulève donc des questions, d’autant plus qu’à bien y regarder, il n’est pas certain que toutes les utilisations qui nous semblent litigieuses, à propos des IA génératives, puissent être « légitimées » au nom de cette exception. En effet, l’utilisation de données protégées au titre du droit d’auteur dans le but de produire des données venant en concurrence directe avec les œuvres de départ cause un préjudice direct à l’ensemble des titulaires de droits, soulevant la question du triple test.

Quid du triple test ?

La directive, dans son considérant 6, rappelle que les exceptions et limitations ne peuvent s’appliquer que dans certains cas particuliers qui ne portent pas atteinte à l’exploitation normale de l’œuvre ou autre objet protégé ni ne causent un préjudice injustifié aux intérêts légitimes des titulaires de droits. Elle rappelle ainsi le principe qui a abouti à la création du test des trois étapes. La fouille de données protégées dans le but de créer une IA génératrice de contenus passe-t-elle le test des trois étapes ?

Pour passer la première étape du test, l’exception ne doit concerner que certains cas spéciaux. Par une approche quantitative, une exception serait un cas spécial si son champ se limite à quelques utilisateurs ou à quelques circonstances (voir l’étude complète de S. Dusollier, L’encadrement des exceptions au droit d’auteur par le test des trois étapes, IRDI 2005. 213). Par une approche plus qualitative, l’exception serait un cas spécial en raison d’un « motif clair de politique générale publique ou à toute autre circonstance exceptionnelle » (S. Ricketson, The Berne Convention for the Protection of Literary and Artistic Works: 1886-1986, Kluwer, 1987, p. 482) ou « d’une justification politique, telle que la liberté d’expression, l’information publique ou l’éducation publique » (M. Ficsor, The Law of Copyright and the Internet – The 1996 WIPO Treaties, their Interpretation and Implementation, Oxford University Press, 2002, p. 133).

L’absence d’atteinte à l’exploitation normale de l’œuvre constitue la deuxième étape. Un conflit avec une exploitation normale se produit « lorsque les auteurs sont privés d’une source majeure de revenus, actuelle ou potentielle, qui revêt une certaine importance dans l’ensemble des modes de commercialisation des œuvres de cette catégorie » (M. Senftleben, Copyright, Limitations and the Three-Step Test – An Analysis of the Three-Step Test in International and EC Copyright Law, Information Law Series, La Haye, Kluwer Law International, 2004, p. 194). Les conséquences financières sont déjà constatées, mais les chiffres manquent pour en établir la preuve. Les IA génératives sont ou seront à l’origine d’une distorsion de marché, puisqu’elles permettent de réaliser des contenus à bas coût. Un abonnement au prix d’une dizaine d’euros par mois permet au service de communication d’une entreprise de se charger de l’illustration d’une campagne de publicité, là où ce dernier – normalement dépourvu de compétences suffisantes – aurait dû faire appel à toute une équipe de prestataires extérieurs (B. Laemle et A. Piquard, L’IA bouscule et inquiète le monde de l’image, Le Monde, 11 avr. 2023).

Dans sa récente campagne publicitaire, la marque Undiz a par exemple remplacé ses mannequins, ses techniciens et ses photographes par des modèles générés par Stable Diffusion et Midjourney, à partir de descriptions de maillots de bain réalisées par ChatGPT. Ces pratiques constituent des pertes d’activités et de revenus très concrètes…

L’absence d’un préjudice injustifié aux intérêts légitimes de l’auteur constitue la troisième étape. Séverine Dusollier rappelle que ce dernier critère est surtout un outil visant à apprécier la proportionnalité entre l’octroi de l’exception et la préservation des intérêts de l’auteur : « Il va de soi que le bénéfice d’une utilisation libre attribué par la loi à certains utilisateurs ne fait pas l’affaire des auteurs. Leurs intérêts sont donc forcément préjudiciés ». Or, ce n’est que si ce préjudice est injustifié ou hors de proportion que l’exception doit être considérée illégitime au regard du test (S. Dusollier, L’encadrement des exceptions au droit d’auteur par le test des trois étapes, préc.).

En l’état actuel, c’est tout le modèle économique de la création qui est en danger. Si la propriété intellectuelle peut se voir accaparée, comme c’est le cas aujourd’hui, à travers les intelligences artificielles génératrices de contenus, le préjudice est totalement hors de proportion puisqu’il remet en cause la valeur même de la propriété intellectuelle. Les propriétaires de certaines bases de données ou le PDG de Stable Diffusion exposent d’ailleurs clairement leur objectif de nuire au modèle de la propriété intellectuelle (S. Le Cam et F. Maupomé, Un argumentaire pour une meilleure régulation des IA, Annexe 3).

À notre sens, l’exception ne semble donc pas passer les trois étapes, d’autant plus que le seul garde-fou qui permettrait d’en remettre en cause la vigueur, à savoir la possibilité pour le titulaire d’opt-out, est inefficace…

Inefficacité du principe de l’opt-out

L’opt-out n’est pourtant pas simple à mettre en œuvre ni à faire respecter : si en apparence, l’exception est facile à écarter (l’indication de son opposition dans les conditions générales du site semblerait suffire…), la multiplication des occurrences du même contenu en ligne rend les choses extrêmement complexes. On peut aussi se demander, en l’absence de transparence des bases de données, si les développeurs honorent ces demandes…

Si l’auteur peut exercer son opt-out pour que son contenu ne soit pas l’objet de fouilles, beaucoup de personnes tierces peuvent utiliser ce même contenu de manière tout à fait légale (parce qu’ils ont reçu une autorisation limitée), tout en n’ayant pas été aptes à procéder à cet opt-out.

Par exemple, un auteur et un éditeur pourraient s’opposer à toute fouille sur la couverture d’un livre, tout en donnant la permission à une librairie de la diffuser en ligne pour promouvoir le livre. Or, puisque la librairie n’est concrètement pas apte à réaliser une opposition à la fouille de l’image, il faudrait alors que les titulaires soient vigilants pour que leurs efforts ne soient pas vains. Et beaucoup de lecteurs partageront cette couverture sur leurs pages personnelles, leurs réseaux, pour faire part de leur coup de cœur ou d’une critique à l’ensemble de leur communauté. Et si l’auteur et l’éditeur ont tout intérêt à ce que cette couverture circule sur les réseaux parce que, de cette manière, ils multiplieront leurs chances de vendre le livre, on voit que, d’un autre côté, c’est un risque supplémentaire que l’image en question finisse par être absorbée et fouillée par des IA génératives.

Et l’on peut se poser légitimement la question de savoir si l’exercice de l’opt-out n’intervient pas trop tard. Depuis 2019, ce sont des millions d’images et de textes protégés au titre du droit d‘auteur qui sont déjà venus nourrir ces bases de données, avant même que les auteurs et leurs titulaires n’aient eu le temps d’être informés de leurs possibilités d’actions. On ne voit que depuis quelques mois le résultat de ces fouilles à travers les contenus générés par ces IA. Et aujourd’hui encore, les titulaires des droits sont à peine sensibilisés aux conséquences des fouilles et à la manière dont ils peuvent mettre en place ces conditions d’opt-out. En somme, les IA génératives continuent d’évoluer de jour en jour et le travail d’information est loin d’être achevé (v. un exemple allemand plutôt inquiétant, C. Xiang, A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead, Vice, 28 avr. 2023).

Si l’opt-out est réalisé de manière appropriée, la question se pose de ce qu’il adviendra de l’ensemble des algorithmes réalisés à partir de données dorénavant opt-out, et du destin des données produites sur la base de contenus qui ont fini par être l’objet d’opt-out. Peuvent-elles être utilisées dans une nouvelle fouille, par exemple, alors que les données initiales qui ont permis de les réaliser sont maintenant hors du champ des fouilles ? De la même manière, on questionnera le destin de l’IA entraîné avant la réalisation de l’opt-out.

Au-delà des possibilités d’opt-out, on sait aujourd’hui que les jeux de données utilisés pour entraîner les IA ne respectent pas certains droits fondamentaux, notamment les droits de respect de la vie privée et du droit de la protection des données personnelles. Qu’adviendrait-il des IA générées à partir de ces données s’il y avait une condamnation des bases de données ? Le régulateur américain de la concurrence, la FTC, paraît avoir répondu à cette question, puisqu’il semble décidé à sanctionner les entreprises coupables de violation de la loi sur les données personnelles, en les obligeant à détruire les programmes développés à l’aide des données collectées de manière illicite (R. Karayan, La destruction d’algorithme, nouvelle arme de dissuasion massive de la FTC, L’usine digitale, 25 mars 2022).

En somme, si en théorie, ces possibilités d’opt-out rendent l’exception de fouilles moins vigoureuse, on voit qu’en pratique, l’objet même de la directive (UE) 2019/790 de tendre vers un juste équilibre, n’est clairement pas atteint.

Il en résulte déjà des conséquences pour les métiers de la création qui inquiètent les professionnels et nous semblent suffisamment importantes pour demander la mise en œuvre dans les meilleurs délais d’une véritable obligation de transparence, seule garantie d’un meilleur équilibre.

Vers une obligation de transparence renforcée

La clé de l’équilibre consiste dans l’exercice par les titulaires de l’opt-out, mais comment être certain que l’opt-out soit respecté dès lors que les bases de données sont privées et en manque de transparence ?

A titre d’exemple, LAION est une base de données d’images largement utilisée par l’ensemble des acteurs. Comme d’autres, elle a été conçue de manière délibérée en circonvenant aux protections pourtant mises en place par le propriétaire des droits (comme des watermarks) et elle a été construite de manière explicite contre le concept même de propriété intellectuelle. Des échanges entre les propriétaires et responsables de cette base de données sont, en ce sens, très évocateurs (S. Le Cam et F. Maupomé, Un argumentaire pour une meilleure régulation des IA, Annexe 3, préc.).

Cette base, si son contenu pose question, permet néanmoins, parce qu’elle est ouverte, de mettre en lumière tous les problèmes que posent ces fouilles de données, en matière de respect des droits d’auteurs, de non-respect de l’opt-out, de non-respect du droit à l’image et des données personnelles. Mais quid des nombreuses autres bases créées par de nombreux autres acteurs du domaine ? Que contiennent-elles ? On ne le sait pas parce qu’il n’y a aucune obligation de transparence. Ainsi, est-il tout simplement impossible pour un titulaire de droit ou une institution de se retourner contre la plupart des acteurs si ceux-ci ne respectaient pas les cadres fixées. Ce défaut de transparence prive le cadre européen d’un équilibre entre la protection des titulaires de droits et les intérêts des développeurs d’IA, raison pour laquelle il doit donc être repensé.

L’Artificial Intelligence Act européen ne traitera probablement pas de manière spécifique de la question des droits de propriété intellectuelle, il serait pourtant primordial qu’il consacre au minimum une obligation de transparence incombant aux propriétaires des bases de données. L’absence d’une telle consécration serait un mauvais signal pour les professionnels de la création et un champ des possibles démesuré pour les développeurs d’IA.