Accueil
Le quotidien du droit en ligne
-A+A
Le droit en débats

To be or not to be…transparent - Pour un principe matriciel de transparence dans l’environnement numérique

À l’heure où les législateurs s’intéressent à la régulation de l’IA, il est temps de soutenir un principe transversal de transparence dans l’environnement numérique. Le respect d’un droit en général (ou la preuve de son atteinte) en cas d’usage de systèmes d’IA ne saurait en effet être garanti sans transparence au risque de se muer en simple déclaration de principe. Et plus fondamentalement, sans transparence, c’est au droit à un recours effectif que l’on attente.

Par Alexandra Bensamoun le 03 Décembre 2023

Mise au point. Le sujet n’est pas anecdotique. Plusieurs professionnels américains de la culture, revendiquant un encadrement de l’usage des intelligences artificielles (IA) dans le secteur audiovisuel, ont été en grève plusieurs semaines et de multiples procès sont en cours aux États-Unis, contestant l’utilisation non autorisée de contenus protégés pour « nourrir » les IA génératives. Les organisations culturelles françaises ont, par des tribunes notablement fédératrices des différents secteurs, saisi d’une seule voix le monde politique pour partager leur inquiétude. L’ensemble des acteurs de l’information (presse, télévision…) s’attachent aux enjeux de la désinformation (avec notamment les États généraux de l’information en France ou l’Executive Order d’octobre 2023 aux États-Unis). L’IA générative a donc fait une entrée fracassante dans le monde des arts, de la culture et des médias1.

Pour mettre un terme à une querelle – stérile – des anciens et des modernes, affirmons dès à présent que l’IA est une chance. Une promesse de croissance économique, évidemment, mais aussi un gage de progrès, de renouvellement, de transformation inédite. Peu de virages techniques ou technologiques offrent de tels horizons, encore très partiellement explorés. Mais cette promesse ne saurait se réaliser par le sacrifice d’autres droits, d’autres valeurs. L’opposition que certains tentent de soutenir, comme un paravent, entre l’innovation et la régulation, entre la technologie et la culture, est vaine, voire dangereuse. La régulation porte nos valeurs, nos choix politiques, moraux, et même économiques. La technologie se nourrit de la culture, la culture a toujours absorbé la technologie. Par ailleurs, sauf à considérer que le législateur aspire systématiquement à attenter à la croissance économique, la posture n’est pas soutenable. Tout encadrement normatif, quelle que soit sa juridicité (droit dur, soft law) et sa méthode (système a priori de responsabilisation et compliance, système a posteriori de responsabilité), poursuit de multiples objectifs qu’il s’agit de concilier au mieux. Enfin, faut-il rappeler que l’intérêt général n’est pas l’affaire d’acteurs privés ? Tentons donc cet exercice d’équilibre – d’équilibriste ? – sans dogmatisme.

IA génératives et création. La mise à disposition, très récente, des IA génératives a suscité la réaction du monde de la culture et des médias. En effet, fondés sur des modèles probabilistes alimentés par l’expérience, ces systèmes mettent en œuvre des raisonnements inductifs pour construire des résultats. Pour ce faire, ils se nourrissent de « données » qui vont servir à leur entrainement, permettant à la machine d’inférer des règles et de générer ensuite des contenus. Les données entrantes, qui peuvent être constitués de contenus sous droits (œuvres littéraires, musicales, audiovisuelles, interprétations…), sont souvent récoltées par web crawling. Certaines bases dont le contenu est inconnu, douteux, voire illégal, ont également pu servir à l’entraînement de ces systèmes. Pour les grands modèles de langage (LLM), on peut citer par exemple Books3 ou encore MassiveText:books2.

D’aucuns réclament un « moratoire » sur le droit d’auteur et les droits voisins (ou sur tous les droits ?), une suspension des droits, le temps de la mise au point de la technologie. Outre le fait que la technologie est déjà bien présente et que son amélioration sera sans doute constante, on ne renonce pas aussi facilement à des droits fondamentaux, sauf à manquer à nos engagements internationaux. Et la mise à disposition des outils en « open source » n’y changerait rien. Non seulement l’ouverture est souvent partielle et peu d’outils sont en réalité en open source3, mais encore un système d’IA générative « ouvert » peut très bien être utilisé ultérieurement à des fins commerciales.

Exceptions de fouille de textes et de données. L’opération de déconstruction et d’analyse amont des contenus est appelée fouille de textes et de données. En Europe, la directive (UE) 2019/790, dite « Digital Single Market » (DSM), l’a définie comme « toute technique d’analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d’en dégager des informations, ce qui comprend, à titre non exhaustif, des constantes, des tendances et des corrélations ».

Certains contestent cependant cette qualification pour l’entraînement des IA génératives dans la mesure où l’exception n’avait absolument pas été anticipée pour ce type d’usages. D’évidence, le législateur de 2019 n’avait en aucun cas imaginé la situation contemporaine. L’exception est d’ailleurs apparue de manière tardive et subreptice, au cours des travaux, alors que l’hypothèse couverte avait été rejetée dans l’analyse d’impact sur la modernisation des règles de l’Union européenne en matière de droit d’auteur accompagnant notamment la proposition de directive sur le droit d’auteur dans le marché unique numérique, en raison de ses conséquences négatives majeures pour les titulaires de droits. En ce sens, la référence à l’absence de compensation en considération du « préjudice minime » (consid. 17 de la dir. [UE] 2019/790) est aujourd’hui contestable au vu du contexte. Les discussions européennes contemporaines semblent cependant pencher en faveur de la qualification d’opération de fouille. Quoi qu’il en soit, le législateur européen a posé dans cette hypothèse deux exceptions/limitations obligatoires (que les États ont donc l’obligation de transposer) au droit d’auteur, aux droits voisins et au droit sui generis, aux articles 3 et 4.

La première exception, réservée au secteur académique, bénéficie aux organismes de recherche et institutions du patrimoine culturel qui effectuent des fouilles à des fins de recherche scientifique. Essentielle à la recherche académique, l’exception ne peut faire l’objet d’un aménagement contractuel (à la baisse) et les titulaires de droits ne peuvent s’y opposer. La seconde exception (ou limitation) est ouverte à tous les usages, quelle que soit la finalité (y compris commerciale), sous réserve toutefois que le titulaire n’ait pas exprimé son opposition (droit de retrait, également appelé opt-out).

Ces exceptions, transposées en France par l’ordonnance n° 2021-1518 du 24 novembre 2021 (CPI, art. L. 122-5-3), ne constituent pas pour autant des autorisations sans conditions. D’abord, seul le droit de reproduction (ou d’extraction) est concerné. C’est dire qu’aucune communication au public, même partielle, des contenus fouillés ne saurait être tolérée. Un contenu généré qui reprendrait des éléments protégés des entrants seraient assurément une contrefaçon. Ensuite, l’exception est soumise à l’exigence d’un accès licite aux contenus protégés, par un contrat, un abonnement ou une autre voie légale. Sur ce point, l’accès licite semble également inclure les contenus librement accessibles en ligne (v. consid. 18 de la dir. [UE] 2019/790). Reste à savoir ce qu’est un contenu librement accessible en ligne. Peut-on seulement imaginer que le dernier Prix Goncourt puisse être considéré comme « librement accessible en ligne » d’une quelconque manière que ce soit ? L’évidence dément parfois la vraisemblance. L’exception ne saurait en effet s’appliquer aux fouilles réalisées à partir de sites ou de fournisseurs de services dont l’objectif principal ou manifeste est de se livrer à du piratage de droit d’auteur ou d’autres droits ou de le faciliter4. Imaginer le contraire ruinerait le principe même de la protection.

Dans ce cadre, la fouille d’un contenu protégé qui ne respecte pas ces conditions (accès licite, respect de l’opt-out…) constitue une contrefaçon dans la mesure où l’acte d’exploitation n’a pas été autorisé par le titulaire de droits.

Entraînement sans acte d’exploitation ? Pour certains cependant, l’exception ne s’appliquerait pas aux hypothèses de l’entraînement des IA génératives à la faveur d’un déplacement du raisonnement sur l’amont. Pour qu’il y ait un besoin d’exception, encore faut-il en amont qu’il y ait un acte d’exploitation donnant prise au droit. Or, l’existence même d’un acte d’exploitation pour caractériser les opérations des IA génératives a pu être contestée dans la mesure notamment où l’œuvre n’est pas utilisée en tant que telle et où l’acte de reproduction technique n’est pas assimilable à un acte de reproduction juridique. C’est ici aller bien au-delà de ce que dit le droit. Pour le moment, à tout le moins. En l’état du droit positif, le droit de reproduction est largement défini par l’article 2 de la directive 2001/29/CE comme « le droit exclusif d’autoriser ou d’interdire la reproduction directe ou indirecte, provisoire ou permanente, par quelque moyen et sous quelque forme que ce soit, en tout ou en partie ». La mention, dans le droit français, d’une « fixation matérielle de l’œuvre par tous procédés qui permettent de la communiquer au public de manière indirecte » (CPI, art. L. 122-3) ne permet aucunement d’en tirer des conséquences certaines, non seulement en raison de l’ancienneté de la définition nationale, mais encore à la faveur de la supériorité du droit européen. Il en est de même de la jurisprudence européenne, sauf à généraliser un raisonnement spécifique5.

Par ailleurs, si les modèles génératifs n’ont pas pour objectif de dupliquer les œuvres, la réalisation de bases d’entraînement nécessaires à leur fonctionnement nécessite bien cette opération. Ainsi, au-delà de la lecture des textes, les œuvres préexistantes constituent la source à partir de laquelle des contenus sont ensuite générés. Difficile d’exclure de ce point de vue une exploitation. Pour l’heure, rien n’indique donc qu’une telle disqualification de l’acte d’exploitation soit envisageable.

Efficacité du droit d’opposition. La révélation des IA génératives et de la masse des ressources utilisées par les modèles d’IA a eu un fort écho dans l’écosystème culturel qui dénonce ici un « pillage », là une « spoliation ». En réaction, beaucoup ont choisi d’exercer leur droit d’opposition de manière générale, pour recouvrer un contrôle sur leurs contenus. Les démarches sont encore récentes et fragiles et on ne saurait d’ailleurs en faire un reproche. La révélation des IA génératives a quelques mois et la prise de conscience de leurs capacités est encore en cours. En outre, la technicité de la démarche – l’opt-out devant, selon le texte, être « lisible par machine » – et sa faisabilité à l’échelle individuelle inquiètent, d’autant que son efficacité est variable en fonction des techniques utilisées. Plus encore, de nombreuses questions restent en suspens : faut-il exercer l’opposition sur un contenu ou sur tous les contenus reproduits en ligne ? En pratique, la multiplicité des cessions (qui est le principe même de l’exclusivité accordée) rend illusoire une opposition efficace. Et comment gérer les diffusions totalement étrangères à la chaîne contractuelle – la photo souvenir devant un tableau, la couverture d’un livre mise sur un réseau social pour partager un témoignage… ? Quid également de l’interopérabilité des techniques utilisées en fonction des plateformes ? Un standard commun ne devrait-il pas être adopté ?

Effectivité du droit d’opposition. Mais au-delà de l’efficacité du droit d’opposition, c’est bien son effectivité qui est en jeu. En effet, en l’absence d’un principe de transparence des sources, le droit d’opposition reste théorique : il lui manque l’accroche qui permet non seulement de vérifier sa prise en compte, mais encore de prouver son non-respect, ou encore d’en tirer les conséquences économiques, comme la négociation d’une licence ou le paiement d’une rémunération. C’est d’ailleurs sur le terrain de la preuve qu’une action judiciaire aux États-Unis a en partie échoué. Dans cette affaire, il est bien reproché à Stability AI, DeviantArt et Midjourney, par trois artistes, d’avoir entraîné sans autorisation leurs systèmes d’IA génératives sur les bases de données LAION (Large-scale Artificial Intelligence Open Network), qui inclut les œuvres des trois plaignants6.

De la même manière, l’absence de transparence des sources ne permettra pas, en Europe, de vérifier si la base d’entraînement contient des contenus protégés non autorisés (par ex. qui aurait fait l’objet d’un opt-out). L’existence d’un droit n’est rien si son effectivité ne peut être vérifiée.

Absence d’effectivité et test en trois étapes. Au-delà, il serait aujourd’hui loisible de s’interroger sur la validité de l’exception de fouille de texte et de données au regard du test en trois étapes, qui constitue, depuis la directive 2001/29/CE, un filtre supplémentaire, à la disposition du législateur comme du juge, susceptible de corriger une situation devenue inéquitable. Comme le confirme le considérant 6 de la directive (UE) 2019/790, « Les exceptions et limitations prévues dans la présente directive tendent vers un juste équilibre entre les droits et les intérêts des auteurs et autres titulaires de droits, d’une part, et des utilisateurs, d’autre part. Elles ne peuvent s’appliquer que dans certains cas particuliers qui ne portent pas atteinte à l’exploitation normale de l’œuvre ou autre objet protégé ni ne causent un préjudice injustifié aux intérêts légitimes des titulaires de droits ». Le cas est-il toujours spécial au vu des usages ? Même si on imaginait un système de licences « en bloc », n’y aurait-il pas concurrence avec l’exploitation normale de l’œuvre dans la mesure où émergerait ici un marché ? La génération de contenus « dans le style de… » n’est-elle pas susceptible de porter atteinte aux intérêts légitimes du titulaire ? L’usage intensif des contenus culturels pourrait dès lors réinterroger la légitimité de l’exception de fouille de textes et de données.

Absence d’effectivité et garantie de l’exception. Par renvoi à l’article 6 paragraphe 4, alinéa premier, de la directive 2001/29/CE, l’article 7 de la directive (UE) 2019/790 impose que les exceptions de fouille de textes et de données soient garanties par les Etats membres qui doivent, pour ce faire, « prendre des mesures appropriées ». En France, la mission de préservation du bénéfice des exceptions est exercée par l’ARCOM, en vertu de l’article L. 331-6 du code de la propriété intellectuelle. De ce point de vue, on comprendrait mal que l’Autorité ne soit pas en mesure d’assurer cette effectivité de l’exception en raison justement de l’ineffectivité de certaines de ses conditions intrinsèques. À défaut, il faudrait comprendre que le législateur européen a entendu créer une action impossible à mettre en œuvre… On ne peut s’y résoudre.

La nécessaire transparence des sources. En dépit de ces interrogations sur l’exception même, il est clair que seule la transparence sur les sources ayant permis l’entraînement des IA en amont permettra de vérifier le respect de l’opt-out mais aussi la condition d’accès licite au contenu protégé. A défaut, ces conditions resteront lettre morte. Au-delà, si cette exception ne devait pas s’appliquer (soit que les conditions fassent défaut, soit que le test en trois étapes la paralyse), la preuve de l’atteinte est impossible sans transparence.

Il s’agit donc, en imposant la transparence, non pas de créer une nouvelle règle (qui devrait relever de l’évidence), mais de rendre effective des règles déjà de droit positif. Cette exigence de transparence ne saurait d’ailleurs être réduite à une interdiction, comme le portent certains détracteurs. Elle autorisera au contraire la négociation en vue d’une rémunération. Elle ne vise par ailleurs pas à limiter l’usage de l’IA à des fins créatives et culturelles.

Et de s’interroger : du point de vue des principes, que penser d’une règle juridique ineffective car, en quelque sorte, inachevée ? La situation questionne incontestablement le juriste. Le législateur est guidé par un principe de rationalité – d’autres préfèrent parler de cohérence globale du système – qui suppose qu’il ne fait rien d’inutile. Quelle serait donc l’utilité d’une disposition qui aurait vocation à rester théorique ? Comment assurer l’équilibre voulu par le législateur dans l’article 4 de la directive si les conditions sont en réalité neutralisées ? Dans ce cadre, on pourrait s’interroger la validité de la disposition.

Faisabilité technique de la transparence. La transparence des sources a été pratiquée par certains acteurs du numérique7, prouvant que l’obstacle technique n’est pas soutenable, pas plus que le caractère disproportionné de la démarche. En ce sens, LLaMA-2 (Meta) n’est pas accompagné d’une documentation sur les données d’entraînement, comme l’était la première version8. Or, non seulement les contenus protégés sont souvent associés à des données d’identification9, mais encore il existe déjà des outils de gestion de données à grande échelle, permettant de tracer et organiser les données d’entrainement en détectant celles corrompues ou mal identifiées.

Au-delà, la pertinence des résultats générés dépend aussi souvent de la qualité des données. Pour évaluer une IA et offrir des garanties à ses utilisateurs, la documentation sur les sources est indispensable. En ce sens, les éventuelles responsabilités ne pourraient être caractérisées sans transparence. La pratique des « datasheets » est d’ailleurs répandue chez les développeurs d’IA. Dans un souci de transparence, Google a développé en 2020 les « model cards », qui peuvent notamment documenter les données d’entrainement, y compris par la référence à des listes de noms de domaine.

Modalités de mise en œuvre. Comment mettre en œuvre, dans le texte, cette obligation de transparence des sources qui permet de s’assurer du respect des droits de propriété littéraire et artistique ? Certains proposent la mise à disposition d’un « résumé détaillé » des sources utilisées pour entraîner les modèles ou systèmes. Si cette voie était suivie, il serait utile de disposer d’un standard, un canevas qui pourrait par exemple être élaboré par le Bureau de l’IA (envisagé dans l’AI Act), en accord avec les parties prenantes. Certains acteurs sont réticents à cette publicité, avançant la divulgation d’informations stratégiques. Rappelons qu’il ne s’agit pas là de rendre public le traitement des données ou encore un savoir-faire qui pourrait être protégé par le secret des affaires, mais seulement les sources utilisées. La transparence pourrait aussi se concrétiser par le bénéfice pour les titulaires de droits d’un droit d’accès, à demande, pour peu que l’information de l’utilisation de contenus protégés soit bien présente et qu’un point de contact soit clairement identifié. Dans tous les cas, l’information devrait être suffisamment complète pour permettre le respect de l’acquis communautaire, et notamment aux titulaires d’exercer leurs droits. Enfin l’intermédiation d’un tiers de confiance, d’un « signaleur de confiance » (comme dans le DSA), pourrait être envisagée pour répondre à certaines inquiétudes.

Position européenne. Le législateur européen n’ignore pas cette limite révélée par la prolifération des IA génératives. Le sujet est précisément l’objet de discussions houleuses en trilogue de l’AI Act (prop. de règl. COM(2021) 206 final, 21 avr. 2021).

En amont, c’est-à-dire considérant la phase d’entraînement des systèmes, la présidence espagnole du Conseil, à la suite des propositions du Parlement européen, a repris les obligations de l’article 28 b 4 visant à renforcer la protection des droits de propriété littéraire et artistique face aux modèles de fondation. Deux principes sont de ce point de vue soutenus : l’obligation pour les fournisseurs de modèles de fondation de démontrer qu’ils ont pris les mesures nécessaires pour que l’entraînement de leurs modèles respecte les droits (notamment l’exercice de l’opt-out) et l’obligation de « rendre public un résumé suffisamment détaillé de l’utilisation des données protégées par le droit d’auteur pour entrainer l’IA ».

En aval, s’agissant de l’out-put, l’article 52 de l’AI Act propose également une transparence informationnelle en cas de contenu généré par une IA et qui pourrait à tort être perçu comme véridique ou (hypertrucage ou deepfake). À l’heure des fake news, cette exigence doit être reçue non seulement comme un outil de repérage pour les citoyens face à la massification de l’information (vraie ou fausse), mais aussi comme un rouage indispensable de la démocratie.

La séparation des dispositions est liée à l’évolution du texte. Mais il serait aujourd’hui très pertinent de fonder une obligation de transparence transversale, sans lien d’ailleurs avec les seuls modèles de fondation. En effet, l’avenir est à des applications spécifiques, spécialisées, développées sur ces modèles géants (modèles de base, sorte d’« OS d’ordinateurs intelligents ») entrainés sur une quantité massive de données.

Pour un principe matriciel de transparence dans l’environnement numérique. En réalité, la transparence n’est pas un enjeu uniquement dans le secteur de la culture et des médias. Tous les droits en dépendent : la non-discrimination, la protection de la personne, de ses données personnelles10, de son autonomie informationnelle, celle des droits du consommateur, du citoyen et même la défense de la démocratie ou encore la proportionnalité en cas de conflit entre deux droits fondamentaux… Le respect d’un droit en général (ou la preuve de son atteinte) en cas d’usage de systèmes d’IA ne saurait être garanti sans transparence au risque de se muer en simple déclaration de principe. Le lien entre l’effectivité et la transparence est alors essentiel11. Et plus fondamentalement, sans transparence, c’est au droit à un recours effectif que l’on attente.

On peut certes se contenter d’incantations. On peut aussi tenter de rendre ces droits effectifs et poursuivre un objectif d’équité, une quête de vérité. Il suffit pour s’en convaincre de noter que la transparence irrigue l’ensemble des textes européens récents en droit du numérique. Il y est renvoyé 31 fois dans le règlement « Digital Services Act » (DSA, 2022/2065, 19 oct. 2022), 15 fois dans le règlement « Digital Markets Act » (DMA, 2022/1925, 14 sept. 2022), 21 fois dans le règlement « Data Governance Act » (DGA, 2022/868, 30 mai 2022)…

D’évidence, cette quête n’est donc pas liée à l’IA. Elle ne doit pas ici être limitée aux seuls modèles de fondation. La transparence est un principe matriciel, qui s’imposerait donc à tous les systèmes, conformément à l’état de l’art.

Insécurité juridique et concurrence. En France, comme dans d’autres pays européens, l’utilisation de contenus protégés par la propriété littéraire et artistique pour entraîner les IA est contestée. Aux États-Unis, plusieurs contentieux sont en cours pour déterminer si l’hypothèse est ou non couverte par le fair use. En Europe, une question préjudicielle pourrait bien être posée à la Cour de justice de l’Union européenne sur l’application de l’exception de fouille de textes et de données. Considérant les délais de traitement des affaires judiciaires, les réponses n’interviendront, dans tous les cas, que dans plusieurs années.

Est-il dès lors de bonne méthode de laisser la technologie se développer sur des bases aussi fragiles ? Que se passera-t-il si, à terme, l’illicéité est prononcée ? Quelles seraient les conséquences au regard notamment du droit de la concurrence ? Sur ce point, l’analyse de la FTC (Federal Trade Commission) auprès de l’US Copyright Office est éloquente. L’autorité américaine considère que les risques juridiques pris par les acteurs de l’IA sont problématiques au regard du droit de la concurrence et des données personnelles. Elle relève notamment des risques de fraude, de concurrence déloyale, d’obtention de pouvoirs de marché, particulièrement par intégration verticale, d’absence de protection des consommateurs, d’atteintes aux données personnelles… Le respect du copyright, qui ne peut se passer de la transparence des sources en amont, apparaît de ce point de vue comme un élément majeur d’une saine concurrence. Et celle-ci est d’autant plus nécessaire que l’Europe ne connaît pas encore de géants parmi les fournisseurs d’IA.

Les risques de verrouillage des marchés par des acteurs non européens sont élevés, tout autant que les risques laissés aux acteurs européens qui n’auront pas bénéficié de la transparence nécessaire à leur développement. Il s’agit bien, au-delà d’enjeux soulevés par un secteur culturel, d’un enjeu de souveraineté économique bien comprise. Car l’absence de transparence pénalise plus certainement les nouveaux entrants (européens en particulier), utilisateurs en seconde main des données des plus grands modèles de fondation dans une chaîne de responsabilité qu’ils ne maîtrisent pas. Seule une transparence imposée en amont permettra de favoriser l’émergence d’acteurs européens et nationaux sans risques en termes de responsabilité. La transparence est encore un gage de qualité de l’outil et donc de compétitivité internationale, qui pourrait s’illustrer par la mise en place d’un standard. Certains « petits » acteurs s’inquiètent également du report des coûts de mise en conformité sur eux si on n’impose par une transparence aux gros fournisseurs .

Insécurité juridique et diffusion de la culture française. L’insécurité juridique ambiante contribue à une crispation : ici les géants du numérique qui renoncent à lister les sources car les risques de procès sur le terrain du « copyright » sont trop importants, là les titulaires de droits qui exercent massivement leur opt-out en Europe, ce qui accentuera plus encore le faible rayonnement de la culture française dans ces modèles. À l’heure où le président de la République présente l’ouverture des contenus culturels français comme un enjeu civilisationnel, l’injonction paraît contradictoire. La découvrabilité et la diversité des expressions culturelles dépendront aussi sans aucun doute d’un équilibre vertueux.

Ce retour à l’exclusivité impliquera de réfléchir aux modalités d’octroi d’autorisations pour les titulaires qui le souhaitent. Sur ce point, des voix s’élèvent en faveur d’une gestion collective, pour simplifier les démarches. Le mécanisme de licence collective étendue, permis par la directive (UE) 2019/790, pourrait aussi être mobilisé.

La transparence comme boussole. La transparence est une condition préalable essentielle à la responsabilité, à l’innovation scientifique et à une gouvernance efficace des technologies numériques. Sans une transparence adéquate, les parties prenantes ne peuvent pas comprendre les modèles, les atteintes éventuelles qu’ils provoquent ou l’impact sur la société et ses valeurs12. S’il faut répéter des évidences, répétons que la transparence ne vise pas à limiter l’usage de l’IA ou encore à en empêcher le développement. L’enjeu est encore ailleurs. C’est celui de l’éthique et de l’équité et, bien au-delà, des valeurs démocratiques, enjeu qui ne paraît pas souffrir une préférence pour l’opacité mais ne peut soutenir qu’un principe de transparence dont dépendra l’exercice des droits humains dans un très grand nombre d’activités humaines.

Par ailleurs, l’acceptabilité de la technologie IA par le corps social est une étape fondamentale et nécessaire de son développement. Pourra-t-on inspirer la confiance si on ne soutient pas la transparence comme une base éthique transversale qui doit irriguer tous les comportements sociaux13 ? Plus largement, quelle société souhaitons-nous pour demain ? Quelle civilisation culturelle, quel modèle civilisationnel si les médias ne sont pas préservés, si les auteurs et les artistes ne peuvent plus vivre, si la culture ne regarde que le passé au lieu de se projeter vers l’avenir ? L’esprit humain n’est-il pas construit sur la transparence ? L’IA au service de l’humanité, y compris culturelle.

In medio stat virtus. Entre les « doomers », qui s’inquiètent du risque (existentiel) incarné par l’IA, et les « techno-optimistes », convaincus de la nécessité absolue d’avancer, il y a une voie, celle du raisonnable. L’IA est une chance, une promesse : saisissons-la sans renier nos valeurs, sans renoncer à ce qui fait société. La vertu est, comme souvent, éloignée des extrêmes. 

 

1. Certains aspects de la réflexion avaient été anticipés par le ministère de la Culture : Rapport CSPLA, Les enjeux juridiques et économiques de l’intelligence artificielle dans les secteurs de la création culturelle, 2020.
2. P. Schoppert, “Whether you’re an undergraduate doing research, or a fan of the Nick Stone novels, or indeed a hungry AI…”, 29 nov. 2022.
3. D. G. Widder, S. West et M. Whittaker, “Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI”, 17 août 2013.
4. V. en ce sens, Rapport CSPLA, Transposition des exceptions de fouille de textes et de données : enjeux et propositions, 2020.
5. V. CJUE, gr. ch., 29 juill. 2019, aff. C-476/17, Pelham, D. 2019. 1742 , note G. Querzola ; Dalloz IP/IT 2019. 465, obs. N. Maximin ; ibid. 2020. 317, obs. A. Latil ; Légipresse 2019. 452 et les obs. ; ibid. 541, obs. V. Varet ; ibid. 2020. 69, étude C. Alleaume ; RTD com. 2020. 74, obs. F. Pollaud-Dulian ; RTD eur. 2019. 927, obs. E. Treppoz ; ibid. 2020. 324, obs. F. Benoît-Rohmer .
6. District Court, N. D. California, 30 oct. 2023, Andersen v. Stability AI Ltd., n° 3:23-cv-00201.
7. D. G. Widder et al., op. cit.
8. Meta technical documentation on LLaMa2.
9. V. par ex. Rapport CSPLA, Les métadonnées liées aux images fixes, 2021.
10. L’exigence de transparence est également requise en matière de données personnelles pour respecter les obligations.
11. Manifestant clairement ce lien entre l’effectivité d’une obligation posée aux contrôleurs d’accès et l’exigence de transparence, v. par ex., consid. 52 du règl. « DMA ».
12. R. Bommasani et al., “The Foundation Model Transparency Index”, 19 oct. 2023.
13. Pour un ex. montrant l’intérêt de la société pour la transparence : 73 % des participants à une étude de l’IFPI « sont d’accord pour dire qu’un système d’IA devrait clairement indiquer toute la musique qu’il a ingérée ou utilisée pour s’entraîner », 27 nov. 2023.