Accueil
Le quotidien du droit en ligne
-A+A
Article

Pourquoi le grand modèle de langage Falcon 180B est en accès libre ?

Si Falcon 180B n’est pas le premier modèle de langage ( LLM ) disponible sous licence open Source, le choix de l’Institut d’innovation technologique des Émirats arabes unis (Technology Innovation Institute – TII) de le diffuser en libre accès est loin d’être anodin. Le modèle défendu aurait pour objectif de démocratiser les technologies de l’IA et de la rendre plus éthique en privilégiant la transparence grâce à un accès libre de la technologie. Par ailleurs, en permettant aux utilisateurs de contribuer au développement de Falcon 180B, les concepteurs visent à profiter de l’expertise d’une large communauté d’utilisateurs alors que ce LLM égale voire dépasse déjà les performances des plus grands LLM propriétaires. En tout état de cause, le choix révèle une autre façon d’exercer les droits de propriété intellectuelle.

Le grand modèle de langage (appelé également grand modèle linguistique ou grand modèle de langue, modèle de langage de grande taille ou encore modèle massif de langage : v. Wikipédia, entrée « grand modèle de langage ») Falcon 180B (en anglais LLM pour large language model), qui s’érige parmi les plus performants de sa génération, vient d’être mis à disposition selon les termes de la licence TII Falcon 180B, version 1.0 par l’Institut d’innovation technologique des Émirats arabes unis (Technology Innovation Institute – TII). Cette licence open source, inspirée de la licence Apache 2.0, contient les conditions d’utilisation, de redistribution et de modification que l’on trouve habituellement dans les licences libres de logiciels (J.-Cl PLA, L’œuvre libre, 2019, fasc. n° 1975). Rappelons que sur le fondement du droit d’auteur et du droit des brevets, les licences open source visent à permettre une diffusion large de l’œuvre et de ses formes dérivées et à offrir aux utilisateurs la possibilité de contribuer aux évolutions successibles de cette dernière.

Ce faisant, l’Institut d’innovation technologique des Émirats arabes unis (TII) enclenche trois dynamiques que nous analyserons successivement. La première est celle de rendre accessible intellectuellement l’IA, ce qui répond aux préoccupations éthiques du moment. Ensuite, la démarche permet de miser sur le travail collaboratif des spécialistes des LLM pour mieux concurrencer les autres outils comme GPT-4 d’OpenAI et PaLM 2 Large de Google qui reposent sur un modèle propriétaire. Enfin, le choix d’appliquer l’open source à la technologie de l’IA (d’autres IA sont disponibles en open source comme LLaMA, StableLM, RedPajama et MPT) file la tendance actuelle qui consiste à libéraliser l’accès aux contenus numériques à la faveur de l’entraînement des IA.

L’accès libre pour un LLM éthique ?

Imaginées pour les logiciels, les licences en open source autorisent l’utilisation, la copie, la diffusion et la modification des codes logiciels accessibles sous la forme source de sorte qu’il est possible de les étudier et d’en connaître exactement les fonctionnalités. Appliqué au LLM, l’open source offrirait la possibilité aux utilisateurs de maîtriser la technologie mise à disposition, de connaître précisément son fonctionnement et de mieux appréhender les résultats obtenus. La transparence ainsi introduite pourrait répondre au souhait, notamment du Parlement européen, que les systèmes d’IA utilisés dans l’UE soient sûrs, transparents, traçables, non discriminatoires (J. Sénéchal, L’IA Act déjà obsolète face aux IA de nouvelle génération ? L’exemple de ChatGPT, Dalloz actualité, 1er févr. 2023). Toutefois, pour atteindre de tels objectifs, il convient d’être attentif aux deux faces de l’accès libre, l’une vise l’accès à la connaissance intellectuelle de la technologie, l’autre dépend des usages permis.

S’agissant de la connaissance intellectuelle de la technologie, on relève que la version 1.0 de la licence TII Facon 180B prévoit que les utilisateurs auront accès à « l’œuvre et ses travaux dérivés sous forme de source ou d’objet » (art. 2 et 3). Il s’agit de la version initiale du LLM Falcon 180B et toutes les déclinaisons qui en seront faites au fur et à mesure des ajouts et des modifications excepté les créations qui demeurent séparables de l’œuvre et de ses dérivés quand bien même elles seraient liées par une interface.

Selon les définitions énoncées à l’article 1er, la « forme source » comprend notamment le code source d’un logiciel, les ensembles de données d’entraînement utilisés pour l’entraînement ou le réglage d’un modèle d’apprentissage automatique ou d’un modèle d’intelligence artificielle, la source de la documentation et les fichiers de configuration. Quant à la « forme objet »,...

Il vous reste 75% à lire.

Vous êtes abonné(e) ou disposez de codes d'accès :