Droits d’auteur, IA générative, modèles fondation et modèles dérivés

La bataille pour la propriété intellectuelle à l'ère des modèles génératifs

nov. 26, 2023

Temps de lecture de l’article complet 8 mins

Résumé de l’article :

La question de la propriété intellectuelle devient critique avec l'émergence des IA génératives, y compris concernant les modèles dérivés peu connus mais qui peuvent utiliser du contenu protégé sans consentement explicite des créateurs. Des voix s'élèvent pour une réglementation qui équilibre innovation et droits d'auteur, avec des personnalités comme Thierry Breton appelant à une législation européenne adéquate.
Les entreprises de technologie sont critiquées pour leur manque de transparence et l'appropriation de la propriété intellectuelle. En France, la SACD et d'autres organisations culturelles réclament une transparence totale sur les données utilisées pour l'entraînement des modèles d'IA, et un cadre législatif est proposé pour protéger les droits d'auteur face à l'IA.
La tension existe entre la nécessité d'innovation ouverte et le respect des droits d'auteur, avec des préoccupations sur le manque de réglementation des modèles dérivés. La France et l'Europe travaillent sur des mesures pour assurer la transparence et l'équité, mais le débat sur la composition des comités consultatifs et la protection adéquate des créateurs reste vif.

Face à l'essor fulgurant des modèles d’intelligence artificielle, la question de la protection des droits d'auteur est devenue un enjeu urgent. Les modèles de langage et les IA génératives posent de nouveaux défis juridiques et éthiques.

Si les « modèles fondation » ont attiré l'attention des médias et des législateurs, c'est désormais la responsabilité des entreprises qui développent et utilisent des modèles dérivés de ces modèles fondation qui doit aussi être mise en question. Ces derniers modèles moins diffusés, basés sur des précurseurs existants, sont entraînés et ajustés pour produire des contenus spécifiques, le cas échéant sans le consentement explicite des créateurs originaux.

Un contexte large. Trop large.

Dans une interview accordée à La Tribune, Thierry Breton, commissaire européen au Marché intérieur, a exprimé sans détour sa position : « Les GAFAM et la startup Mistral ne défendent pas l'intérêt général ». Il souligne ainsi la nécessité d'une régulation qui équilibre soutien à l'innovation et prise en compte des risques systémiques de l'IA. Cette déclaration révèle l'urgence d'une législation adéquate pour encadrer l'utilisation des technologies d'IA, notamment en ce qui concerne le respect de la propriété intellectuelle.

Le débat autour des droits d'auteur n'est pas nouveau, mais l'IA générative le renouvelle en profondeur. Le secteur culturel français, longtemps gardien d'une tradition forte de protection des créateurs, exprime son inquiétude. Comme le souligne Pascal Rogard de la SACD, dans Le Monde, « c’est la première fois que la France, où a été inventé le droit d’auteur, ne défend pas la propriété intellectuelle ». Ces propos, reflétant un sentiment de trahison, mettent en lumière l'importance de préserver les fondements du droit d'auteur à l'ère des IA génératives.

Les déclarations de Yann LeCun lors d’un colloque organisé par l’Arcom ont augmenté l’inquiétude des auteurs et des ayants droit. Pour le patron de l’IA chez Meta « l'application du copyright pour les modèles d'IA générative « n'est pas déterminée ». Est-ce que ça constitue une violation du copyright d'utiliser un texte pour entraîner un modèle de langage ? Est-ce que ça constitue une violation d'utiliser un tableau ou une photo ? s'est-il interrogé. Ce n'est pas clair, selon lui. » rapporte Les Echos. Techniquement ça se défend. Le législateur devrait se pencher rapidement sur ces phrases et définir un cadre spécifique en adéquation avec les technologies employées. Il y a un angle mort, celui du concept de la “reproduction d’une œuvre” lors de l’entrainement des modèles, que les entreprises technologiques essaient d’exploiter.

Les entreprises derrière les grands modèles d’IA, les modèles fondation, telles que Midjourney ou OpenAI, sont souvent accusées de s'approprier la propriété intellectuelle sans contrepartie adéquate.

La France tente toutefois de réfléchir à des mesures législatives, comme le montre une proposition de loi visant à encadrer l'IA par le droit d'auteur, démontrant une volonté de s'adapter aux nouvelles technologies. Cela suggère une prise de conscience des enjeux liés à l'IA et une première étape vers une protection renforcée des droits d'auteur. Mais la frustration demeure palpable au sein du secteur culturel, où l'on réclame une transparence totale sur les données utilisées pour l'entraînement des modèles d'IA.

Sur le plan européen, l'IA Act, qui se trouve en phase finale de rédaction, tente de répondre à ces préoccupations. Thierry Breton, en charge de la convergence des positions au sein de l'UE précise, toujours dans La Tribune, que « nous allons trouver un accord qui ne sera pas là pour défendre ceux qui ne veulent absolument pas de régulation » et qui établit un cadre où l'innovation et la transparence coexistent.

Des multitudes de modèles

Attention il ne faudrait pas faire l’impasse sur l'émergence des modèles dérivés qui accroissent la complexité de la régulation – la technologie et les usages vont plus vite que toutes les négociations. Ces modèles spécifiques, bien que basés sur des modèles fondation préexistants, sont personnalisés par des entreprises pour des besoins spécifiques, parfois en affinant les données d'entraînement avec du contenu protégé par le droit d'auteur. La SACD et d'autres organisations culturelles mettent en garde contre l'opacité de ces pratiques au niveau des modèles fondation qui rendent difficile la défense des droits d'auteur et la rémunération équitable des créateurs. L’opacité est encore plus grande pour les modèles dérivés.

Les modèles dérivés ne bénéficient pas encore d'une attention réglementaire suffisante. La situation est d'autant plus complexe que ces modèles peuvent entraîner des contrefaçons moins évidentes mais tout aussi préjudiciables aux droits d'auteur. Comme l'indique, dans Le Monde, Jean-Philippe Mochon, médiateur du livre et de la musique, l'argument selon lequel il serait techniquement difficile de fournir la liste des œuvres utilisées pour l'entraînement des modèles fondation est une « absolue contrevérité », et est encore moins opposable pour l’entrainement des modèles dérivés.

La nécessité d'une transparence accrue est d'autant plus pressante que l'industrie de l'IA continue de croître à un rythme effréné. Les créateurs et les ayants droit demandent des comptes sur l'utilisation de leurs œuvres, et avec raison. Une meilleure transparence dans les données d'entraînement n'est pas seulement une question de respect de la propriété intellectuelle, mais aussi une question de viabilité à long terme pour l'industrie culturelle elle-même.

Alors que les modèles ouverts sont célébrés pour leur innovation, l’open source serait une réponse à tous nos maux – les modèles de Meta sont au moins en partie open source pourtant Yann LeCun défend la même position sur le droit d’auteur que les autres grands de l’IA qui proposent des modèles fermés, Thierry Breton rappelle que « dans cet intérêt général, il y a deux niveaux. D'une part, un environnement très favorable à l'innovation - il y aura une liberté totale concernant la R&D et les modèles ouverts - et d'autre part, au-delà d'un certain niveau, un certain nombre de règles à respecter en toute transparence ». Cela réaffirme que l'innovation ne doit pas se faire au détriment des droits fondamentaux des créateurs.

Un comité mal composé

Mais une crainte bien réelle existe sur ce sujet. Elle a été exprimée aussi à plusieurs reprises lors des 40 ans du CFC vendredi 24/11/2023 au matin. Cette crainte porte sur les actions de gouvernement français, qui en poursuivant le « mirage » du développement de start-ups, oublie l'« économie bien réelle » du secteur des industries culturelles.

Dans Le Monde, Frédéric Maupomé, président d'honneur de La Ligue des auteurs, y voit une menace pour un secteur qui représente une part significative du PIB français.

D’autres encore s’interrogent sur la composition du comité sur l’intelligence artificielle générative qui doit accompagner le gouvernement dans ses prises de positions sur ce sujet. Composé quasi exclusivement de représentants des entreprises, mention spéciale à Mistral AI qui au sein de ce comité est représentée par un de ses fondateurs et par son lobbyste – l’ex-Secrétaire d’Etat au numérique, Cédric O.

Face à ces enjeux, les auteurs et les ayants droit doivent être armés pour négocier une rémunération équitable pour l'utilisation de leurs œuvres. Cela implique un cadre législatif clair et des accords de licence qui reconnaissent la valeur du travail créatif dans le développement de l'IA. Sans une telle protection, le risque de spoliation massive que redoute le monde de la culture pourrait bien devenir une réalité – ne l’est-il pas déjà ?

Pour compléter ce tableau des forces en présence, il faut par ailleurs noter que la plupart des entreprises qui développent des technologies d’IA, principalement des grands modèles de langage et des modèles fondation, sont très bien protégées par le droit, dont les droits d’auteur et des affaires, pour ne pas avoir à divulguer ni la nature des données sur lesquelles les modèles sont entrainés, ni la « mécanique interne » de ces IA.

La régulation de l'IA en Europe en France devrait servir de modèle pour un équilibre entre innovation et respect des droits d'auteur, où les modèles dérivés sont soumis aux mêmes exigences de transparence et de respect que les modèles fondation.

C'est ainsi que l'innovation peut véritablement servir l'intérêt général, comme le défend Thierry Breton, et non uniquement les intérêts commerciaux d'une poignée d'entreprises.

La protection des droits d'auteur à l'ère de l'IA ne doit pas être une réflexion marginale, mais un pilier central de la régulation de ces technologies. Il est impératif de reconnaître la contribution des créateurs à l'avancement de l'IA et de s'assurer que leur travail est justement rémunéré et respecté. Et cela passe par une plus grande compréhension des mécanisme techniques en constante évolution.

A lire ou à écouter sur le sujet :

Intelligence artificielle : le monde de la culture redoute une spoliation massive, Le Monde 25/11/2023
Intelligence artificielle : « Les Gafam et la startup Mistral ne défendent pas l'intérêt général » (Thierry Breton), La Tribune 24/11/2023
Le copyright peut stopper l'essor de l'IA, selon Yann LeCun, l'un des pères de cette technologie, Les Echos 16/11/2023
IA générative et droits d’auteur : « La culture artificielle ne doit pas suivre le triste chemin de la malbouffe », Le Monde 15/09/2023
Artistes face à l'IA : que reste-t-il du droit d'auteur ?, France Culture 6/10/2023
Proposition de loi visant à encadrer l’intelligence artificielle par le droit d’auteur : une initiative louable mais perfectible, Dalloz Actualités 4/10/2023
Les droits d’auteur et le copyright sont-ils menacés par l’intelligence artificielle ?, Village de la Justice 17/04/2023
L’IA générative face au droit d’auteur, Me Alexis Fournol 3/10/2023

N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai

Et n’oubliez pas de vous abonner pour recevoir IA-Pulse

IA-Pulse