Au cours de l’année écoulée, l’intelligence artificielle (IA) a joué un rôle crucial dans de nombreuses vies et professions. Ceux qui utilisent cette technologie accordent une grande confiance aux plates-formes d’IA. Pourtant, beaucoup d’entre nous ne se demandent pas d’où nos grands modèles de langage (LLM) obtiennent les informations sur lesquelles ils s’appuient pour nous aider à créer des produits de travail générés par l’IA ou à accomplir des tâches quotidiennes.
Cette question – la source de l’apprentissage LLM – a été mise au premier plan lorsque le New York Times a récemment a intenté une action en justice fédérale pour violation du droit d’auteur contre OpenAI (le créateur de ChatGPT) et Microsoft. Le procès allègue qu’OpenAI a utilisé des articles protégés par le droit d’auteur du New York Times pour créer des « produits de substitution » sans leur consentement. Plus précisément, OpenAI a utilisé, entre autres, le contenu du New York Times pour développer ses modèles et outils.
Apprentissage automatique, violation du droit d’auteur et utilisation équitable
Où la violation du droit d’auteur recoupe-t-elle une action en justice contre l’IA ? Il s’agit principalement de l’apprentissage automatique, la méthode par laquelle les outils d’IA sont entraînés à fournir des réponses à des problèmes. AI prompts.
Pour prédire la meilleure réponse à une question ou à une invite particulière, les humains doivent « entraîner » l’IA en lui fournissant des informations. OpenAI entraîne ses modèles en leur fournissant de grandes quantités de données textuelles provenant de sources en ligne, notamment de sites Web comme le New York Times.
Le problème – du moins du point de vue du New York Times – est qu’OpenAI et Microsoft profitent effectivement de l’investissement du New York Times dans le journalisme, en utilisant leurs œuvres protégées par le droit d’auteur pour créer de nouveaux produits sans demander d’autorisation ni payer le New York Times pour le service. .
OpenAI et Microsoft, d’autre part, soutiennent que leur utilisation de contenu protégé par le droit d’auteur pour entraîner leurs modèles relève du « fair use », ou du droit d’utiliser une œuvre protégée par le droit d’auteur sans le consentement du propriétaire sous certaines conditions.
Autres poursuites contre l’IA concernant la violation du droit d’auteur
Même si le récent procès intenté par le New York Times contre OpenAI et Microsoft domine les cycles d’actualité, il ne s’agit en aucun cas du premier procès intenté par l’IA pour violation du droit d’auteur. D’autres créateurs de contenu, y compris des auteurs comme Mona Awad et Paul Tremblayet comédien Sarah Silverman– ont également engagé des poursuites contre des sociétés d’IA pour violation du droit d’auteur.
À la date de publication de cet article, nous n’avons pas de réponse claire quant à savoir si l’apprentissage automatique est considéré comme un « usage équitable » et protège les sociétés d’IA contre les poursuites pour violation du droit d’auteur. Cependant, l’émergence de ces poursuites soulève des questions intéressantes quant à l’avenir de l’apprentissage par l’IA.
Ce que le procès OpenAI signifie pour les avocats
Le procès OpenAI pose un problème intéressant pour les outils conçus pour améliorer l’accès à l’information : s’il existe des restrictions sur le type d’informations disponibles pour OpenAI et d’autres LLM, quelles sont les implications pour l’apprentissage automatique et, par conséquent, les types de réponses ou de produits de travail. ces modèles peuvent-ils fournir aux utilisateurs ?
Nous avons déjà discuté du risque de biais dans les outils d’IA et l’importance de veiller à ce que les algorithmes d’IA soient développés et formés à l’aide d’ensembles de données divers et représentatifs.
Alternativement, si les LLM peuvent éviter les poursuites en matière de droits d’auteur en obtenant l’autorisation d’utiliser le contenu (probablement en indemnisant les propriétaires), il peut s’ensuivre que seuls les LLM disposant d’un financement adéquat auront accès au contenu complet nécessaire pour éclairer leurs modèles, ce qui entraînerait un préjudice délétère. impact sur l’innovation dans ce domaine.
D’un autre côté, si le tribunal décide d’autoriser les LLM à utiliser du contenu protégé par le droit d’auteur à des fins de formation, les créateurs de contenu seront confrontés à leurs propres défis, avec les conséquences qui en découlent pour le grand public. Par exemple, les créateurs de contenu peuvent limiter l’accès en ligne aux lecteurs ou aux téléspectateurs, sans parler de leur frustration face aux LLM utilisant leurs œuvres protégées par le droit d’auteur.
Comme les tribunaux n’ont pas encore décidé du rôle que joue la loi sur le droit d’auteur dans la formation des LLM, personne ne sait ce que l’avenir nous réserve. Mais si des plaignants comme le New York Times obtiennent gain de cause dans leurs procès en matière d’IA, cela pourrait avoir un impact critique sur l’avenir. de la formation LLM.
Le procès OpenAI et nos dernières réflexions
Quel que soit le résultat, le procès OpenAI rappelle aux utilisateurs de vérifier attentivement les LLM qu’ils utilisent, en particulier lorsque près d’un professionnel du droit sur cinq utilise actuellement l’IA dans leur pratique.
Alors que peux-tu faire?
Nous avons publié cet article de blog en janvier 2024. Dernière mise à jour : 24 janvier 2024.
Classé dans : Technologie