Data et confidentialité

IA générative et droits d’auteur : qu’en penser ?

image001

Les IA génératives font le buzz. Les questions les concernant sont innombrables. Nous nous limiterons ici à synthétiser les enjeux posés en matière de droits d’auteur et les réponses possibles (voire probables pour certaines) à l’aune du droit en vigueur et des questions plus larges que ces outils suscitent en la matière.


I.          Appréciation à l’aune du droit en vigueur


a)         Entraînement des données (input data)


Les Large Language Models (LLMS) comme ChatGPT et d’autres outils générateurs requièrent une ingestion de données inimaginable pour aboutir aux résultats qui sont les leurs. A titre d’exemple, GPT-4 aurait été entraîné sur des trillions de données composées à la fois de mots et d’images, dont certaines protégées par des droits d’auteur.


Peut-on parler de violation de droits d’auteur ? C’est en tous les cas l’opinion de nombreux titulaires de droits qui, depuis la fin de l’année dernière, ont lancé aux Etats-Unis des actions à l’encontre de Microsoft, GitHub et OpenAI en relation avec l’entraînement de l’outil Copilot, d’artistes à l’encontre de Stability AI et Midjourney ou encore, devant la High Court of London, de Getty Images à l’encontre de Stable Diffusion.


Première question : l’exploitant de ces plateformes a-t-il qualité pour défendre ?


La question mérite d’être posée sachant que, pour les outils générateurs d’images en particulier, le prestataire les ayant fournis est une tierce entité, à savoir l’association allemande LAION. Il en découle deux questions :

  • L’association LAION, qui ne poursuit selon le site aucun but lucratif, est-elle susceptible de faire l’objet d’une action pour violation de droits d’auteur ? De prime abord, la réponse semble plutôt être négative. Cette plateforme, construite sur la base de commoncrawl, ne fournirait en effet que des liens redirigeant vers les sites où se trouvent les images, à l’exclusion de quelque reproduction que sur ses serveurs. C’est ensuite aux intéressés Seule demeurerait ainsi ouverte la question de savoir si cette agrégation de liens constitue une violation du droit de mise à disposition :


Au niveau européen, l’art. 17 de la Directive 2019/790 ne semble pas pouvoir être appliqué à LAION, puisque cette dernière ne peut être qualifiée de plateforme de partage de contenus générés par les utilisateurs. Depuis les arrêts Svensson et Bestwaters (C-466/12 et C-348/13), il est admis par la CJUE que le simple renvoi par un lien hypertexte vers une œuvre protégée à un public qui peut déjà avoir accès sans limite à l’œuvre en question ne satisfait pas à l’exigence posée en droit communautaire de « nouveau public », puisque l’œuvre y est déjà accessible à tout un chacun sur le site original. Il ne pourrait en aller éventuellement différemment que si LAION savait que les liens redirigeait vers des œuvres mises en ligne sans le consentement de leurs auteurs, comme l’a jugé cette même Cour dans l’affaire Sitching Brein (C-610/15). On peut néanmoins partir de l’idée que, dans une majorité des cas, les données traitées sont publiques et, de prime abord, ne proviennent pas de sources illicites, même si l’on ne peut évidemment pas l’exclure.


En droit suisse, la question de savoir si l’insertion de liens hypertextes conduisant à des œuvres mises en ligne avec l’accord des ayants-droits viole leur droit de mise à disposition demeure quelque peu indécise, mais l’opinion majoritaire se rapproche de la jurisprudence communautaire, en distinguant suivant que le lien renvoie à des œuvres mises en lignes avec ou sans l’accord du titulaire.


En droit américain, il est fort probable qu’à supposer ces contenus protégés, la simple constitution d’une agrégation de liens tombe sous le coup de la notion de fair use au sens du § 107 United States Copyright Act


Au final, et sans avoir évidemment la question en détails, il semblerait que LAION ait de bons arguments à faire le cas échéant valoir pour éviter une éventuelle responsabilité sous l’angle des droits d’auteur.

  • En ce qui a trait à l’exploitant, il ne fait guère de doute qu’il reproduit ces données pour entraîner son algorithme, même si elles peuvent être quelque peu travaillées et modifiées pour améliorer l’entraînement. Si le fonctionnement technique des outils sera assurément scruté dans les moindres détails dans ces procédures, on peut douter que les exploitants de plateforme parviennent à s’éviter le reproche d’une violation du droit de reproduction.


A partir du moment où il est admis que, indépendamment du statut de LAION en particulier pour les IA génératrices d’images, l’exploitant de la plateforme effectue bien une reproduction à un titre ou à un autre sur ses serveurs, nous pouvons passer à la seconde question :


Deuxième question, les données ingérées sont-elles protégées par les droits d’auteur ?


Tout dépend ici du type de contenu et des conditions posées à la protection d’une création pour être considérée comme une « œuvre » protégée par le droit d’auteur dans un état donné :

  • Pour du texte, la reprise d’un seul ou de quelques mots pourra difficilement être perçu comme la violation d’une « œuvre » protégée, alors qu’on s’en rapprochera d’autant plus que la reprise s’allonge ; sans doute sera-t-il difficile de ne pas reconnaître à un paragraphe ou un chapitre un caractère individuel suffisant à y voir une œuvre protégée. Or, il semble avéré que certains modèles ont été entraînés sur des parties entières de chapitres d’ouvrages.

  • Cette protection sera d’autant plus facilement accordée pour des extraits d’œuvres musicales ou créations audiovisuelles dont on conçoit difficilement qu’elles ne soient pas protégées par des droits d’auteur.

  • Quant aux images, si certains pays exigent une certaine individualité qui pourra le cas échéant entraîner certaines discussions, d’autres comme l’Allemagne ou la Suisse protège les photographies en tant que telles, indépendamment de la question de savoir si elles présentent un caractère individuel ou non.


En bref, compte tenu du volume de données ingérées, il sera bien difficile pour quelque exploitant que ce soit d’établir qu’il n’exploite aucune donnée protégée par des droits d’auteur.


Ceci étant, on ne saurait oublier qu’au niveau du fardeau de la preuve, c’est bien à la partie demanderesse d’établir que le système a été entraîné sur une œuvre protégée sur laquelle elle détient des droits ; la preuve n’est pas toujours aisée. Sans doute sera-t-il ici intéressant sur le plan procédural de voir les éventuelles requêtes d’expertises et production de pièces qui commanderont le cas échéant d’aller à la pêche aux informations pour démontrer son droit après avoir ouvert action…


Troisième question : l’exploitant de la plateforme peut-il invoquer une exception ?


A partir du moment où la reproduction des contenus semble difficilement contestable se pose la question de savoir si l’exploitant peut être mis au bénéfice d’une exception. Tout dépend ici du droit applicable, les pays ayant opté pour des approches différentes, encore susceptibles d’évoluer pour la très grande majorité.

  • Ainsi le Japon a-t-il décidé que le fait de reproduire des contenus protégés à des fins d’entraînement d’un algorithme ne viole pas les droits d’auteur.

  • Au niveau de l’Union Européenne, les art. 3 et 4 de la Directive 2019/790 autorisent pour la première la fouille de texte et l’analyse de données (text and data mining) à des fins de recherche scientifique, ce sans limite, une exception qui correspond à l’art. 24d LDA pour le droit suisse ; encore faut-il en ce cas que l’exploitation des données poursuivent une finalité scientifique, ce qui constituera bien souvent une limite sévère pour les acteurs du secteur privé. A la différence du droit suisse, le droit européen connaît en revanche grâce à l’art. 4 de la Directive 2019/790 une approche plus favorable au secteur privé. Cette disposition permet en effet aux sociétés commerciales d’exploiter de telles données à des fins d’entraînement à la condition, toutefois, que les ayants-droits n’aient pas interdit une telle exploitation par des moyens appropriés, en particulier par une interdiction de « scraping ». C’est dire que, nonobstant cette réserve, le droit européen apparaît néanmoins plus favorable que le droit suisse.

  • Enfin, aux Etats-Unis, toute la question risque fort de s’orienter autour de la question de savoir si l’entraînement de données protégées par le droit d’auteur dans le cadre d’un tel système constitue un cas de fair use.


Dans l’affaire Warhol v. Goldsmith, rendue le 18 mai 2023 par la Cour Suprême et que j’ai eu l’occasion de commenter sur ce blog, la Cour Suprême a considéré qu’on était en présence d’un cas de fair use lorsque l’œuvre reprise était à ce point transformée qu’elle poursuivait désormais une autre finalité, éloignée de celle envisagée par le titulaire de l’œuvre reprise.


On peut penser que les défenseurs des exploitants de plateforme chercheront à se prévaloir de cet arrêt en faisant valoir le fait que la reprise de données à des fins d’entraînement poursuit une finalité toute autre que celle initialement envisagée par les titulaires des œuvres originales, puisque leur objectif n’est pas de consommer l’œuvre telle qu’elle a été divulguée au public, mais d’entraîner un algorithme, sans rechercher à l’exploiter et la « consommer » dans sa finalité première. Un tel argument a selon nous de bonnes chances d’aboutir. Affaire à suivre.


A ce jour, le droit suisse apparaît donc particulièrement protecteur des titulaires de droit qui, s’ils parviennent à satisfaire à leur fardeau de la preuve et démontrer la reprise de leurs œuvres, auront de bonnes chances de pouvoir invoquer une violation de leurs droits d’auteur, sans guère de chance pour les exploitants de pouvoir se prévaloir de quelque exception que ce soit. Il en ira différemment suivant les circonstances au niveau européen et, plus encore, aux Etats-Unis pour culminer avec le Japon, qui apparaît désormais comme un eldorado pour entraîner les algorithmes de ces plateformes.


b)         Résultat généré (output)


Autre est la question de savoir dans quelle mesure le résultat généré par le Large Language Model est susceptible d’être protégé par des droits d’auteur, et qui en détiendra les droits.


A mon sens, la réponse à cette question ne devrait pas être si complexe.


Droits d’auteur pour le développeur du Large Language Model ?


On conçoit difficilement que le développeur du Large Language Model exploité puisse prétendre à quelque droit d’auteur que ce soit sur le résultat généré par un utilisateur au travers de différents prompts. Son modèle pourra le cas échéant lui-même être protégé par des droits d’auteur ou faire l’objet d’un brevet s’il satisfait aux conditions posées par ces lois, mais rien ne justifie que le développeur puisse se voir attribué un quelconque droit d’auteur sur le résultat généré par un utilisateur.

Sauf à tuer son propre modèle, on conçoit par ailleurs difficilement que le développeur ait l’indélicatesse de prévoir dans ses conditions générales une cession pure et simple des droits d’auteur sur le résultat généré par ses utilisateurs ; une licence lui permettant le cas échéant de réexploiter ces résultats pour nourrir son algorithme apparaît en revanche bien davantage plausible. Tel est par exemple le cas de Midjourney, dont on relèvera que la plateforme n’ait pas allée jusqu’à exiger de la part de ses utilisateurs une garantie d’absence de violation de droits de tiers dans les résultats générés.


Droits d’auteur pour l’utilisateur du Large Language Model ?


C’est donc avant tout l’utilisateur qui, le cas échéant, devrait pouvoir prétendre à des droits d’auteur sur le résultat généré.


A mon sens, rien ne devrait en effet exclure que, le cas échéant, le résultat produit soit susceptible d’être protégé par des droits d’auteur s’il présente une certaine individualité.


Pour m’être livré à l’exercice, l’utilisateur lambda constatera rapidement qu’il peut s’avérer en réalité difficile de produire une image qui corresponde dans les grandes lignes à ce que l’on espérait, et que l’enchaînement des prompts exige assurément une certaine dextérité en la matière.


Ceci étant dit, il est important de relever qu’à mon sens, ce n’est pas l’enchaînement des prompts qui devrait être protégé, pas plus que ce ne sont les coups de pinceaux individuels d’un Picasso ou d’un Van Gogh pour construire son tableau qui le sont. Les prompts, tout comme les coups de pinceaux, sont de prime abord davantage assimilable à une forme de méthode, en soi non-protégeable. Seul le résultat compte.


Demeure alors ouverte la question de savoir dans quelle mesure ce résultat, à le supposer protégeable par des droits d’auteur, constitue une œuvre dérivée d’une éventuelle œuvre sur la base de laquelle l’algorithme a été entraîné. Cette notion, connue des différents ordres juridiques passés ici en revue, mériterait assurément une étude plus détaillée. Il suffit de dire ici que tel ne devrait être le cas que dans l’hypothèse où les traits individuels justifiant la protection par le droit d’auteur de l’œuvre ingérée (input) se retrouvent dans le résultat généré. Peu importe que l’utilisateur n’en ait pas eu l’intention, qu’il soit de bonne foi et s’avère dans l’impossibilité de savoir quelles sont concrètement, les données ingérées qui ont servi à générer le résultat qui lui est livré. Là encore, seul le résultat compte sur la base d’une appréciation objective.


II.         Considérations de politique législative


Si les remarques qui précèdent ont trait à la situation telle qu’elle pourrait être appréciée sous l’angle du droit positif, certaines considérations de politique législative méritent néanmoins d’être relevées.


Une question de base consiste à savoir dans quelle mesure l’entraînement de telles plateformes sur des œuvres potentiellement protégées devrait être admis ou non. Si le Japon a fait son choix, tel n’est pas le cas de la plupart des pays qui n’ont pas modifié leur droit d’auteur à cet égard.


La question est délicate :


Reconnaître une éventuelle violation des droits d’auteur, et donc une obligation de rémunérer les titulaires dont les œuvres sont ingérées, c’est reconnaître pour bon nombre d’entre nous l’obligation de compenser les créateurs et, plus largement, soutenir la création humaine que certains pensent en danger en raison de l’avènement de ces plateformes.


A défaut d’une telle reconnaissance, l’être humain pourrait ne plus avoir d’incitation à investir de son temps pour des résultats qu’un algorithme peut en bien des cas plus rapidement générer et à moindres coûts, sachant que tous les artistes qui vivent de leur travail ne sont pas tous des Picasso ou des Miyazaki qui n’ont aucune inquiétude à se faire.


Protéger les artistes, c’est toutefois potentiellement faire la part belle aux Big Tech, puisque ces derniers pourraient suivant la manière dont la rémunération est arrêtée être les seuls à même de pouvoir indemniser les titulaires. Il en résulterait une concentration encore plus forte des pouvoirs aux mains de ces acteurs au détriment des plus petits.


A contrario, considérer que les créateurs dont les œuvres sont ingérées n’ont pas lieu d’être indemnisé pour une exploitation somme toute éloignée de la finalité première de leurs œuvres, un choix qu’a fait le Japon, c’est potentiellement favoriser la concurrence et l’innovation par un nombre beaucoup plus large d’entreprises, mais c’est aussi potentiellement mettre en danger la création humaine pour une grande majorité d’artistes.


Le choix, est-il besoin de le dire, est cornélien. A ce jour, les initiatives viennent plutôt du secteur privé, comme en témoignent, par exemple, les négociations en cours entre Google et Universal Music pour la reprise par Google d’extraits de morceaux musicaux ou des voix d’artistes sur des compositions qu’ils n’ont jamais chantées (ce qui, soi dit-on en passant, relève davantage des droits de la personnalité que des droits d’auteur). Après s’être mises en danger pour avoir à l’époque négligé l’importance du peer-to-peer, les industries musicales et audiovisuelles, plus particulièrement les acteurs de ses filières susceptibles d’être remplacés par des IA, s’efforcent de prendre le taureau par les cornes pour ne pas se laisser dépasser. On peut cependant douter que de telles approches, isolées, soient les meilleures, aussi bienvenues soient-elles pour guider la réflexion.


Faudrait-il poursuivre dans l’exploration de la gestion collective et l’adoption d’éventuels tarifs calculés sur des bases égalitaires tenant compte par exemple de la taille des éventuels développeurs de tels systèmes et de leurs chiffres d’affaires ? Sans doute s’agit-il de l’une des pistes possibles parmi d’autres.


Encore faudrait-il cependant à mon sens qu’un tel mouvement soit coordonné à l’échelle internationale, une approche éclatée par pays ne pouvant à mon sens qu’être préjudiciable au plus grand nombre, qu’ils soient développeurs, utilisateurs ou auteurs. Gageons que l’évolution en ce domaine sera rapide si OpenAI, parmi d’autres, ne font pas faillite, un risque désormais souligné par certains au vu des coûts prohibitifs de développements de ces Large Language Models et de leurs difficultés à trouver un modèle financier rentable à ce jour, une situation qui n’est cependant pas la première à se présenter comme l’ont souligné Haskel et Westlake dans leur ouvrage Capitalism without Capital. Affaire à suivre…


Ndlr : cet article a été rédigé sans l’aide d’outils génératifs.

Vous avez des questions par rapport à la problématique abordée dans cet article ?

Dernières actualités de Wilhelm Gilliéron Avocats

image_pdf