Mercredi 27 décembre 2023, le New York Times a entamé une action en justice à l’encontre d’OpenAI, entreprise notamment derrière ChatGPT, ainsi que Microsoft (principal investisseur) pour violation des droits d’auteurs. En l’espèce, le journal accuse ces entreprises d’avoir pillé des millions de ses articles « pour développer et commercialiser leurs produits d’intelligence artificielle (IA) générative sans avoir [leur] permission », ainsi que de lui attribuer des informations erronées. Il estime le préjudice qu’il subit à « plusieurs milliards de dollars » …
Ce n’est pas le premier procès de cette nature dans l’actualité récente, mais c’est à l’heure actuelle le plus conséquent. Et pour cause : pour s’améliorer, les modèles d’apprentissage LLM « Large Language Models » sur lesquels s’appuient les IA génératives doivent s’alimenter de façon massive (pour être en mesure de générer des réponses appropriées), constante (pour garantir sa mise à jour) et diversifiée (pour garantir un contenu qualitatif).
Les problématiques et les risques de dérives sont nombreux et bien connus, parmi eux : atteinte aux droits d’auteur, à la confidentialité et/ou à la conformité des données, pouvant entraîner à terme des poursuites judiciaires et des risques commerciaux, ou atteindre à la réputation du journal.
Comment l’IA choisit-elle ses sources ?
Pour prendre l’exemple de ChatGPT, l’IA s’est essentiellement construite sur des données issues de Wikipédia, de sites gouvernementaux, de revues scientifiques en ligne, de livres et films documentaires, et des réseaux sociaux. Pour autant, aujourd’hui, les IA génératives ne citent pas leurs sources et n’y sont pas contraintes.
Le saviez-vous ?
La version 3.5 de ChatGPT a été nourrie d’environ 45 téraoctets de données textuelles. Un seul téraoctet peut représenter jusqu’à 1 300 armoires d’archives papier !
Toutes les données se valent-elles ? Dans le cadre du procès initié par le New York Times, OpenAI reconnaît « une préférence » pour des contenus qualitatifs, qui s’est encore traduite mi-décembre 2023 par un accord avec le groupe allemand Axel Springer, qui autorise ChatGPT à s’alimenter dans le cadre de ce partenariat avec les contenus d’articles de médias du groupe, notamment Politico, Business Insider…
Mais en fait, à qui appartiennent les productions de l’IA ?
En partant du principe que l’IA respecte bien les droits d’auteur du contenu qu’elle utilise, lorsque vous générez une image par Midjourney pour une présentation dans un contexte professionnel par exemple, appartient-elle…
Réponse : aujourd’hui, le droit français ne reconnaît de droit d’auteur que pour des personnes physiques. Mais à terme, un outil d’IA pourrait-il se voir reconnaître une qualité d’auteur ?
En réalité, chaque acteur serait légitime à revendiquer une partie de la propriété du contenu.
Il faut donc selon le contexte s’appuyer sur :
- L’existence ou non d’accords dans la création ou l’utilisation de l’IA (comme dans le cadre des prestations de conseils par exemple, où les marchés prévoient généralement que toutes les productions appartiennent dans leur entièreté au client),
- Les lois locales sur les droits d’auteur et la propriété intellectuelle des pays,
- Eventuellement, le degré de contribution humaine…
Il ne nous reste plus qu’à suivre attentivement les évolutions législatives et réglementaires, et notamment la transposition d’ici 2026 par les états membres de l’Union Européenne de l’« IA Act », validé par les 27 début février et qui doit faire l’objet d’un vote définitif dans les prochaines semaines.
Alors, est-ce l’IA qui produira pour vous, ou vous qui produirez pour l’IA ?
Et chez MA ? Certains de nos clients utilisent Copilot !
L’assistant virtuel gagne de plus en plus en popularité et certains n’hésitent plus à le proposer, en version chatbox, à leurs collaborateurs.
L’outil est pour l’instant mis à disposition pour la réalisation d’éléments simples :
- génération d’images pour une présentation,
- résumé écrit d’une conférence vidéo, d’un article
- priorisation de tâches…
Quelles sont leurs propositions pour se prémunir des difficultés illustrées précédemment ?
- Il existe une clause de protection des données commerciales : dans ce contexte notamment, l’entreprise derrière l’IA ne revendique pas la propriété des prompts ou des créations, qu’ils soient fournis ou reçus. Les utilisateurs sont garants des données qu’ils fournissent en entrée.
- Toutes les données utilisées sont protégées par leur mise à disposition sur un « environnement interne à l’entreprise et sécurisé ».
- Les salariés sont bien sûr invités à se former à l’art du prompting, et à ne pas alimenter l’IA en données confidentielles.
Le saviez-vous ?
Au Japon, Rie Kudan, autrice et lauréate 2024 de l’Akutagawa, prix littéraire le plus prestigieux du pays, a affirmé avoir utilisé ChatGPT pour environ 5% de son roman (génération de phrase, inspiration pour les dialogues…).
Billet de l’associé
L’irruption de l’intelligence artificielle dans le domaine de la création est loin de ne poser que des questions nouvelles. Le recours aux nègres littéraires ou aux collaborateurs dans les ateliers des grands peintres italiens, flamands et autres, est une pratique ancienne, sans compter le nombre de plagiats dont les tribunaux ont régulièrement à juger.
L’emprunt aux grands créateurs l’est également et comme le disait Paul Valéry « Rien de plus original, rien de plus « soi » que de se nourrir des autres. Mais il faut les digérer ».
L’IA, qui dispose d’une capacité de « digestion » inédite conduit à se reposer des questions légitimes sur la notion de droit d’auteur et sur la rémunération des sources. Un esprit taquin ferait remarquer qu’à lire nombre d’articles de journalistes, on peut légitimement s’interroger sur leur revendication d’un droit tant on aimerait y trouver un auteur.
ChatGpt ne ferait somme toute que confirmer cette remarque de Montaigne « Tout fourmille de commentaires ; d’auteurs il en est grande cherté. » (Les Essais, Livre III, Essai XIII).
Jérôme Picant, Associé