Par , publié le 27 septembre 2023

Moins d’un an après le lancement retentissant de ChatGPT, les plaintes s’accumulent contre son créateur OpenAI – une demi-douzaine déjà depuis le début de l’été. La semaine dernière, une nouvelle class action (action en nom collectif) a ainsi été déposée devant la justice new-yorkaise. Elle émane de l’Authors Guild, une association regroupant plus de 14.000 auteurs américains, qui s’est associée à quelques écrivains de renom, dont George R.R. Martin, auteur de la saga Le Trône de fer. Les plaignants reprochent à la start-up d’avoir entraîné GPT, le grand modèle de langage sur lequel tourne son robot conversationnel, en utilisant plus de 100.000 livres récupérés illégalement sur Internet, sans autorisation ni rémunération des ayants droits. Et ainsi d’avoir violé le droit d’auteur.

Books2 – Comme les précédentes plaintes, la procédure tourne autour des bases de données utilisées par OpenAI pour développer GPT. Jusqu’en 2020, la société précisait que le processus d’entraînement de son modèle reposait sur Wikipedia et sur deux bibliothèques de livres qu’elle ne nommait pas, les appelant simplement Books1 et Books2. OpenAI a depuis toujours refusé de dire à quoi correspondaient ces deux noms. Mais des chercheurs suspectent qu’il s’agit de bases de données contenant des livres piratés. Entre 100.000 et 300.000 pour Books2, dont des œuvres protégées par le droit d’auteur. Ce que OpenAI a partiellement admis, assure l’Authors Guild. Depuis trois ans, le concepteur de ChatGPT ne détaille plus le processus d’entraînement des nouvelles versions de GPT.

Résumés et citations – Pour prouver l’utilisation de livres piratés, les différentes plaintes avancent plusieurs arguments. Dans une action en justice lancée fin juin, deux auteurs américains mettent en avant que ChatGPT est capable de fournir des résumés très détaillés et de répondre à des questions précises sur leurs œuvres. Ce qui n’est possible, selon eux, que si le modèle GPT a eu accès au texte intégral. De son côté, l’Authors Guild assure que le robot conversationnel était capable de citer des passages d’ouvrages, “suggérant que le modèle sous-jacent à ingérer ces livres dans leur intégralité”. Cette fonctionnalité a depuis été retirée: ChatGPT explique désormais qu’il ne peut pas reproduire des citations d’œuvres protégées par le droit d’auteur. OpenAI risque jusqu’à 150.000 dollars par infraction constatée.

Vide juridique – Toutes ces plaintes, comme celles déposées contre d’autres start-up, se heurtent cependant à deux obstacles majeurs. D’abord, comment prouver qu’une œuvre protégée a bien été utilisée dans l’entraînement puis dans la réponse fournie par une intelligence artificielle ? Ensuite, elles font face à un vide juridique: les lois actuelles ne sont pas adaptées à l’émergence de l’IA générative. OpenAI mettra certainement en avant – comme le fait d’ailleurs ChatGPT quand on lui pose la question – que son robot conversationnel entre dans le cadre du fair use, une disposition qui autorise un “usage raisonnable” des œuvres protégées par le droit d’auteur. Les plaignants rétorqueront que les réponses de ChatGPT s’apparentent davantage à des “œuvres dérivées”, qui sont, elles, réservées aux auteurs originaux.

Pour aller plus loin:
– En ouvrant un bureau en Irlande, OpenAI fait un (petit) pas vers l’Europe
Le parlement européen adopte des règles sur l’IA générative


No Comments Yet

Comments are closed

Contactez-nous  –  Politique de confidentialité