La constatación de este hecho abre una nueva vía a la conversación sobre los peligros del plagio mediante inteligencia artificial generativa
Cuando la inteligencia artificial comenzó a alejarse de la ciencia ficción y a convertirse ya no sólo en una realidad, sino en una herramienta integrada en nuestro día a día, la pregunta dejó de girar en torno a si se utilizaría material con derechos de autor para entrenarla para centrarse en cuándo lo haría y con qué productos en concreto.
A finales de 2024, mientras escribo estas líneas, prácticamente cualquier sistema de IA generativa es capaz de generar —que no crear, de ahí su nombre— textos o imágenes basándose en referentes muy concretos; desde las obras de dibujantes de cómics, pintores y fotógrafos concretos hasta las de cineastas, escritores y guionistas.
La máquina de copiar
Claude, competidor directo del celebérrimo ChatGPT, la OPT de Meta, o los modelos de lenguaje de Apple, y Nvidia —por poner unos cuantos ejemplos— se han convertido en grandes expertos en copiar no sólo material literario y pictórico, sino también audiovisual; y esto último ha sido posible gracias a la abrumadora cifra de 53.000 películas y 85.000 episodios de series de televisión con los que han sido alimentados.
Estos datos han sido extraídos de un interesantísimo —y tremendamente enervante— artículo de investigación de The Atlantic en el que se asegura que muchos sistemas de IA han bebido de todas las películas nominadas al Oscar a la mejor película desde 1950 hasta 2016, de unos 616 episodios de 'Los Simpson', de 17 de 'Seinfeld', de 45 de 'Twin Peaks', y de las catódicas 'The Wire', 'Los Soprano' y 'Breaking Bad' al completo.
No obstante, lo verdaderamente curioso del asunto no es el qué, sino el cómo. Y es que si una inteligencia artificial es capaz de imitar los diálogos de Homer Simpson o expresarse con el tono de un mafioso italoamericano de Nueva Jersey no es gracias a que se haya entrenado con los guiones de sus referentes, sino con los subtítulos extraídos de la popular web OpenSubtitles.org.
En términos de entrenamiento de IA, esta vía de aprendizaje es mucho más óptima que un libreto al uso, ya que los subtítulos reflejan los ritmos y las dinámicas de la conversación hablada. De este modo, los ChatBots y otras herramientas generativas pueden refinar sus habilidades comunicativas y, de paso, beber de nuevos referentes para crear textos imitando la narrativa y el estilo de obras audiovisuales concretas y de los protagonistas de las mismas.
El conjunto de datos obtenidos de OpenSubtitles forma parte de 'The Pile', el nombre que ha recibido una colección de conjuntos de datos utilizados para entrenar IAs generativas que, además de subtítulos de cine y series, incluye libros, conversaciones online, artículos de diferentes materias, solicitudes de patentes... Caldo de cultivo para el plagio.
Vince Gilligan, creador de 'Breaking Bad', escribió a la Oficina de Derechos de Autor de EE.UU. el pasado 2023 que la inteligencia artificial generativa no es más que "una forma de plagio extraordinariamente compleja". Sabiendo que su obra se ha utilizado con los fines expuestos en este texto, mucho me temo que va a ser complicado quitarle la razón.
Ver todos los comentarios en https://www.espinof.com
VER 1 Comentario