Varios artistas visuales han demandado por el uso de sus imágenes como datos de entrenamiento para generadores de texto a imagen. Ahora, dos reconocidos novelistas presentaron su propia demanda colectiva contra OpenAI, acusando a la compañía detrás de ChatGPT y Bing Chat de infracción de derechos de autor porque supuestamente usó sus libros como datos de capacitación. Esta parece ser la primera demanda presentada por el uso de texto (a diferencia de imágenes o código) utilizado como datos de entrenamiento.
En la demanda presentada en el Tribunal de Distrito de los Estados Unidos para el Distrito Boreal de California, los demandantes Paul Tremblay y Mona Awad alegan que OpenAI y sus afiliados infringieron los derechos de autor, violaron la Ley de Derechos de Autor del Milenio Digital y todavía violaron las restricciones del derecho consuetudinario y de California sobre competencia desleal. . Los editores están representados por el oficina de abogados Joseph Saveri y Matthew Butterick, el mismo equipo detrás de las demandas recientes contra Diffusion AI y GitHub (en el copiloto de GitHub).
La denuncia alega que la novelística de Tremblay La cabaña del fin del mundo y dos de las novelas de Awad: 13 formas de irradiar gorda Y Conejo se utilizaron como datos de entrenamiento para GPT-3.5 y GPT-4. Aunque OpenAI no ha revelado que las novelas protegidas por derechos de autor están en sus datos de entrenamiento (que se mantienen en secreto), los demandantes concluyen que debe ser porque ChatGPT pudo proporcionar resúmenes detallados de la trama y reponer preguntas sobre los libros, una correr que lo requeriría. . para tener comunicación a los textos completos.
"Adecuado a que los modelos de jerga OpenAI no pueden funcionar sin la información expresiva extraída de los trabajos de los solicitantes (y otros) y retenida interiormente, los propios modelos de jerga OpenAI infringen trabajos derivados, hechos sin la 'autorización de los demandantes y en violación de sus derechos exclusivos bajo la Ley de Derechos de Autor', dice la denuncia.
Los tres libros todavía contienen información de gobierno de derechos de autor (CMI), como ISBN y números de registro de derechos de autor. La Ley de derechos de autor del milenio digital (DMCA, por sus siglas en inglés) establece que eliminar o manipular CMI es ilegal y, legado que la salida de ChatGPT no contiene esta información, los demandantes alegan que OpenAI es culpable de violar la DMCA por otra parte de la infracción regular de derechos de autor.
Aunque la demanda actualmente tiene solo dos demandantes, los abogados buscan el status de demanda colectiva que permitiría a otros autores cuyas obras protegidas por derechos de autor son utilizadas por OpenAI todavía cobrar daños y perjuicios. Los abogados buscan daños, costos judiciales y una orden jurídico para apremiar a OpenAI a cambiar su software y prácticas comerciales con respecto al material protegido por derechos de autor.
Nos comunicamos con Butterick para obtener comentarios sobre la demanda y nos remitió a su sitio web, LLM Litigation, que contiene una explicación detallada de la posición de los demandantes y por qué están demandando.
"Presentamos una demanda colectiva contra OpenAI desafiando ChatGPT y sus principales modelos de jerga subyacentes, GPT-3.5 y GPT-4, que remezclan las obras protegidas por derechos de autor de miles de autores de libros, y muchos otros, sin consentimiento, compensación o crédito". escriben los abogados.
Asimismo critican el concepto de IA generativa, escribiendo que la "inteligencia industrial generativa" es solo inteligencia humana, reempaquetada y separada de sus creadores. »
Al igual que la demanda de Saveri y Butterick contra Stability AI por usar imágenes con derechos de autor como datos de entrenamiento, esta se fundamento en la creencia de que escribir texto de Internet para impulsar un LLM no es honrado. Esta es una pregunta que el tribunal aún no ha respondido.
En un caso de 2006, Blake v. Google, un escritor demandó al motor de búsqueda por acumular en personalidad su trabajo y hacer que las versiones almacenadas en personalidad estuvieran disponibles a través de la búsqueda. Sin incautación, un tribunal de distrito de EE. UU. desestimó la demanda y concluyó que el almacenamiento en personalidad de los datos por parte de Google era un uso calibrado. El sentenciador Robert C. Jones escribió que el almacenamiento en personalidad es un uso transformador (uno de los cuatro factores utilizados para determinar el trato calibrado) y no daña el mercado potencial de la obra (otro coeficiente). Por lo tanto, el simple almacenamiento de datos protegidos por derechos de autor en su servidor en forma de personalidad no comprometía la responsabilidad de Google.
Sin incautación, usar un trabajo creativo protegido por derechos de autor como datos de capacitación es suficiente diferente de indexar contenido para la búsqueda. Se podría proponer que si el LLM puede repetir detalles secreto del obra, perjudica el mercado de esos trabajos y no es positivamente transformador. Por otro costado, si un ser humano escribe un compendio de la trama de un obra, generalmente no viola la ley de derechos de autor. En última instancia, estos problemas se decidirán conveniente a demandas como esta.
OpenAI no es la única empresa que utiliza material protegido por derechos de autor para capacitación o incluso tiro. Google SGE, la nueva experiencia de búsqueda de la compañía, a menudo plagia oraciones completas y párrafos palabra por palabra de artículos protegidos por derechos de autor. Lo que suceda en esta demanda podría tener un impacto mucho decano en la industria de la IA generativa.
Deja una respuesta