La fuente de datos del próximo modelo de inteligencia artificial generadora de videos de OpenAI, Sora, no está clara para la directora de tecnología de la compañía, Mira Murati.
Durante una entrevista con The Wall Street Journal publicada el 13 de marzo, Murati ofreció respuestas vagas cuando se le preguntó sobre la fuente de datos para el modelo Sora de la compañía, capaz de generar videos a partir de instrucciones de texto.
“Utilizamos datos disponibles públicamente y datos con licencia,” respondió Murati sobre cómo la compañía valuada en USD 80,000 millones estaba entrenando su próximo modelo.
Joanna Stern, del Journal, luego preguntó si Sora había sido entrenado con datos de plataformas de redes sociales, como YouTube, Instagram o Facebook. “En realidad, no estoy segura al respecto,” respondió Murati, agregando:
“Sabes, si estuvieran disponibles públicamente — disponibles públicamente para usar. Pero no estoy segura. No tengo confianza al respecto”.
Antes de pasar a otro tema, Stern mencionó la asociación de OpenAI con la empresa de imágenes de stock Shutterstock, preguntando si sus datos podrían ser utilizados para entrenar a Sora. “Simplemente no voy a entrar en detalles sobre los datos que se utilizaron. Pero eran datos disponibles públicamente o con licencia,” agregó Murati. Más tarde, confirmó al Journal que los datos de Shutterstock fueron utilizados para Sora.
Los modelos de IA se entrenan utilizando conjuntos de datos grandes, conocidos como conjuntos de datos de entrenamiento, que ayudan al modelo a aprender a reconocer patrones, hacer predicciones o entender el lenguaje.

Murati ha estado en OpenAI desde 2018, liderando algunos de los proyectos más populares de la compañía, incluido el modelo generador de imágenes DALL-E 3, la herramienta de reconocimiento de voz Whisper y la última versión del chatbot de la compañía, GPT-4. En noviembre de 2023, asumió brevemente el cargo de CEO interina después de que la junta directiva de OpenAI destituyera a Sam Altman.
OpenAI ha sido objeto de varias acciones legales relacionadas con los datos de entrenamiento de sus modelos de IA. En julio de 2023, los autores Sarah Silverman, Richard Kadrey y Christopher Golden presentaron una demanda contra la compañía, alegando que ChatGPT genera resúmenes de las obras de los autores basados en contenido protegido por derechos de autor.
En diciembre, The New York Times demandó a Microsoft y OpenAI en una queja similar por infracción de derechos de autor que alega que las compañías utilizaron el contenido del periódico para entrenar a los chatbots de IA. Se presentó una demanda colectiva diferente en California, alegando que OpenAI recopiló información privada de usuarios de internet para entrenar a ChatGPT sin el consentimiento del usuario.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.