La empresa de inteligencia artificial (IA) OpenAI presentó el jueves su primer modelo de conversión de texto en vídeo, el cual tuvo una gran acogida, aunque admite que aún le queda camino por recorrer.

OpenAI presentó el 15 de febrero su nuevo modelo de IA generativa, bautizado como Sora, capaz de crear vídeos detallados a partir de simples mensajes de texto, continuar vídeos existentes e incluso generar escenas a partir de una imagen fija.

Según una entrada de blog publicada el 15 de febrero, OpenAI afirma que el modelo de IA puede generar escenas similares a las de una película en resoluciones de hasta 1080p. Estas escenas pueden incluir varios personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo.

Cómo funciona Sora

Al igual que el predecesor de OpenAI basado en imágenes, Dall-E 3, Sora funciona con lo que se conoce como modelo de difusión.

La difusión se refiere a un modelo generativo de IA que crea su resultado generando un vídeo o una imagen con algo que parece más bien "ruido estático" y transformándolo gradualmente mediante la "eliminación del ruido" a lo largo de varios pasos.

La empresa de IA escribió que Sora se ha basado en investigaciones anteriores de los modelos ChatGPT y Dall-E 3, lo que, según la empresa, hace que el modelo represente mejor los inputs del usuario.

OpenAI admite que Sora sigue presentando varios puntos débiles y que podría tener problemas para simular con precisión la física de una escena compleja, sobre todo al confundir la naturaleza de la causa y el efecto.

“Por ejemplo, una persona puede dar un mordisco a una galleta, pero después, la galleta puede no tener la marca del mordisco.”

La empresa afirma que la nueva herramienta también puede confundir los "detalles espaciales" de una indicación determinada al confundir la izquierda y la derecha o no seguir descripciones precisas de las indicaciones.

Sora puede generar accidentalmente movimientos físicamente inverosímiles. Fuente: OpenAI

OpenAI afirma que el nuevo modelo generativo sólo está disponible por ahora para los "equipos rojos" (investigadores de ciberseguridad en el lenguaje técnico) para evaluar "áreas críticas de daños o riesgos", así como para diseñadores, artistas visuales y cineastas seleccionados con el fin de recabar opiniones sobre cómo mejorar el modelo.

En diciembre de 2023, un informe de la Universidad de Stanford reveló que las herramientas de generación de imágenes basadas en IA que utilizan la base de datos de IA Laion estaban siendo entrenadas con miles de imágenes de material ilegal de abusos a menores, algo que plantea graves problemas éticos y legales para los modelos de texto a imagen o vídeo.

Los usuarios de X se quedan sin palabras

Decenas de vídeos de demostración han circulado por X mostrando ejemplos de Sora en acción, y Sora actualmente es tendencia en X con más de 173,000 publicaciones.

En un intento por mostrar de lo que es capaz el nuevo modelo generativo, el director ejecutivo de OpenAI, Sam Altman, se abrió a las peticiones de generación de vídeos personalizados de los usuarios en X, y el jefe de IA compartió un total de siete vídeos generados por Sora, desde un pato a lomos de un dragón hasta perros golden retriever grabando un podcast en la cima de una montaña.

El comentarista de IA Mckay Wrigley -junto con muchos otros- escribió que el vídeo generado por Sora le había dejado sin palabras.

En un post publicado el 15 de febrero en X, Jim Fan, investigador sénior de Nvidia, declaró que cualquiera que creyera que Sora no era más que otro "juguete creativo", como Dall-E 3, estaría muy equivocado.

Según Fan, Sora es menos una herramienta de generación de vídeo y más un "motor de física basado en datos", ya que el modelo de IA no se limita a generar vídeo abstracto, sino que también crea de forma determinista la física de los objetos de la propia escena.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión