Sora: qué es y cómo funcionará la nueva IA de OpenAI que convierte texto en videos

OpenAI presenta Sora, un nuevo modelo de IA capaz de crear escenas realistas de vídeo a partir de instrucciones de texto
Conoce Sora, la IA de OpenAI para crear videos | Foto: AFP

OpenAI presentó Sora, su nuevo modelo impulsado por inteligencia artificial generativa capaz de crear escenas realistas de video de hasta 60 segundos a partir de instrucciones de texto. La plataforma ofrece “movimientos de cámara” e incluso personajes con emociones.

¿Qué es Sora, la nueva IA generativa de OpenAI?

Sora es un modelo de IA de texto a vídeo, con el que OpenAI permite la creación de videos realistas de hasta un minuto de duración a partir de las indicaciones de texto que aporte el usuario.

“Presentamos Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario”.

OpenAI

A través de X, antes Twitter, la empresa encargada de ChatGPT ofreció un ejemplo de prompt y el resultado que muestra la nueva herramienta:

“La hermosa y nevada ciudad de Tokio está muy animada. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”.

El video resultante ofrece “escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes”, según OpenAI.

¿Cómo se podrá utilizar Sora de OpenAI?

Para crear videos con Sora, los usuarios solo deberán escribir una serie de indicaciones detallando qué características tiene que incluir la escena, como:

  • Personajes y las acciones que llevarán a cabo
  • Entorno, el clima
  • Movimientos de cámara que se deban recrear

[TE RECOMENDAMOS: Imagine, la herramienta gratuita de Meta para generar imágenes con IA]

La compañía dirigida por Sam Altman ha subrayado que el modelo puede llevar a cabo escenas tan precisas porque comprende cómo existen esas cosas en el mundo físico.

Además, es capaz de generar un video a partir de una imagen fija existente, animando el contenido de la imagen con precisión y sin perder detalle. También permite alargar la duración de un video existente o completar algunos fotogramas.

Sora genera un vídeo a partir de otros vídeos que, según OpenAI, parecen “ruido estático“. De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.

Las imágenes del vídeo se representan como “colecciones de unidades de datos más pequeñas”, a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.

¿Ya está disponible Sora de ChatGPT?

Por el momento, el uso de Sora solo está disponible para los miembros del equipo rojo de OpenAI, es decir, el equipo dedicado a la investigación del servicio para ponerlo a prueba y comprobar sus posibles fallos y/o riesgos.

Sora también está siendo probado por un grupo de artistas visuales, diseñadores y cineastas, de cara a conocer las posibles mejoras del modelo y hacer que sea lo más útil posible para los profesionales creativos, según ha explicado la compañía.

El modelo todavía presenta algunas dificultades para representar cuestiones relacionadas con el espacio, la física o las acciones de causa y efecto, según OpenAI.

También pueden surgir errores como que el modelo mezcle la izquierda con la derecha, o que no sea capaz de seguir una trayectoria de cámara específica, dice la empresa.

Se tomarán medidas de seguridad con esta IA

OpenAI subrayó que están tomando varias medidas de seguridad que implementarán en Sora antes de que el modelo esté disponible de forma general para más usuarios.

Para ello, están trabajando junto al equipo rojo, que también dispone de expertos en áreas de desinformación, contenido que incita al odio y perjuicios.

Por otra parte, está desarrollando herramientas para detectar contenido engañoso. Se trata de una serie de funciones que permitirán clasificar los vídeos generados por Sora, para identificarlos frente a otro tipo de vídeos o videos reales.

[TE RECOMENDAMOS: Canva AI Art Generator: así puedes crear imágenes y videos con pocas palabras]

Una de estas funciones es la implementación de metadatos de C2PA, un estándar que verifica el origen del contenido y la información relacionada.

Además de todo ello, actualmente también se están utilizando los métodos de seguridad que ya utilizan otros productos de la tecnológica impulsados por DALL·E 3 que, según ha dicho, también son aplicables a Sora.

Estos métodos de seguridad verifican y rechazan las solicitudes de ingreso de texto que infrinjan las políticas de uso, como es el caso de cuestiones relacionadas con violencia extrema, contenido sexual, imágenes de odio o imágenes personales.

Asimismo, disponen de clasificadores de imágenes que revisan los fotogramas de cada vídeo para garantizar que se cumplan las políticas de la compañía, antes de mostrarlo al usuario.

Qué opinas