Videos de IA con tu rostro: así funciona Sora 2, el nuevo modelo lanzado por OpenAI

OpenAI acaba de lanzar su nuevo modelo de inteligencia artificial Sora 2 para la generación de video con el que promete generar contenido audiovisual más realista, físicamente coherente y controlable. A partir de ahora se podrá incluir audio sincronizado para un mayor realismo y detalle de los videos. Además, la compañía anunció una aplicación dedicada que incluirá la función de Cameos, con el objetivo de crear simuladores de mundos virtuales y una nueva experiencia de comunicación.

Se trata de una nueva funcionalidad de los creadores de ChatGPT con el que la compañía clasificó como el "momento GPT-3.5" en el universo audiovisual. Esta comparación no es menor: el salto implica una mejora masiva en la capacidad del sistema para crear mundos virtuales que se sienten y se comportan con la lógica de la realidad. Según lo anunció en su sitio oficial, el nuevo modelo no solo construye clips audiovisuales, sino apunta a “construcción de un simulador de mundo”, algo que OpenAI considera esencial para desarrollar sistemas de IA que entiendan e interactúen de forma coherente con el entorno físico.

Videos creados con Sora 2, el nuevo modelo de OpenAI

Según el comunicado, la novedad que más llama la atención de Sora 2 es la precisión de las leyes de la física en los videos generados. La versión anterior de Sora, presentada en febrero de 2024, ya había mostrado un adelanto, pero este nuevo modelo es un “quiebre”. En sistemas previos, la IA a menudo "engañaba" a la realidad para cumplir con un prompt. Sora 2 elimina esa trampa. Ahora, los videos pueden representar fenómenos como un jugador que tira una pelota de basquet y que rebota en el tablero, respetando la gravedad y la dinámica del choque. A partir de ahora, las creaciones representan el éxito (embocar una pelota en el aro) y el fracaso (rebotar en el aro) y según la empresa, esta posibilidad es “fundamental para cualquier simulador de mundo que se precie”.

Además, la controlabilidad del modelo mejoró, lo que le permite seguir instrucciones por parte de los usuarios más complejas y en múltiples planos de cámara sin que se pierda la coherencia del estado del mundo o la persistencia de los personajes.

Mirá este video explicativo sobre Sora 2, generado con inteligencia artifcial (NotebookLM y HeyGen)

A este nivel de simulación del mundo físico se le suma la integración de audio sincronizado. Sora 2 es capaz de generar diálogos, efectos de sonido y paisajes sonoros de fondo que se alinean con la acción y el entorno, todo con un nivel de realismo que ya se compara con producciones cinematográficas de alta calidad.

Cameos: la función de OpenAI que simula la creación de una película

El lanzamiento de Sora 2 no fue solo técnico, sino también social, ya que vino acompañado de una nueva aplicación para iOS -por ahora solo disponible en EEUU y Canadá- llamada Sora. Esta herramienta incluye la función de Cameos, que permite insertar tu propia imagen y voz, o la de tus amigos directamente en cualquier video generado por la IA. El usuario se puede grabar una sola vez y luego generar diferentes videos, en diferentes situaciones, con la misma cara y expresiones.

Esta característica de Cameos es, según OpenAI, una “evolución natural en la comunicación”: pasar del texto a los emojis, a las notas de voz, y ahora a una experiencia co-creativa donde el usuario se puede convertir en un personaje a partir de los clips de video. Por lo tanto, la empresa espera que la creación de videos se transforme en algo más parecido a un juego social que a una tarea de producción.

Videos creados con Sora 2, el nuevo modelo de OpenAI

Con estos lanzamientos, OpenAI enfatizó que la identidad y el consentimiento son temas centrales. La empresa asegura que brinda un control total sobre la imagen de los usuarios y sus conctactos. Además, para los adolescentes, la plataforma implementó límites por defecto en la cantidad de generaciones que pueden ver por día, así como permisos más estrictos para usar los Cameos, reforzados por controles parentales que se pueden gestionar desde ChatGPT.

En cuanto a su disponibilidad, Sora 2 ya está disponible en la app de iOS y en la web sora.com (inicialmente en Estados Unidos y Canadá, y luego esperan expandirse rápido a más regiones). Aunque el modelo todavía no es perfecto y OpenAI admite que comete errores, su lanzamiento es un claro indicio de que la tendencia a escalar las redes neuronales con datos de video nos está acercando cada vez más a una simulación digital de la realidad.

Videos de IA con tu rostro: así funciona Sora 2, el nuevo modelo lanzado por OpenAI

Cameos: la función de OpenAI que simula la creación de una película

{{titulo}}