Resumen para apurados
- Google presentó esta semana en California su nuevo modelo Gemini Omni para permitir la creación y edición altamente realista de videos con inteligencia artificial.
- La herramienta supera los comandos de texto previos al permitir editar videos reales mediante lenguaje natural, incorporando leyes físicas y marcas de agua de seguridad SynthID.
- Este lanzamiento transformará la creación de contenido audiovisual masivo al integrarse a YouTube y APIs, estableciendo un nuevo estándar de realismo y transparencia digital.
MOUNTAIN VIEW, CALIFORNIA. En la pantalla de uno de los escenarios principales del Google I/O, Koray Kavukcuoglu, uno de los referentes de inteligencia artificial en la compañía, presentaba las nuevas capacidades de un modelo que promete cambiar (nuevamente) las capacidades de generar videos con esta tecnología. Mientras ocurría eso, una decena de jóvenes programadores celebraban el hito: era su creación, su proyecto más reciente y por el cual estaban orgullosos. Ahora el mundo estaba conociendo el resultado de un esfuerzo creativo por el cual Google apostará fuertemente este año.
Google Omni es el nuevo modelo de generación de video que ya está disponible en Gemini, tanto en la versión web como en la aplicación móvil. Su lanzamiento tiene la expectativa de igualar al impacto que generó el año pasado Nano Banana, su modelo para crear imágenes que le dio masividad a Gemini.
Ahora, la compañía quiere marcar un salto significativo en la creación y edición de contenido audiovisual. Según los ejecutivos de Google, Omni es capaz de generar cualquier tipo de contenido a partir de cualquier entrada, ya sean imágenes, audio, texto o video, comenzando con la producción de video de alta calidad.
Aquí está la clave del nuevo producto. Antes se podía crear video solamente con promts, es decir, a partir de texto escrito por el usuario. Pero ahora, se podrá cargar un video real, filmado por el usuario, y generar efectos especiales sobre el mismo o crear escenarios de manera realista y casi imposible de saber si son fruto de IA o no.
Kavukcuoglu, es el líder de tecnología de Google DeepMind y jefe de arquitectura de IA de Google y destacó que Gemini fue diseñado desde sus inicios como un modelo multimodal nativo. “Con Omni, la habilidad de Gemini para razonar se fusiona con su habilidad de crear", señaló.
El primer modelo de la familia, Gemini Omni Flash, ya está disponible para todos los suscriptores de Google AI Pro y Ultra a través de la aplicación Gemini y Google Flow. Además, estará accesible de forma gratuita para usuarios de YouTube Shorts y la app YouTube Create a partir de esta semana. En las próximas semanas, desarrolladores y clientes empresariales podrán acceder al modelo mediante APIs.
Una de sus capacidades más destacadas es la edición conversacional de video. Es decir, los usuarios podrán modificar escenas usando lenguaje natural y conversando con la aplicación, donde cada instrucción se construye sobre la anterior, manteniendo coherencia entre personajes, física y narrativa. Es posible cambiar elementos específicos de una escena, transformar ambientes completos, agregar objetos o personajes, e incluso modificar ángulos de cámara, todo mediante simples indicaciones de texto.
Gemini Omni también incorpora una comprensión más detallada de las leyes de la física, como gravedad y la dinámica de fluidos, lo que permitirá generar escenas con mayor realismo. Además, combina los conocimientos culturales, históricos y científicos de Gemini para dotar de significado a las creaciones, más allá de la simple generación de imágenes por coincidencia de patrones.
Transparencia y seguridad para las creaciones con IA
En materia de seguridad y transparencia, Google informó que todos los videos producidos con Omni incluyen la marca de agua SynthID, cuya autoría puede verificarse a través de la aplicación Gemini, Gemini en Chrome y la Búsqueda de Google. Este es un protocolo de seguridad que etiqueta al contenido para transparentar que ha sido creado con inteligencia artificial. La compañía también subrayó que continúa trabajando de forma responsable en las funciones de modificación de voz y audio, antes de ponerlas a disposición del público general.







