Así es la nueva IA de Google que crea mundos 3D en tiempo real a partir de texto o imágenes

Google DeepMind ha anunciado la nueva versión de su ‘modelo
de mundo’, Genie 3. Un ‘modelo de mundo’ es un tipo de IA generativa que
permite crear entornos 3D con los que el usuario, humano o un agente de
inteligencia artificial, puede interactuar.

Genie 1 y Genie 2, lanzadas a comienzos y
finales de 2024, respectivamente, parecían más bien generadores de mundos de
videojuegos, por las limitaciones que presentaban y la estética de los
resultados. Su sucesor supone un importante paso hacia adelante en realismo, consistencia del mundo creado y capacidad de interactuar con él.

Con Genie 3, basta subir una imagen o introducir una
instrucción escrita para crear el mundo virtual
. A diferencia de un
videojuego, que se construye con los recursos creados
por artistas y desarrolladores, aquí todo lo hace la inteligencia
artificial
. Además, el entorno que Genie 3 genera de forma continua puede modificarse
sobre la marcha
-introduciendo nuevos personajes, cambiando objetos o el
clima- mediante nuevas instrucciones de texto. Los ejemplos presentados por Google dan una idea de la versatilidad de
la herramienta.

Frente a Genie 2, la nueva IA de DeepMind utiliza una
resolución de 720p (360p en su predecesor) y 24 imágenes por segundo, muestra una mayor capacidad de navegación e interacción, la mencionada posibilidad de
modificar el mundo en cualquier momento y sube el horizonte de interacción
de 8 segundos a ‘múltiples minutos’
.

El vídeo en el que un usuario pinta una pared, se aleja de
ella dejándola fuera de imagen y después vuelve para encontrar que se
mantienen los brochazos que ha dado antes
, es un ejemplo ilustrativo de
esta capacidad.

El mundo creado también puede explorarse durante más tiempo,
aunque Google no ha especificado el número de minutos; ‘unos cuántos’ en los
que ha ampliado el único al que alcanzaba Genie 2
.

Aunque las primeras versiones de Genie estaban enfocadas a
la creación de videojuegos, las aspiraciones de Google son ahora mayores.
Además de con fines de entretenimiento, DeepMind lo presenta como un
instrumento de investigación y para entrenar robots y agentes de IA.

Uno de los problemas que encuentran las compañías de IA es
la escasez de nuevos datos de entrenamiento. Tras alimentar a los modelos con
prácticamente todas las webs y vídeos existentes, los investigadores están
recurriendo a datos sintéticos para múltiples usos. DeepMind cree que los
modelos de mundo pueden ser clave en este nuevo enfoque, ya que permiten
entrenar agentes con mundos interactivos virtualmente ilimitados
.

Con todo lo sorprendente que es Genie 3, también
tiene sus problemas. Además de las limitaciones comentadas, sigue
generando elementos incorrectos en el vídeo y los textos resultan
ilegibles
.

También hay límites en la forma en que los agentes de IA
interactúan con estos mundos. Aunque se pueden crear entornos y eventos con
condiciones realistas, no pueden modificarlos. Su papel se
reduce a desplazarse por el mundo simulado, ya que aún no cuentan con la
capacidad necesaria para influir en él. DeepMind sigue experimentando
con la posibilidad de que varios agentes interactúen entre sí en un mismo
entorno
.

Genie 3, que debe de requerir una capacidad de computación
muy importante, no está disponible para el consumidor general, pero Google
concederá acceso ‘a un pequeño grupo de académicos y creadores’ que ayudarán a
perfeccionar el modelo. La intención es aumentar la disponibilidad en el
futuro
.

 Genie 3 llega 8 meses después de Genie 2 y supone un importante salto hacia adelante  

Google DeepMind ha anunciado la nueva versión de su ‘modelo de mundo’, Genie 3. Un ‘modelo de mundo’ es un tipo de IA generativa que permite crear entornos 3D con los que el usuario, humano o un agente de inteligencia artificial, puede interactuar.

Genie 1 y Genie 2, lanzadas a comienzos y finales de 2024, respectivamente, parecían más bien generadores de mundos de videojuegos, por las limitaciones que presentaban y la estética de los resultados. Su sucesor supone un importante paso hacia adelante en realismo, consistencia del mundo creado y capacidad de interactuar con él.

Con Genie 3, basta subir una imagen o introducir una instrucción escrita para crear el mundo virtual. A diferencia de un videojuego, que se construye con los recursos creados por artistas y desarrolladores, aquí todo lo hace la inteligencia artificial. Además, el entorno que Genie 3 genera de forma continua puede modificarse sobre la marcha -introduciendo nuevos personajes, cambiando objetos o el clima- mediante nuevas instrucciones de texto. Los ejemplos presentados por Google dan una idea de la versatilidad de la herramienta.

Frente a Genie 2, la nueva IA de DeepMind utiliza una resolución de 720p (360p en su predecesor) y 24 imágenes por segundo, muestra una mayor capacidad de navegación e interacción, la mencionada posibilidad de modificar el mundo en cualquier momento y sube el horizonte de interacción de 8 segundos a ‘múltiples minutos’.

El vídeo en el que un usuario pinta una pared, se aleja de ella dejándola fuera de imagen y después vuelve para encontrar que se mantienen los brochazos que ha dado antes, es un ejemplo ilustrativo de esta capacidad.

El mundo creado también puede explorarse durante más tiempo, aunque Google no ha especificado el número de minutos; ‘unos cuántos’ en los que ha ampliado el único al que alcanzaba Genie 2.

Aunque las primeras versiones de Genie estaban enfocadas a la creación de videojuegos, las aspiraciones de Google son ahora mayores. Además de con fines de entretenimiento, DeepMind lo presenta como un instrumento de investigación y para entrenar robots y agentes de IA.

Uno de los problemas que encuentran las compañías de IA es la escasez de nuevos datos de entrenamiento. Tras alimentar a los modelos con prácticamente todas las webs y vídeos existentes, los investigadores están recurriendo a datos sintéticos para múltiples usos. DeepMind cree que los modelos de mundo pueden ser clave en este nuevo enfoque, ya que permiten entrenar agentes con mundos interactivos virtualmente ilimitados.

Con todo lo sorprendente que es Genie 3, también tiene sus problemas. Además de las limitaciones comentadas, sigue generando elementos incorrectos en el vídeo y los textos resultan ilegibles.

También hay límites en la forma en que los agentes de IA interactúan con estos mundos. Aunque se pueden crear entornos y eventos con condiciones realistas, no pueden modificarlos. Su papel se reduce a desplazarse por el mundo simulado, ya que aún no cuentan con la capacidad necesaria para influir en él. DeepMind sigue experimentando con la posibilidad de que varios agentes interactúen entre sí en un mismo entorno.

Genie 3, que debe de requerir una capacidad de computación muy importante, no está disponible para el consumidor general, pero Google concederá acceso ‘a un pequeño grupo de académicos y creadores’ que ayudarán a perfeccionar el modelo. La intención es aumentar la disponibilidad en el futuro.

 Noticias de Tecnología y Videojuegos en La Razón

Noticias Similares