La nueva inteligencia artificial de Microsoft crea avatares realistas y expresivos para vídeos

This browser does not support the video element.

VASA, el nuevo modelo de inteligencia artificial de Microsoft / Microsoft

VASA es el nombre del nuevo modelo de inteligencia artificial de Microsoft capaz de generar avatares para vídeos realistas, expresivos y, además, sincronizados.

Estos rostros virtuales hablan y gesticulan con gran expresividad y realismo en tiempo real y el movimiento de los labios está "exquisitamente sincronizado con el audio", asegura la compañía en un comunicado en el que ofrece diversos ejemplos para mostrar cómo esta herramienta consigue plasmar "el gran espectro de emociones y matices faciales" que combina con el movimiento natural de la cabeza.

Los rostros que simulan ser personas reales han sido generados por herramientas de IA StyleGAN2 y DALL·E-3, pero ninguna de ellas se corresponde a una identidad real, apunta la tecnológica.

Para generar estos avatares, VASA precisa solamente de una imagen estática y un fragmento de audio con voz. Con eso puede crear vídeos de 512 x 512 píxeles a 45 fotogramas por segundo en el modo offline, aunque online soporta 40 fps con una latencia de 170 ms. La compañía lo ha evaluado con un ordenador de escritorio equipado con una GPU NVIDIA RTX 4090.

Microsoft ha asegurado que no planea lanzar la demo de esta herramienta dados sus potenciales riesgos y el peligro de que sea empleada para suplantar a personas reales.

La nueva inteligencia artificial de Microsoft crea avatares realistas y expresivos para vídeos

VASA solamente necesita una imagen estática y un fragmento de audio con voz

Así es el nuevo robot Atlas de Boston Dynamics