Microsoft entrena una IA que crea videos con solo una fotografía

Victor Roman

hace 2 años

Investigadores de Microsoft Research Asia han desarrollado una IA, llamada Vasa, capaz de animar imágenes estáticas para que hablen y canten en sincronización con pistas de audio.

Esta nueva herramienta no solo mueve los labios en concordancia con el audio, sino que también captura una amplia gama de matices faciales y movimientos naturales de la cabeza, lo que contribuye a una percepción de autenticidad y vitalidad en los personajes virtuales.

VASA-1

El marco de trabajo de Vasa, conocido como VASA-1, utiliza una imagen estática y un clip de audio para generar rostros parlantes que parecen reales. Según los investigadores, VASA-1 produce movimientos de labios que están sincronizados con el audio y puede manejar audios de longitud arbitraria, generando videos continuos de rostros parlantes.

El desarrollo de VASA-1 incluye innovaciones clave en la dinámica facial holística y un modelo de generación de movimientos de cabeza que opera en un espacio latente facial.

Este espacio permite la creación de expresiones faciales sacadas a partir de videos, logrando una alta calidad de video con dinámicas faciales y de cabeza realistas.

Además, VASA-1 puede generar videos en tiempo real de 512×512 píxeles a 40 FPS con una latencia de inicio casi nula, allanando el camino para interacciones en tiempo real con avatares que emulan comportamientos conversacionales humanos.

Los ejemplos proporcionados por el equipo de investigación ilustran la capacidad de VASA-1 de transformar imágenes estáticas, ya sean fotografías, dibujos o pinturas, en animaciones sincronizadas.

En un video publicado, una versión animada de la Mona Lisa cobra vida y comienza a rapear, con movimientos de labios y expresiones faciales que coinciden perfectamente con la letra de la canción.

Otros detalles

El proceso de creación de VASA-1 implicó un extenso entrenamiento con sistemas de IA expuestos a miles de imágenes que muestran una amplia gama de expresiones faciales. Este conjunto de datos permitió al sistema aprender y recrear con precisión las sutilezas de las emociones humanas y los patrones de habla.

La iteración actual de VASA-1 genera visuales de alta resolución que parecen suaves y naturales, gracias al poder computacional de una GPU Nvidia RTX 4090.

Aunque VASA-1 abre posibilidades fascinantes para la creación de contenido y la interacción virtual, los investigadores son conscientes del potencial de mal uso de esta tecnología y han decidido no dar acceso público al sistema por ahora. Señalan la importancia de una gestión responsable para mitigar consecuencias no deseadas.