Microsoft entrena una IA que crea videos con solo una fotografía

Investigadores de Microsoft Research Asia han desarrollado una IA, llamada Vasa, capaz de animar imágenes estáticas para que hablen y canten en sincronización con pistas de audio.

Esta nueva herramienta no solo mueve los labios en concordancia con el audio, sino que también captura una amplia gama de matices faciales y movimientos naturales de la cabeza, lo que contribuye a una percepción de autenticidad y vitalidad en los personajes virtuales.

VASA-1

El marco de trabajo de Vasa, conocido como VASA-1, utiliza una imagen estática y un clip de audio para generar rostros parlantes que parecen reales. Según los investigadores, VASA-1 produce movimientos de labios que están sincronizados con el audio y puede manejar audios de longitud arbitraria, generando videos continuos de rostros parlantes.

El desarrollo de VASA-1 incluye innovaciones clave en la dinámica facial holística y un modelo de generación de movimientos de cabeza que opera en un espacio latente facial.

Este espacio permite la creación de expresiones faciales sacadas a partir de videos, logrando una alta calidad de video con dinámicas faciales y de cabeza realistas.

Además, VASA-1 puede generar videos en tiempo real de 512×512 píxeles a 40 FPS con una latencia de inicio casi nula, allanando el camino para interacciones en tiempo real con avatares que emulan comportamientos conversacionales humanos.

Los ejemplos proporcionados por el equipo de investigación ilustran la capacidad de VASA-1 de transformar imágenes estáticas, ya sean fotografías, dibujos o pinturas, en animaciones sincronizadas.

En un video publicado, una versión animada de la Mona Lisa cobra vida y comienza a rapear, con movimientos de labios y expresiones faciales que coinciden perfectamente con la letra de la canción.

Otros detalles

El proceso de creación de VASA-1 implicó un extenso entrenamiento con sistemas de IA expuestos a miles de imágenes que muestran una amplia gama de expresiones faciales. Este conjunto de datos permitió al sistema aprender y recrear con precisión las sutilezas de las emociones humanas y los patrones de habla.

La iteración actual de VASA-1 genera visuales de alta resolución que parecen suaves y naturales, gracias al poder computacional de una GPU Nvidia RTX 4090.

Aunque VASA-1 abre posibilidades fascinantes para la creación de contenido y la interacción virtual, los investigadores son conscientes del potencial de mal uso de esta tecnología y han decidido no dar acceso público al sistema por ahora. Señalan la importancia de una gestión responsable para mitigar consecuencias no deseadas.

Sitio

Secciones

En Asociación con

Redes Sociales

Descarga la App

Microsoft entrena una IA que crea videos con solo una fotografía

VASA-1

Otros detalles

Más comentado

¿Por qué no se puede discutir con un teórico de la conspiración?

¿Podría Oumuamua ser una vela solar alienígena?

Científicos prueban que las plantas "gritan" si son lastimadas o se sienten amenazadas

La NASA acaba de publicar nuevas imágenes tomadas por el Hubble, y son realmente espectaculares

Categorías

Archivos