Avatar: El camino del agua ha ganado el Oscar a los Mejores Efectos Visuales en la 95ª edición de los Premios de la Academia.
El estudio Wētā FX de Nueva Zelanda es el responsable de los efectos visuales de la esperada secuela de James Cameron, Avatar, y el equipo detrás de la película estaba emocionado al aceptar el premio en el escenario de los Oscar hoy.
Avatar no fue la única película del estudio neozelandés nominada en esta categoría, con The Batman y Black Panther: Wakanda Forever también optando al premio.
Avatar: El camino del agua está listo para sumergirse en la carrera por la mejor película con sus nuevas cámaras, nuevas tecnologías, nuevos algoritmos, cientos de revisiones y miles de millones de dólares. Pronto podrás experimentar la magia de la inteligencia artificial en los cines mientras ves Avatar: El camino del agua. Una película suntuosa que utiliza tecnología revolucionaria para mejorar la experiencia visual de los espectadores. Se creó una nueva tecnología de captura de movimiento para capturar escenas subacuáticas espléndidas.
Tecnología que ha revolucionado el mundo al dar una nueva dimensión al mundo del cine


Captura de movimiento mediante imágenes generadas por computadora
Las imágenes generadas por computadora (CGI) se utilizaron en muchas películas anteriores y también se utilizan ampliamente en Avatar: El camino del agua. Se introdujo una técnica novedosa llamada «captura de movimiento facial basada en imágenes». Requiere que los actores usen un dispositivo en la cabeza equipado con una cámara para transmitir los movimientos faciales que se aplicaron a los personajes virtuales.
Animación digital
La animación digital transfiere las representaciones a imágenes fotorrealistas. Cada detalle fue cuidado al representar cada pequeña cosa individualmente con los métodos más innovadores.
Cámara estereoscópica de fusión 3D
El sistema de cámara de fusión 3D estereoscópico es una cámara digital móvil desarrollada por James Cameron y Vince Pace, que fue especialmente utilizada para unir las escenas y crear una conectividad artística entre las escenas de acción real y las escenas generadas por ordenador. La cámara está equipada con lentes Fujinon.
Cámara virtual y Simulcam
El Simulcam y la cámara virtual son las últimas invenciones en la técnica de captura de movimiento que combina tecnologías 3D y CGI. El simulcam ayuda a ver y dirigir escenas de CGI. Une a los personajes y los entornos en un solo paquete. Mientras tanto, las cámaras virtuales que se alimentan de datos CGI actúan como monitores virtuales.
Wētā FX ha desarrollado un nuevo sistema de animación facial que se basa en una técnica completamente nueva. El equipo creó este enfoque innovador en 2019, pero la compañía solo reveló este nuevo método en SIGGRAPH ASIA en Corea, para coincidir con el lanzamiento de Avatar: The Way of Water.


Antecedentes
El nuevo sistema de animación facial se basa en pasar de una marioneta FACS a curvas de fibra muscular como base anatómica. El nuevo enfoque se llama Sistema Facial Anatómicamente Plausible o APFS y es un sistema centrado en el animador, inspirado anatómicamente, para modelado, animación y transferencia de retargeting facial.
Este nuevo sistema reemplaza el sistema de marionetas FACS galardonado que Wētā FX ha utilizado de manera consistente desde Gollum. Después de haber presionado mucho el enfoque FACS de I+D para la película Alita: Battle Angel (2019), Letteri decidió que un sistema de marionetas basado en FACS tenía demasiados problemas importantes, como la separación de los músculos faciales, la cobertura, el uso combinatorio lineal y la redundancia a gran escala. Por ejemplo, aunque FACS mapea un conjunto de poses faciales que denotan expresiones impulsadas por los músculos, para obtener una animación facial adecuada, un rig de marionetas FACS puede terminar con hasta 900 formas de FACS agregadas a un rig para permitir que un animador logre una actuación creíble. No es que FACS sea «incorrecto», simplemente no es un sistema diseñado para la animación facial basada en el tiempo. No se construyó en torno al habla, sino a expresiones emocionales aisladas. «Necesitábamos un sistema que permitiera a los artistas un control directo sobre cómo se comporta una cara», comenta Letteri. «Un sistema FACS solo emula una cara desde el exterior y tiene capacidades muy limitadas… solo es un sistema basado en emociones, codifica expresiones. No hay diálogo codificado en FACS y en su mayoría, lo que hacemos es diálogo». Si bien FACS puede representar una expresión aislada con precisión, no hay información sobre cómo hacer la transición entre poses. «Terminas teniendo que adivinar… es como si intuyeras la transición, lo cual es genial, pero es difícil de mantener», explica Letteri. «También es muy ‘elástico’. Un sistema FACS puede ser muy elástico porque tienes estos cambios de estado que ocurren básicamente de manera lineal en toda la cara a medida que te mueves de un estado a otro».


Letteri y su equipo decidieron comenzar desde cero y abordar todo el proceso de creación de rostros desde cero. «Comencé a mirar el problema y pensé: ya no quiero hacer esto. Es demasiado difícil. Tiene que haber una mejor manera», recuerda. «Comencé a retroceder y solo a mirar los músculos de la cara y cómo están dispuestos y conectados. Me di cuenta de que si se mapean esas conexiones, se tiene la base para un espacio de alta dimensionalidad que podría describir la cara».
El equipo se centró en el hecho de que cuando se realiza una expresión, un músculo se activa y otros músculos se activan en conjunto o se estiran pasivamente. «Debido a la forma en que los músculos están interconectados, en una especie de red que se parece mucho a una red neuronal», razonó Letteri. «Entonces pensé, ¿por qué no creamos una red neuronal que utilice los músculos directamente como base? En otras palabras, mucha de la ‘deep learning’ intenta resolver problemas arrojando números, dando muchos datos y tratará de encontrar correlaciones para ti. Y pensé, no, ya conocemos las correlaciones, así que ¿por qué no codificamos eso como nuestra base? Si te adentras en las matemáticas, es una gran cadena de derivados. Es cálculo básico». Luego, el equipo se propuso crear un sistema que le diera al animador una forma única de representar cualquier combinación de mandíbula, ojos y músculos, «Como base, es fantástico porque ahora podemos entrenar el sistema para analizar, por ejemplo, la cara de Sigourney Weaver y tratar de resolver lo que están haciendo los ‘músculos’, y luego ejecutar otra red que transferirá eso al personaje». Además, con las curvas musculares, los animadores ahora tienen un control directo, músculo a músculo, de la cara. Es importante señalar, sin embargo, que las curvas musculares no están diseñadas para coincidir uno a uno con los músculos reales debajo de la piel. Las curvas musculares están diseñadas para resolver la cara pero de una manera que los animadores pueden controlar y que coincide con los movimientos faciales que se capturan en un nivel de fidelidad increíblemente alto.
APFS
El nuevo APFS se basa en 178 curvas de fibra muscular o curvas de ‘tensión’. Estas curvas pueden contraerse o relajarse para proporcionar expresiones faciales humanas de alta fidelidad y granularidad. El sistema de extremo a extremo es tanto de adentro hacia afuera (la cara está impulsada por las curvas de fibra muscular) como de afuera hacia adentro (un animador puede mover la cara de manera ‘correcta’ desde la superficie de la cara). El sistema no es un mapeo 1:1 de los músculos humanos, ya que algunos aspectos faciales, como la curvatura del labio superior, en realidad son el resultado impulsado por la mandíbula y los músculos faciales inferiores. Más bien, el sistema es una matriz de 178 curvas que permiten un conjunto de controles inspirados anatómicamente, pero no una emulación y simulación directa


Ejemplo de párpado
Cada curva muscular o de tensión tiene asociado un valor de tensión. Las curvas musculares no giran realmente, pero el valor de tensión proporciona una contracción o expansión a lo largo de la curva, en su espacio local. En cierto sentido, es un cambio de longitud porcentual. El número real de tensión de la curva no tiene unidades y esto ayuda en la transferencia a diferentes personajes. Los valores de tensión no funcionan tanto de forma aislada como lo hacen como parte de un conjunto. Por ejemplo, para un parpadeo de párpado hay curvas musculares tanto a lo largo de la línea de las pestañas (horizontalmente) como ortogonalmente (verticalmente, arriba y abajo, alrededor del ojo). En este caso, la curva horizontal no cambia mucho en valor de tensión real, ya que está rotando sobre el globo ocular, mientras que las curvas verticales cambian drásticamente en valor de tensión. Pero lo más importante es que la curva vertical se ajusta a la forma de la curva muscular, que coincide con la curva del globo ocular. Una transición similar de mezcla entre una forma de mezcla abierta y cerrada, simplemente se mueve en línea recta de cerrado a abierto (sin doblarse alrededor del globo ocular). En Maya, se pueden encadenar formas de mezcla para simular la curvatura del párpado alrededor del globo ocular, pero esto también aumenta el recuento de formas de mezcla.
Si bien las soluciones de FACS han permitido un nivel de estandarización en los rigs faciales, FACS fue diseñado desde un punto de vista psicológico para capturar instantáneas voluntarias y distinguibles de expresión facial, y tiene limitaciones claras cuando se aplica a la animación por ordenador. Las Unidades de Acción (AU) de FACS deben combinarse con la sustracción para lograr la expresión deseada, ya que las AU combinan la acción de varios músculos faciales o no involucran músculos faciales en absoluto, la localización y el control de animación (AU que pueden ser redundantes, opuestos en acción, fuertemente correlacionados o mutuamente exclusivos), y las AU solo aproximan las deformaciones de forma compleja de una mandíbula articulada y los labios humanos. Se utilizó el aprendizaje automático para construir el nuevo sistema. Se utilizaron 6.000-8.000 escaneos (cuadros) de 80 clips de movimiento dinámicos. Alrededor del 60% son poses de forma de FACS y el 40% son movimientos de habla. El rendimiento de cada actor se resolvió en función de 340 marcadores de expresiones de verdad validados. El pipeline de APFS no codifica ninguna información temporal, esto proviene de la propia solución de captura de rendimiento. La animación rastrea inherentemente el movimiento y las expresiones del actor.


La mandíbula
La mandíbula y los labios reciben atención adicional en el nuevo sistema, «porque una de las cosas que noté cuando estábamos construyendo el sistema es que el control principal para el estado de tu rostro es la mandíbula», relata Letteri. «Especialmente con el diálogo, la mandíbula está en constante movimiento. Es el principal impulsor del estado». Además, como la mandíbula de cualquier persona solo puede moverse en la forma del escudo delimitador, el hueso mandibular o mandíbula inferior se une al cráneo mediante la articulación temporomandibular y se mantiene en su lugar por medio de ligamentos y músculos. Como tal, el rango de movimiento de la mandíbula puede ser mapeado trazando un conjunto de puntos notacionales en la mandíbula. Cuando se mapea un conjunto de tales puntos sobre todas las posibles expresiones y diálogos de una persona, se obtiene la forma del escudo delimitador de Posselt. Esto se conoce como el «envelope of motion» de Posselt o el escudo de Posselt. «El escudo se construye en un sistema de restricciones, para el propio controlador», explica Letteri. «Los músculos se resuelven sobre eso». Esto se debe a que cuando el equipo está resolviendo para cualquier actor, hacen un ajuste forense de un cráneo digital al actor. Luego, determinan el rango de movimiento de la mandíbula, y realizan una resolución utilizando las cámaras estéreo HMC para extraer información de profundidad. «Luego ejecutamos una PCA en eso para intentar obtener el mejor ajuste para que tengamos una malla coherente. Luego, la mandíbula y el cráneo se ajustan a eso», agrega. Si el equipo está capturando el rendimiento, entonces el movimiento y el rango de movimiento ya están contemplados en la acción humana. Pero si están animando a mano, entonces su controlador de mandíbula tiene restricciones de escudo incorporadas. La animación se verificó observando la alineación de los dientes contra las imágenes capturadas de cada cámara para ese actor.
De manera similar, los ojos del actor son manejados con mucho cuidado. El modelo de ojos del sistema coincide con la esclerótica, la córnea y el iris del actor. La dirección de la mirada de los ojos se ajusta en cada fotograma rotando los globos oculares para que el modelo del iris se alinee con el anillo limbar y la pupila, visible en las imágenes capturadas de cada cámara. Los ojos son muy difíciles de rastrear, debido a la lente del ojo y a la refracción que muestra. Se utilizan varios ángulos de cámara para verificar la alineación y tener en cuenta la luz refractada por la córnea. Incluso se aplica un pequeño abultamiento frontal de los ojos a cada rotación para mejorar el realismo de los ojos del personaje.
Tetraedros (Tet) de Volúmenes Faciales
Dado que los músculos curvos son solo líneas, se necesita un vínculo entre los músculos de tensión y la piel del personaje digital. Las curvas capturan las líneas de acción muscular, pero también están incrustadas dentro de la cara real. Aquí, la cara se simula mediante una representación volumétrica que utiliza un volumen tetraédrico que discretiza el tejido blando de la cara en la posición de reposo del personaje. La solución del volumen tetraédrico se encuentra entre la piel y los huesos del cráneo y la mandíbula. Los tets forman un ‘jello’ conceptual o matemático. Se realiza una simulación pasiva, cuasiestática de este volumen tetraédrico para todas las secuencias de escaneo con vértices de piel y el cráneo como restricciones posicionales. Utilizando análisis de elementos finitos (FEA), se realiza una «simulación pasiva» de los 135.000 tets (restringidos con múltiples restricciones posicionales, de deslizamiento y de colisión) de manera cuadro a cuadro, y esto produce un comportamiento de la carne anatómicamente plausible. La «máscara de carne» que se genera aquí solo tiene un papel en la etapa de entrenamiento.


Cintas Musculares Reales vs. Curvas Musculares
Mientras que los músculos de la cara suelen ser músculos en forma de cinta, las curvas APFS no tienen ancho. Se han agregado curvas adicionales donde sea necesario para dar cuenta de esto. Las curvas musculares no son simulaciones musculares activas, «y de hecho, los animadores no quieren eso», comenta Karan Singh, profesor de informática en la Universidad de Toronto que trabajó en el proyecto. «Quieren control de cuadro a cuadro. Quieren control de deformación cinemática. Realmente no quieren tener que configurar una simulación activa y luego presionar reproducir para ver que una simulación activa real se apodere «. Por esa razón, cree que el equipo eligió la representación de curvas y «decidió quedarse solo con las curvas», agrega. «Tomamos la representación paramétrica mínima, absolutamente mínima que pudimos».
Karan Singh se unió al equipo en 2020, justo antes del COVID, cuando estaba en Nueva Zelanda como investigador visitante. Aunque él no era el investigador principal, tuvo un papel importante en redactar el proceso para la presentación en SIGGRAPH ASIA y estuvo en Corea para la presentación con Byungkuk Choi, Haekwang Eom y Benjamin Mouscadet, quienes hicieron la presentación en vivo. Cada uno de los ingenieros tenía un enfoque y módulo particular como parte de la solución completa de extremo a extremo. El artículo en realidad tiene 12 autores, incluyendo a Joe Letteri y Karan Singh.
Singh escribió el código original de blendshape en Autodesk’s Maya al principio de su carrera, por lo que está muy familiarizado con el código detallado utilizado en los títeres FACS. Singh destaca el uso inteligente de los autoencoders de Machine Learning (ML) en el nuevo pipeline para mantener las expresiones en el modelo. ML está transformando los pipelines como el de Wētā, pero de formas que muchas personas aún no comprenden completamente. Mucho se ha escrito sobre VAE y su uso como herramientas de intercambio de rostros deepfake, pero el equipo de APFS demuestra aquí cómo se están utilizando herramientas de ML como AEs dentro de pipelines complejos para ayudar en tareas clave, sin ser utilizados explícitamente para los píxeles finales.
El sistema puede salir del modelo fácilmente usando los blendshapes tradicionales de FACS, pero el espacio de solución está acotado por los AEs. «Cuando defines a través de pruebas tempranas y datos de entrenamiento para personajes individuales, estás estableciendo el rango de ese personaje», explica Singh. «El autoencoder lo codifica, por lo que no es solo una configuración genérica que estás codificando. Estás codificando un conjunto muy específico de actuaciones». El AE, de la forma en que se construye el pipeline, mantiene realmente la cara en el objetivo y en el modelo.
Bibliotecas de poses transferibles
Los animadores naturalmente están acostumbrados a tener bibliotecas de poses. Y no hay nada malo con una biblioteca de poses, pero las poses no imponen ni codifican ningún movimiento y el uso combinatorio puede salir fácilmente del modelo. Para proporcionar un entorno de trabajo familiar, se construyó una biblioteca de movimiento basada en la tensión para los animadores. Este enfoque de afuera hacia adentro proporciona un mapeo inverso a las curvas. Pero dado cómo está construido el sistema y el uso de un autoencoder, el animador no puede salir del modelo por accidente. El estiramiento y contracción de músculos puede ser intuitivo, pero conducir una expresión facial con el vector de tensión no es sencillo. El equipo incorporó un autoencoder (AE) para ayudar a los artistas al restringir los vectores de tensión a los límites de la animación facial plausible. El espacio de solución en el modelo se llama el manifold de expresión. Depende del animador definir lo que es plausible aquí, y un animador puede elegir salir deliberadamente del modelo, pero el manifold de expresión se estima para ellos utilizando una muestra curada de múltiples expresiones faciales y el rango correspondiente.


Deep Shape
En Avatar: The Way of Water, muchos de los actores fueron capturados actuando bajo el agua, pero la mayoría de su animación facial se basó en una captura secundaria en tierra seca que se mezcló con la captura principal. Al realizar la captura de la actuación facial, los actores usaron un equipo de grabación de cabeza estéreo (HMC), que gracias a la nueva tecnología no eran más pesados que los HMC originales de Avatar 1.
Gracias a la disposición estéreo fija de las cámaras HMC, el equipo de Wētā desarrolló una poderosa herramienta de visualización llamada Deep Shape. Las imágenes estéreo se utilizan para proporcionar una reconstrucción estilo nube de puntos en 3D de la actuación real del actor que se puede ver desde cualquier ángulo. La imagen es monocromática y no poligonizada, pero muy representativa de la actuación real. Esta nueva visualización permite que un animador tenga una cámara virtual como testigo, como si se hubiera filmado a pocos pies de la cara, sin la distorsión de gran angular y el ángulo de visión extraño de la salida sin procesar de cualquiera de las cámaras de captura real. Esta vista reconstruida en 3D permite una forma mucho más poderosa de ver las extensiones de labios y mandíbulas y juzgar si la animación reconstruida posteriormente es fiel a la vista original. Es una herramienta de visualización tan útil que sorprende que nadie la haya implementado antes, pero según nuestro conocimiento, el equipo de Wētā FX es el primero en lograr con precisión la opción de visualización de Deep Shape. Esta herramienta proporciona una herramienta de referencia clave para la verdad del suelo facial para comparar y juzgar la emulación de APFS. Es otra innovación en la nueva solución basada en APFS de extremo a extremo.


Envejecimiento
Como es ahora práctica común, el equipo animó la doble digital del actor que coincide con las expresiones faciales con una gran fidelidad y luego transfirió la animación al modelo de personaje. Para maximizar la correspondencia entre un actor y la cara de su personaje en la transferencia de animación, Wētā diseñó estratégicamente su proceso de entrenamiento de personajes para compartir el comportamiento muscular subyacente correspondiente del actor. El modelo facial del personaje en 3D termina teniendo el mismo autoencoder de deformación compartido, idéntico al de su actor respectivo. La piel se mapea exactamente y las regiones del ojo y la mandíbula se manejan por separado, utilizando mapas de peso definidos por el usuario, para permitir transferencias de expresiones más precisas de esas partes faciales clave. Naturalmente, dado la forma única de los Na’vi, el equipo debe ajustar cuidadosamente el equipo de mandíbula del actor al personaje y usarlo para compensar la desviación en la topografía de los dientes y la anatomía del cráneo.