La semana pasada, Nvidia lanzó una nueva versión de Nvidia Broadcast (se abre en una nueva pestaña) - el software de aprendizaje profundo impulsado por IA que puede eliminar el ruido, eliminar/reemplazar el fondo, enmarcar la cámara y ahora... contacto visual. Este último se encuentra actualmente en beta, y... probablemente debería permanecer en beta.
La IA y el aprendizaje profundo han estado mucho en las noticias últimamente, por una buena razón. Cosas como Dall-E, Midjourney y Stable Diffusion crean arte a partir del texto, a menudo con resultados sorprendentes. Por supuesto, en otras ocasiones terminas con criaturas mutadas mutiladas con dos cabezas y media y demasiadas extremidades. En el lado del texto, ChatGPT produce una escritura legible que muchos temen significará el final de los ensayos y el periodismo en inglés (y no, él no escribió este artículo).
La idea detrás de Eye Contact es bastante simple: cuando estás en un webcast o en una reunión, a menudo apartas la mirada de la cámara. De hecho, lo más probable es que estés todavía Aparta la mirada de la cámara, porque está en la parte superior de la pantalla y las cosas que quieres ver están en pantalla. Pero, ¿y si hubiera una manera de hacer que parezca que estás mirando a tu cámara sin mirar a tu cámara?
¿Qué pasaría si pudiera entrenar un modelo de IA en rostros y enseñarle a corregir la imagen cuando alguien no está mirando directamente a la lente? Obtenga millones de imágenes etiquetadas apropiadamente, introdúzcalas en la red y obtenga una herramienta increíble, ¿verdad?
Su implementación no es tan sencilla; Nvidia ha estado hablando sobre su función de contacto visual durante más de un año, y solo ahora está en versión pública (beta). Las diferencias entre una miríada de rostros en todo el mundo hacen que este sea un problema difícil de "resolver", e incluso ahora los resultados son... imperfectos (y así es).
Seguí adelante y lo probé de todos modos, en un sistema con un RTX 3090 Ti:
Una de las cosas que noté durante las pruebas fue que la transmisión de video en vivo a menudo oscilaba entre mirar a la cámara y mirar hacia otro lado, aunque mi enfoque permanecía en el mismo lugar. Supongo que podría ser intencional, porque tener a alguien mirando directamente a la cámara durante todo un chat de video daría un poco de miedo, pero si es así, se deben hacer algunos ajustes de tiempo.
Lo que es más difícil de decir es si este tipo de efecto es beneficioso en primer lugar. Si quieres lucir como si estuvieras mirando a la cámara, probablemente deberías aprender a mirar... a la cámara. Resolver el error humano con IA podría terminar fomentando malos hábitos. ¿Qué pasa si terminas en una transmisión de video que no corrige el contacto visual?
De todos modos, Nvidia Broadcast with Eye Contact ya está disponible para los propietarios de RTX. Lo probé con un RTX 3090 Ti, pero Nvidia enumera el RTX 2060 como punto de entrada (y eso debería incluir las GPU móviles RTX 3050, por lo que sé). A largo plazo, sospecho que en algún momento Nvidia terminará con modelos de IA que son más complejos y requieren un hardware más rápido que un RTX 2060, al igual que la función de generación de cuadros de DLSS 3 requiere una tarjeta gráfica de la serie RTX 40, pero por ahora cualquier GPU RTX fabricada en los últimos cuatro años puede impulsar esta función.
¿Te gusta el efecto, lo odias, lo encuentras aterrador o algo más? Háganos saber en los comentarios, junto con otros efectos que prefiera ver. Personalmente, espero con ansias el momento en que todos podamos tener avatares de dibujos animados virtuales como Toy Jensen hablando en lugar de personas reales, tal vez leyendo artículos escritos por la IA, videos y artículos consumidos por la IA.
¡Son bots todo el camino desde allí!
Deja una respuesta