La inteligencia artificial promete colarse en el centro de atención para 2023, con el vago término extendiéndose a varias formas de hardware y software exhibidas en la reciente convención CES en Las Vegas, con aún más anticipación en los próximos meses.
Las computadoras portátiles para juegos de gama alta renovadas, como Lenovo Legion Pro, ofrecen la capacidad de administrar de manera inteligente los componentes internos para obtener el máximo rendimiento mediante el aprendizaje automático con tecnología de su chip Lenovo LA. Una tecnología de ajuste automático similar ya está presente en otros dispositivos, lo que lo convierte en una perspectiva relativamente poco emocionante con un título elegante.
Sin embargo, hay un lado diferente de la pseudosensibilidad de la IA que se avecina en el horizonte, un lado que puede servir casi a partes iguales de utilidad y mal comportamiento si se abre al público en general.
Hasta ahora poco convincente y robótico
El uso de IA para sintetizar el habla humana en función de los datos de entrenamiento se ha practicado durante algún tiempo. Varias empresas han luchado con la tecnología durante años para desarrollar algo que se sienta más natural y atractivo para los consumidores cotidianos. Aún así, en su mayor parte, los resultados generalmente se revuelcan en el valle inquietante.
Exponer perfectamente los matices sutiles en nuestro discurso es complicado, sin importar cuán fantástica sea su tecnología subyacente. Todos hablamos en diferentes idiomas divididos en acentos sutiles e incluso diferimos en nuestra cadencia, y es probable que dos personas no hablen exactamente de la misma manera.
Esa es parte de la razón por la que solo hemos escuchado el habla sintetizada utilizada para el entretenimiento, ya sea alterando voces grabadas en videos cortos o imitando el acento de un culturista famoso en doblajes cómicos de escenas de películas populares.
Las aplicaciones más específicas en salud y medicina están permitiendo un uso más profundo de esta tecnología avanzada, ayudando a aquellos que pierden el uso de su voz a hablar de forma natural nuevamente con la ayuda de la IA. El profesor Stephen Hawking dejó pasar la oportunidad de reemplazar su famosa voz robótica por otra, ya que la configuración predeterminada de su tecnología de síntesis basada en DECtalk ya se había convertido en una parte reconocible de su identidad.
Si hubiera disponibles grabaciones más completas de su voz más joven y natural, podría haberse beneficiado de los avances recientes en IA, pero nadie podría decirlo con seguridad, excepto él mismo.
Microsoft presenta VAL-E
Capacitación sobre 60 000 horas de datos de habla en inglés, una nueva herramienta de síntesis de IA llamada VALL-E (se abre en una nueva pestaña) se ha detallado en un trabajo de investigación (se abre en una nueva pestaña) de la Universidad de Cornell, ahora propiedad de Microsoft. Su existencia no es especialmente alarmante, dado que la IA se ha convertido en una prioridad importante para la empresa en los últimos años. Las explicaciones de la poca información que necesita el sistema para producir resultados sorprendentemente convincentes es el verdadero factor sorprendente esta vez, con tan solo tres segundos de grabaciones utilizadas para generar mensajes completamente nuevos y no relacionados con la publicación original.
Una demostración de VALL-E en GitHub (se abre en una nueva pestaña) incluye una gran cantidad de muestras de audio que cualquiera puede escuchar, desde rígidas y antinaturales hasta casi perfectas. El motor de aprendizaje automático no está actualmente disponible para el público en general, a diferencia de alternativas relativamente rudimentarias como Uberduck. (se abre en una nueva pestaña)que de manera realista no va más allá de actuar como un juguete divertido en su estado actual.
Una declaración de ética de un solo párrafo se encuentra al pie de la demostración para explicar que todos los involucrados en el experimento estaban dispuestos y aprobados por los resultados, seguido de una advertencia implícita de que este tipo de tecnología siempre debe acompañar un acuerdo de consentimiento de todas las partes. Dado que VALL-E ha generado resultados tan fascinantes con apenas una pequeña cantidad de datos de referencia, las implicaciones para sus usos en el mundo abierto son complejas.
La implicación del robo de identidad
Mi fascinación por la IA que imita a los humanos de la vida real tiende a hacerme imaginar primero cómo podría enriquecer a la humanidad. Un patrón de habla más natural podría aliviar cierta aversión a los operadores de llamadas robóticos o dar nueva vida a los tableros de información en los espacios públicos. Delegar tareas generales de suministro de información a máquinas humanizadas podría significar saltarse las conversaciones triviales para los consumidores si pueden superar el estado actual de gritar palabras clave sobre algún software básico.
Los videos deepfake ya han generado controversia, y una voz que los acompañe es la única pieza que falta para hacerse pasar por una persona digitalmente.
Si bien preferiría que el texto a voz permaneciera en los ámbitos creativo y humanitario, la realidad de su aplicación exclusiva para generar audiolibros y contenido de memes cómicos es extremadamente improbable.
Incluso si Microsoft nunca hiciera público el funcionamiento subyacente de VALL-E, otro competidor sin duda inventaría un equivalente si se le diera el tiempo suficiente.
Lamentablemente, los actores de voz de mis videojuegos y programas de televisión favoritos de mi infancia continúan falleciendo, lo que me deja con la triste comprensión de que nunca los volveré a escuchar interpretar sus papeles icónicos. Si el talento creativo acepta preservar su voz en el futuro, este tipo de tecnología podría ver algunas aplicaciones interesantes, pero siempre con una sensación de abuso potencial. Sin pautas y controles estrictos, la probabilidad de suplantaciones dañinas aumenta con cada iteración de texto a voz.
Este tipo de ida y vuelta me hace sentir ambivalente acerca de la IA, siempre preguntándome cuánto tiempo pasará antes de que las voces generadas se vuelvan tan convincentes que se conviertan en un problema real. Los videos deepfake han provocado una controversia similar antes, y una voz de acompañamiento es prácticamente la única pieza que falta para hacerse pasar por una persona de manera convincente.
camina con cuidado
Una vez más, Microsoft no es ajeno a las posibilidades de la IA. Con supuestos planes para impulsar los resultados de búsqueda de Bing y todo el paquete de Office, tiene sentido que elijan la tecnología en desarrollo y comiencen con ventaja. Es emocionante ver cómo esto podría crecer dentro de una empresa que produce el hardware y el software que uso todos los días. Aún así, todavía hay un pensamiento persistente de que posiblemente podría tener algunas adopciones inquietantes por parte de individuos o grupos nefastos.
Sigo siendo un fanático de la tecnología con los ojos llenos de estrellas, y avances como estos siempre me harán imaginar cómo pueden mejorar nuestra vida diaria. No obstante, he pasado lo que se siente como todos los días de mi vida adulta usando Internet y he visto cómo la intención del nuevo software a veces no coincide con el uso final.
Tal vez algún día mi voz incorpórea lea todos mis artículos en voz alta, pero veré qué ha planeado Microsoft para hacer que mis hojas de cálculo de Excel sean más elegantes por ahora. Tal vez Cortana podría incluso hacer una reaparición más habladora; ¿quién sabe?
Deja una respuesta