Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial (IA) que permite al usuario mirar a una persona que habla durante tres a cinco segundos para “inscribirla” y escucharla solo a ella.
El sistema, denominado TSH (Target Speech Hearing), cancela entonces todos los demás sonidos del entorno y reproduce en tiempo real sólo la voz del interlocutor inscrito, incluso cuando el oyente se desplaza por lugares ruidosos y deja de estar frente a él.
Los desarrolladores de los auriculares TSH creen que en un futuro cercano las próximas generaciones de estos dispositivos tendrán inteligencia artificial, con lo que proporcionará a los usuarios un nivel importante de control de lo que quieren escuchar.
“Creo que la próxima generación de auriculares, Airpods y audífonos proporcionará a los usuarios un nivel extraordinario de control de lo que quieren oír en su entorno”, dijo a Metro Shyam Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la Universidad de Washington
Para utilizar el sistema, según explican sus creadores, una persona que lleve unos auriculares normales equipados con micrófono toca un botón mientras dirige la cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese interlocutor deben llegar simultáneamente a los micrófonos de ambos lados de los auriculares; hay un margen de error de 16 grados.
“Me sorprendería que la IA no se integrara en los auriculares y los Airpods en los próximos años”
— Shyam Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la Universidad de Washington
Después, los auriculares envían esa señal a un ordenador integrado, donde el software de aprendizaje automático del equipo aprende los patrones vocales del orador deseado. El sistema se fija en la voz de ese orador y sigue reproduciéndola al oyente, incluso cuando la pareja se mueve. La capacidad del sistema para centrarse en la voz seleccionada mejora a medida que el interlocutor sigue hablando, lo que proporciona al sistema más datos de entrenamiento.
El equipo probó el sistema con 21 sujetos, que, de media, valoraron la claridad de la voz del hablante registrado casi el doble que la del audio sin filtrar. Sin embargo, sus creadores puntualizan que en la actualidad, el sistema TSH sólo puede registrar un altavoz a la vez, y sólo es capaz de registrar un altavoz cuando no hay otra voz alta procedente de la misma dirección que la voz del altavoz objetivo.
Este trabajo se basa en la investigación anterior del equipo sobre “audición semántica”, que permitía a los usuarios seleccionar clases específicas de sonidos -como pájaros o voces- que querían oír y cancelaba otros sonidos del entorno.
En la actualidad, el sistema TSH sólo puede registrar un altavoz a la vez, y sólo es capaz de registrar un altavoz cuando no hay otra voz alta procedente de la misma dirección que la voz del altavoz objetivo. Si el usuario no está satisfecho con la calidad del sonido, puede volver a inscribir el altavoz para mejorar la claridad.
Así funciona los auriculares TSH
El sistema consta de dos fases:
1.- La fase de inscripción
El usuario simplemente pulsa un botón en los auriculares y mira al interlocutor objetivo durante unos segundos, entre 2 y 5 segundos. Durante este tiempo, el sistema captura un ejemplo de audio ruidoso del objetivo utilizando los micrófonos situados a ambos lados de la cabeza. Utiliza esta grabación para extraer las características de la voz del hablante, incluso cuando hay otros hablantes y ruidos en las proximidades.
2.- Fase de audición del habla objetivo
Una vez que el sistema ha aprendido las características de la voz del sujeto objetivo, utiliza una red neuronal para extraer el habla de ese interlocutor, aunque el usuario ya no lo esté mirando y no lo tenga frente a él.
Aquí puedes ver un video de cómo funcionan estos auriculares
4 preguntas a…
Shyam Gollakota,
autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la Universidad de Washington
P: ¿Qué le llevó a desarrollar estos auriculares con inteligencia artificial?
–Es posible que haya notado que las voces familiares, como las de un amigo íntimo o un padre, son más fáciles de entender en entornos abarrotados que las de personas que conoce por primera vez. Esto se debe a que el cerebro humano es capaz de centrarse en el habla de un interlocutor determinado, dado el conocimiento previo de cómo suena. Así que empezamos el proyecto para ver si podemos diseñar unos auriculares con IA que imiten esta capacidad y nos den alguna opción en cuanto a los sonidos que oímos en entornos reales.
Por ejemplo, imagina que tú y un amigo estáis paseando y charlando en una calle concurrida. ¿No sería estupendo disponer de unos auriculares capaces de aprender las características de la voz de su amigo y suprimir el ruido de la calle y el habla de los transeúntes para que usted pueda concentrarse en lo que dice su amigo? O imagínese a usted mismo como turista, escuchando atentamente la narración de su guía turístico mientras admira uno de los lugares más antiguos del mundo. Por desgracia, su voz queda ahogada por el habla de los demás a tu alrededor. Pero, ¿y si tus auriculares pudieran aprender cómo suena tu guía turístico y sólo reprodujeran su voz, silenciando todo lo demás? Eso es exactamente lo que hemos conseguido.
P: ¿Cómo consiguen estos auriculares reproducir en tiempo real únicamente la voz del interlocutor registrado?
–Es todo un reto, porque los humanos somos sensibles al retardo entre las señales visuales y auditivas. Por ejemplo, tengo que procesar menos de una centésima de segundo de datos de audio, procesarlos y reproducir el discurso limpio en el oído, todo ello en una centésima de segundo. Además, un auricular no tiene la enorme GPU que utilizan los sistemas de IA normales, como ChatGPT. Así que tuvimos que diseñar una novedosa red neuronal de audición del habla en tiempo real que pudiera funcionar en el propio auricular.
Procesamos el audio entrante en trozos de 8 milisegundos. Realizamos múltiples optimizaciones para asegurarnos de que podemos procesar todo esto localmente en el propio auricular sin utilizar una gran cantidad de computación. Así que la salsa secreta está en la forma en que optimizamos nuestra red neuronal.
P: ¿Podría explicarnos con más detalle cómo funciona la IA en estos auriculares?
–Funciona así: Digamos que quieres escuchar el altavoz azul en presencia del altavoz rojo que interfiere. Ahora, cuando activamos la cancelación de ruido en los auriculares, entonces se suprimen ambos altavoces. Pero si utilizamos el par de micrófonos que hay en el exterior de los auriculares, podemos captar todos esos sonidos y extraer el habla del altavoz azul y reproducirla al usuario a través de los auriculares. De este modo, el usuario sólo oye el altavoz azul y se consigue la audición verbal deseada.
P: En el futuro, ¿podríamos ver estos auriculares en el mercado?
–De hecho, me sorprendería que la IA no se integrara en los auriculares y los Airpods en los próximos años. Durante cerca de dos décadas hemos visto avances en auriculares con cancelación de ruido que se han centrado solo en cancelar todos los sonidos. Pero esto elimina todos los sonidos y no proporciona a los usuarios ningún control sobre lo que quieren oír. Creo que la próxima generación de auriculares, Airpods y audífonos proporcionará a los usuarios un nivel extraordinario de control de lo que quieren oír en su entorno.