Como Henry Higgins, el fonetista de la obra “Pygmalion” de George Bernard Shaw, Marius Cotescu y Georgi Tinchev demostraron recientemente cómo su alumno intentaba superar las dificultades de pronunciación.
Los dos científicos de datos, que trabajan para Amazon en Europa, estaban enseñando a Alexa, el asistente digital de la empresa. Tu tarea: ayudar a Alexa a dominar el inglés con acento irlandés con la ayuda de inteligencia artificial y grabaciones de hablantes nativos.
Durante la demostración, Alexa habló sobre una noche memorable. “La fiesta de anoche fue genial”, dijo Alexa con un tono de voz, usando la palabra irlandesa para divertirse. “Compramos helado de camino a casa y estábamos felices”.
El señor. Tinchev negó con la cabeza. Alexa había quitado la «r» de «fiesta», haciendo que la palabra sonara monótona, como pah-tee. Demasiado británico, concluyó.
Los tecnólogos son parte de un equipo de Amazon que trabaja en un área desafiante de la ciencia de datos conocida como desenredo de voz. Es una pregunta complicada que ha adquirido una nueva relevancia en medio de una ola de desarrollos de IA, con investigadores que creen que el rompecabezas del habla y la tecnología podría ayudar a hacer que los dispositivos, bots y sintetizadores de voz basados en IA sean más conversacionales, es decir, capaces de realizar una multitud de acentos
Lidiar con la soltura de la voz implica mucho más que comprender el vocabulario y la sintaxis. El tono, el timbre y el acento de un orador a menudo le dan a las palabras un significado matizado y un peso emocional. Los lingüistas llaman a esta característica del lenguaje «prosodia», algo que las máquinas han tenido dificultades para dominar.
Solo en los últimos años, gracias a los avances en IA, chips de computadora y otro hardware, los investigadores lograron avances para resolver el problema de la facilidad del habla al convertir el habla generada por computadora en algo más agradable para el oído.
Ese trabajo eventualmente podría converger con una explosión de «IA generativa», una tecnología que permite a los chatbots generar sus propias respuestas, dijeron los investigadores. Los chatbots como ChatGPT y Bard pueden algún día actuar completamente sobre los comandos de voz de los usuarios y responder verbalmente. Al mismo tiempo, los asistentes de voz como Alexa y Siri de Apple se volverán más comunicativos, lo que podría reavivar el interés de los consumidores en un segmento tecnológico que aparentemente se ha estancado, dijeron los analistas.
Lograr que los asistentes de voz como Alexa, Siri y Google Assistant hablen varios idiomas ha sido un proceso costoso y lento. Las empresas tecnológicas han contratado actores de voz para grabar cientos de horas de voz, lo que ha ayudado a crear voces sintéticas para asistentes digitales. Sistemas avanzados de inteligencia artificial conocidos como «modelos de texto a voz», porque convierten texto en voz sintética de sonido natural. están empezando a simplificar Este proceso.
La tecnología «ahora es capaz de crear una voz humana y audio sintético basado en la entrada de texto, en diferentes idiomas, acentos y dialectos», dijo Marion Laboure, estratega senior de Deutsche Bank Research.
Amazon está bajo presión para alcanzar a rivales como Microsoft y Google en la carrera de IA. En abril, Andy Jassy, director ejecutivo de Amazon, dijo a los analistas de Wall Street que la compañía planeó hacer que Alexa sea «aún más proactiva y conversacional» con la ayuda de la IA generativa sofisticada y Rohit Prasad, científico jefe de Amazon para Alexa, le dijo a CNBC en mayo que vio al asistente de voz como una «IA personal disponible al instante» activada por voz
Irish Alexa hizo su debut comercial en noviembre después de nueve meses de entrenamiento para comprender y hablar el acento irlandés.
“El acento es diferente del idioma”, dijo Prasad en una entrevista. Las tecnologías de IA deben aprender a separar el acento de otras partes del discurso, como el tono y el tono, antes de que puedan replicar las peculiaridades de los dialectos locales; por ejemplo, tal vez «a» es más plana y «ts» se pronuncia con más fuerza.
Esos sistemas deben descubrir esos patrones «para que puedas sintetizar un acento completamente nuevo», dijo. «Eso es dificil.»
Aún más difícil fue intentar que la tecnología aprendiera un nuevo acento por sí misma a partir de un modelo de habla con un sonido diferente. Eso es lo que intentó hacer el equipo de Cotescu al construir la Alexa irlandesa. Se basaron en gran medida en un modelo de habla existente con acentos principalmente de inglés británico, con una gama mucho más pequeña de acentos estadounidenses, canadienses y australianos, para entrenarlo a hablar inglés irlandés.
El equipo enfrentó varios desafíos del idioma inglés irlandés. Los irlandeses tienden a colocar la «h» en «th», por ejemplo, pronunciando las letras como una «t» dura o una «d», haciendo que «bath» suene como «bat» o incluso «bad». El inglés irlandés también es rótico, lo que significa que la «r» se pronuncia demasiado. Esto significa que la «r» en «fiesta» será más clara de lo que podrías escuchar de la boca de un londinense. Alexa tuvo que aprender estas características del habla y dominarlas.
El inglés irlandés, dijo Cotescu, quien es rumano y fue el investigador principal del equipo irlandés de Alexa, «es difícil».
Los modelos de voz que potencian las habilidades verbales de Alexa se han vuelto más avanzados en los últimos años. En 2020, los investigadores de Amazon le enseñaron a Alexa hablar español con fluidez de un modelo de lengua inglesa.
El señor. Cotescu y el equipo vieron los acentos como la próxima frontera para las capacidades de habla de Alexa. Diseñaron a Irish Alexa para que dependiera más de la IA que de los actores para construir su modelo de voz. Como resultado, la Alexa irlandesa fue entrenada en un corpus relativamente pequeño: alrededor de 24 horas de grabaciones realizadas por actores de voz que recitaron 2000 declaraciones en inglés con acento irlandés.
Al principio, cuando los investigadores de Amazon enviaron las grabaciones irlandesas a la Alexa irlandesa que aún estaba aprendiendo, sucedieron algunas cosas extrañas.
Las letras y las sílabas de vez en cuando desaparecían de la respuesta. Las «S» a veces se pegan juntas. Una o dos palabras, a veces cruciales, fueron murmuradas inexplicablemente e incomprensibles. En al menos un caso, la voz femenina de Alexa bajó algunas octavas, sonando más masculina. Peor aún, la voz masculina sonaba claramente británica, el tipo de bromas que podría llamar la atención en algunos hogares irlandeses.
“Son grandes cajas negras”, dijo Tinchev, un ciudadano búlgaro que es el científico principal de Amazon en el proyecto, sobre los modelos de discurso. «Tienes que tener mucha experimentación para modificarlos».
Eso es lo que hicieron los técnicos para arreglar el paso en falso de la «fiesta» de Alexa. Desenredaron el habla palabra por palabra, fonema (la parte audible más pequeña de una palabra) por fonema para identificar dónde se estaba deslizando Alexa y modificarlo. Luego alimentaron el modelo de habla de Irish Alexa con más datos de voz grabados para corregir la pronunciación incorrecta.
Resultado: la «r» en «fiesta» está de vuelta. Pero luego la «p» desapareció.
Así que los científicos de datos volvieron a pasar por el mismo proceso. Finalmente se concentraron en el fonema al que le faltaba la «p». Luego modificaron aún más el modelo para que el sonido «p» volviera y la «r» no desapareciera. Alexa finalmente estaba aprendiendo a hablar como una dublinesa.
Dos lingüistas irlandeses, Elaine Vaughan, que enseña en la Universidad de Limerick, y Kate Tallon, una estudiante de doctorado que trabaja en el Laboratorio de Fonética y Habla del Trinity College de Dublín, desde entonces le han dado altas calificaciones al acento irlandés de Alexa. La forma en que la irlandesa Alexa enfatizó las «r» y suavizó las «t» se destacó, dijeron, y Amazon acertó con el acento en general.
«Se siente auténtico para mí», dijo Tallon.
Los investigadores de Amazon dijeron que estaban complacidos con los comentarios en gran parte positivos. El hecho de que sus modelos de habla descifraran el acento irlandés tan rápido les dio la esperanza de poder replicar los acentos en otros lugares.
“También planeamos extender nuestra metodología a acentos no ingleses”, escribieron en un trabajo de investigación de enero sobre el proyecto irlandés Alexa.