La nueva y sorprendente IA de Facebook es capaz de transcribir de voz a texto sin estar entrenado con transcripciones

Al entrenar un sistema de inteligencia artificial para transcribir de voz a texto, es necesario usar muchos pares de audio y texto. Es decir, le damos a la IA el sonido «esto es un gato» y ese mismo sonido transcrito, de modo que ser capaz de asociar cada palabra a un sonido. Esto es perfecto para los idiomas más utilizados, como el inglés o el español, pero no para los idiomas más minoritarios. Facebook, sin embargo, afirma haber encontrado una solución: wav2vec-U, con «U» para «Sin supervisión».

¿Qué es wav2vez-U? Es una forma de construir un sistema de reconocimiento de voz que no requiere ningún tipo de par transcrito. Simplemente aprende del desacoplamiento de audio y texto, lo que elimina por completo la necesidad de transcribir audio. Para ello, el sistema utiliza una GAN (red generativa antagónica) que, según Facebook, compite cara a cara con los mejores sistemas supervisados ​​de hace unos años.

Un mundo de posibilidades para transcribir lenguas minoritarias

Según lo detallado por Alexei Baevski, Wei-Ning Hsu, Alexis Conneu y Michael Auli en el blog de Facebook AI, su método comienza con el aprender la estructura del habla a partir de audio sin etiquetar. Usando su modelo anterior, wav2vec 2.0, segmentaron la grabación de voz en unidades de voz que corresponden a sonidos individuales. Por ejemplo, «gato», gato en inglés, tiene tres sonidos: «/ K /», «/ AE /» y «/ T /».

Para enseñar al sistema a comprender las palabras de un audio, utilizaron una GAN que, como todas las GAN, consta de un generador y un discriminador. El generador selecciona cada pieza de audio, predice el fonema correspondiente al sonido en cada idioma y trata de engañar al discriminador. Esta es, en sí misma, otra red neuronal que se ha entrenado con las salidas de texto del generador y texto real de diferentes fuentes dividido en fonemas. Esto es importante: texto real de diferentes fuentes, no transcripciones del texto que estamos tratando de transcribir.

El trabajo del discriminador es evaluar si las secuencias de fonemas pronosticadas («/ K /», «/ AE /» y «/ T /» si hablamos de «gato») parecen realistas. Las transcripciones del primer generador son pésimas, pero con el tiempo y la retroalimentación del discriminador, se vuelven cada vez más precisas. Y es todo un logro, ya que el propio sistema no sabe que «gato» se transcribe como «gato», pero que entiende que, debido a los sonidos que componen la palabra, debe escribirse así.

Para probar el sistema, Facebook utilizó las pruebas TIMIT y Librispeech y afirma que «wav2vec-U es tan preciso como el estado de la técnica de hace unos años, sin utilizar ningún dato de entrenamiento etiquetado. En total, estos dos puntos de referencia miden el desempeño en inglés, un idioma con un gran corpus de texto hablado y transcrito. El sistema de Facebook, sin embargo, es más interesante para las lenguas minoritarias, como el suajili, el tártaro o el kirguís, cuyo corpus de datos es menor.

Es, sin duda, un gran paso adelante a la hora de transcribir voz. Ahora será necesario ver cómo Facebook lo implementa, si es que alguna vez lo hace. Por otro lado, la empresa de Zuckerberg ha publicado el código necesario para construir este sistema de reconocimiento de voz. Se puede encontrar en Github y cualquiera puede acceder a él para modificarlo y probarlo.

Más información | IA de Facebook

Leave a Reply