VALL-E, la Inteligencia Artificial que simula cualquier voz con solo tres segundos de audio

La empresa Microsoft continúa innovando con el desarrollo de diferentes aplicaciones para la Inteligencia Artificial (IA) ya que ahora cuenta con un simulador de voz que puede recrear el tono de cualquier persona con solo tener tres segundos de audio.

Su nombre es VALL-E, y se trata de un modelo de lenguaje para la síntesis de texto a voz (TTS). Microsoft promete que tan solo necesita tres segundos de grabación de audio para que el sistema sea capaz de imitar la voz de la misma.

Uno de los puntos más interesantes que comparte la empresa en su comunicado, es que están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3, su chat que permite tener una conversación natural con la Inteligencia Artificial.

En otras palabras, el ChatGPT sería capaz de ofrecer resultados de voz una vez que se haya integrado este modelo. 

Los ejemplos que muestra Microsoft son muy llamativos. En ellos, nos muestra cuál ha sido la entrada de audio que se ha tomado como base, los pasos intermedios y el resultado final de VALL-E. 

El modelo no solo es capaz de imitar la voz, sino la propia cadencia original del lenguaje y el tono original con el que se ha grabado la muestra de la voz.

Qué opinas