VALL-E, la Inteligencia Artificial que simula cualquier voz con solo tres segundos de audio

Enero 14, 2023 | 08:10 | eduardo-ayala | UnoTV

La empresa Microsoft continúa innovando con el desarrollo de diferentes aplicaciones para la Inteligencia Artificial (IA) ya que ahora cuenta con un simulador de voz que puede recrear el tono de cualquier persona con solo tener tres segundos de audio.

Su nombre es VALL-E, y se trata de un modelo de lenguaje para la síntesis de texto a voz (TTS). Microsoft promete que tan solo necesita tres segundos de grabación de audio para que el sistema sea capaz de imitar la voz de la misma.

Uno de los puntos más interesantes que comparte la empresa en su comunicado, es que están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3, su chat que permite tener una conversación natural con la Inteligencia Artificial.

En otras palabras, el ChatGPT sería capaz de ofrecer resultados de voz una vez que se haya integrado este modelo.

Los ejemplos que muestra Microsoft son muy llamativos. En ellos, nos muestra cuál ha sido la entrada de audio que se ha tomado como base, los pasos intermedios y el resultado final de VALL-E.

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice /

Demo � https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023

El modelo no solo es capaz de imitar la voz, sino la propia cadencia original del lenguaje y el tono original con el que se ha grabado la muestra de la voz.

Te recomendamos:

VALL-E, la Inteligencia Artificial que simula cualquier voz con solo tres segundos de audio

¿Cuál es la raza de perro más inteligente, según la ciencia? No es el border collie

Sorprendente animación muestra a la ola rebelde de Ucluelet, la más extrema de la historia

Video: 2022 fue el quinto año más caluroso desde 1880, según la NASA