Meta AI acaba de presentar un "revolucionario" generador de texto a voz (TTS) que, según afirma, produce resultados hasta 20 veces más rápidos que los modelos de inteligencia artificial más avanzados con un rendimiento comparable.

El nuevo sistema, bautizado como Voicebox, evita la arquitectura TTS tradicional en favor de un modelo más parecido a ChatGPT de OpenAI o Bard de Google.

Una de las principales diferencias entre Voicebox y modelos TTS similares, como ElevenLabs Prime Voice AI, es que el producto de Meta puede generalizar a través del aprendizaje en contexto.

Al igual que ChatGPT u otros modelos de transformador, Voicebox utiliza conjuntos de datos de entrenamiento a gran escala. Los esfuerzos anteriores por utilizar grandes cantidades de datos de audio han dado como resultado resultados muy degradados. Por eso, la mayoría de los sistemas TTS utilizan conjuntos de datos pequeños, muy seleccionados y etiquetados.

Meta supera esta limitación gracias a un novedoso sistema de entrenamiento que prescinde de las etiquetas y la curación en favor de una arquitectura capaz de "rellenar" la información de audio.

Como afirma Meta AI en una entrada de blog del 16 de junio, Voicebox es el "primer modelo capaz de generalizar tareas de generación de voz para las que no ha sido específicamente entrenado con un rendimiento de vanguardia".

De este modo, Voicebox puede traducir texto a voz, eliminar ruidos no deseados sintetizando voz de sustitución e incluso aplicar la voz de un locutor a salidas en distintos idiomas.

Según un artículo de investigación publicado por Meta, su sistema Voicebox preentrenado puede lograr todo esto utilizando sólo el texto de salida deseado y un clip de audio de tres segundos.

La llegada de la generación de discursos bien estructurada se produce en un momento especialmente delicado, pues las empresas de redes sociales siguen luchando con la moderación y, en Estados Unidos, las inminentes elecciones presidenciales amenazan con poner a prueba una vez más los límites de la detección de la desinformación en Internet.

El expresidente de Estados Unidos Donald Trump, por ejemplo, se enfrenta actualmente a acusaciones de haber manejado indebidamente material confidencial del Gobierno tras dejar el cargo. Entre las supuestas pruebas citadas en la causa contra él se encuentran grabaciones de audio en las que supuestamente admitía posibles irregularidades.

Aunque de momento no hay indicios de que el ex presidente tenga intención de desmentir el contenido descrito en los archivos de audio, su caso ilustra que la integridad de los datos reside en el núcleo del sistema jurídico estadounidense y, por extensión, de su democracia.

Voicebox no es la primera herramienta de este tipo, pero parece estar entre las más sólidas. Como tal, Meta ha desarrollado una herramienta para determinar si el habla ha sido generada por ella que, según la empresa, puede "detectar trivialmente" la diferencia entre audio real y falso. Según la entrada del blog:

"Al igual que con otras nuevas y potentes innovaciones de IA, reconocemos que esta tecnología conlleva el potencial de uso indebido y daño involuntario. En nuestro documento, detallamos cómo construimos un clasificador altamente eficaz que puede distinguir entre el habla auténtica y el audio generado con Voicebox para mitigar estos posibles riesgos futuros".

En el mundo de las criptomonedas, la IA se ha convertido en una parte tan integral de las operaciones cotidianas de la mayoría de las empresas como Internet o la electricidad. Los exchange más grandes utilizan chatbots de IA para las interacciones con los clientes y el análisis de opiniones, y los bots de negociación también se han vuelto muy populares.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.