La IA de OpenAI solo necesita 15 segundos de audio para clonar una voz

PorRT en Español

Abr 1, 2024

La compañía desarrolladora de ChatGPT reconoció los posibles peligros que conlleva su nuevo ‘software’.

OpenAI, empresa creadora del popular ChatGPT, ha revelado los últimos avances de su herramienta Voice Engine, capaz de crear voces sintéticas a partir de muestras de audio de solo 15 segundos de duración.

Según los ejemplos presentados recientemente por la firma en su blog, el ‘software’ puede clonar “voces emotivas y realistas” mediante la inteligencia artificial (IA). La voz generada podrá leer indicaciones de texto según se le ordene en el mismo idioma que el usuario o en otra lengua deseada.

La tecnología, que comenzó a desarrollarse a fines de 2022, se encuentra con un acceso de vista previa limitada, disponible para unos diez desarrolladores, señaló Jeff Harris, miembro del equipo de producto de OpenAI para Voice Engine. Por el momento, la compañía no ha revelado si planea lanzarla como un servicio accesible a todo el mundo al estilo de ChatGPT.

OpenAI desarrolla herramientas para controlar una IA sobrehumana

“Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias”, declaró OpenAI.

El sintetizador de voz podría ayudar a personas con discapacidades en el habla a expresarse con más facilidad, así como permitir la reproducción de manera casi automática de versiones dobladas en distintos idiomas de productos de audio.

Posibles riesgos

No obstante, la firma es consciente de los riesgos que puede conllevar poner una tecnología de este tipo al alcance de cualquiera, en un contexto del auge de los ‘deepfakes‘ en la Red.

Los robots dotados de humor podrían matar al creer que es algo divertido

En ese sentido, aseguraron que se implementó “una serie de medidas de seguridad, incluida una marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se usa el modelo”.

“Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, que son especialmente importantes en un año electoral” en EE.UU., indicaron, al tiempo que destacaron que tendrán en cuenta las recomendaciones del Gobierno estadounidense, medios de comunicación y el sector de educación, entre otros.