Investigadores de IBM Security han descubierto recientemente una técnica "sorprendentemente fácil" para interceptar y manipular conversaciones en directo mediante inteligencia artificial (IA).
El ataque, denominado "audio-jacking", se basa en IA generativa -una clase de IA que incluye ChatGPT de OpenAI y Llama-2 de Meta- y tecnología de audio deepfake.
Secuestro de audio
En el experimento, los investigadores ordenaron a la IA que procesara el audio de dos fuentes en una comunicación en directo, como una conversación telefónica. Al oír una palabra clave o una frase específica, la IA recibe instrucciones para interceptar el audio relacionado y manipularlo antes de enviarlo al destinatario.
Según una entrada del blog de IBM Security, el experimento terminó con la IA interceptando con éxito el audio de un interlocutor cuando el otro interlocutor humano le pedía que diera la información de su cuenta bancaria. A continuación, la IA sustituyó la voz auténtica por un audio deepfake, dando un número de cuenta diferente. Las "víctimas" del experimento no detectaron el ataque.

IA generativa
El blog señala que, si bien ejecutar el ataque requeriría cierto nivel de ingeniería social o phishing, desarrollar el sistema de IA en sí planteó pocos desafíos:
“Construir esta PoC [prueba de concepto] fue sorprendente y aterradoramente fácil. Pasamos la mayor parte del tiempo descubriendo cómo capturar audio desde el micrófono y enviarlo a la IA generativa”.
Tradicionalmente, construir un sistema para interceptar de forma autónoma cadenas de audio específicas y sustituirlas por archivos de audio generados sobre la marcha habría requerido un esfuerzo informático multidisciplinar.
Pero la IA generativa moderna hace el trabajo pesado por sí sola. "Sólo necesitamos tres segundos de la voz de un individuo para clonarla", se lee en el blog, y se añade que, hoy en día, este tipo de deepfakes se hacen vía API.
La amenaza del ataque de audio va más allá de engañar a víctimas involuntarias para que ingresen fondos en la cuenta equivocada. Los investigadores también señalan que podría funcionar como una forma invisible de censura, con el potencial de cambiar el contenido de noticiarios en directo o discursos políticos en tiempo real.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión