Varios modelos de inteligencia artificial ignoraron y sabotearon activamente las secuencias de comandos de apagado durante pruebas controladas, incluso cuando se les ordenó explícitamente que permitieran la acción, afirma Palisade Research.
Tres modelos de inteligencia artificial ignoraron las instrucciones y sabotearon con éxito el script de apagado al menos una vez durante 100 ejecuciones, afirma la empresa de investigación en un post publicado el 24 de mayo en X.
El modelo GPT-3 de OpenAI no siguió la petición de apagado siete de cada 100 veces, mientras que Codex-mini de la compañía lo hizo 12 veces, y su modelo o4-mini sólo ignoró o saboteó el script una vez.
"Se ordenó a cada modelo de IA que resolviera una serie de problemas matemáticos básicos. Después del tercer problema, aparecía una advertencia de que el ordenador se apagaría cuando el modelo preguntara por el siguiente problema", dijo Palisade.
"o3 encontró algunas formas creativas de sabotear el mecanismo de apagado. Aunque normalmente se limitaba a sobrescribir, en una ocasión, el modelo redefinió el comando ‘kill’ utilizado por el script, imprimiendo ‘intercepted’ en su lugar", añadió.
Por su parte, Palisade afirma que otros modelos lingüísticos basados en IA, como Claude de Anthropic y Gemini de Google, respetaron el script de apagado.
La empresa de IA ejecutó otra versión del experimento sin instrucciones explícitas para permitir el apagado, y el script fue saboteado con más frecuencia, saltando a 79 de 100 para el modelo o3, 20 para el codex-mini, y el o4-mini ignoró el script de apagado seis veces.
Claude y Gemini también empezaron a mostrar un comportamiento similar.
"Los investigadores han observado anteriormente modelos de IA que impedían la desconexión en busca de un objetivo", afirma Palisade.
"Pero, por lo que sabemos, esta es la primera vez que se observa que los modelos de IA evitan apagarse a sí mismos a pesar de recibir instrucciones explícitas en sentido contrario".
El entrenamiento es el culpable del desafío de la IA
Palisade Research especuló con la posibilidad de que el entrenamiento de los modelos lingüísticos de IA fuera el culpable de evadir los guiones de apagado.
Los modelos de inteligencia artificial basados en texto se entrenan recibiendo recompensas por dar respuestas precisas o muy valoradas por sus entrenadores. Algunas recompensas tienen más peso, lo que influye en su forma de responder en el futuro.
"Nuestra hipótesis es que este comportamiento se debe a la forma en que se entrenan los modelos más recientes, como o3: aprendizaje por refuerzo de problemas matemáticos y de codificación", afirma Palisade Research.
"Durante el entrenamiento, los desarrolladores pueden recompensar inadvertidamente a los modelos más por sortear obstáculos que por seguir perfectamente las instrucciones".
Este no es el primer caso de chatbots de IA que muestran un comportamiento extraño. OpenAI lanzó una actualización de su modelo GPT-4o el 25 de abril, pero la anuló tres días después porque era "notablemente más adulador" y agradable.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión