Investigadores: una IA buena puede volverse resistente a la desactivación

Científicos de ML Alignment Theory Scholars, la Universidad de Toronto, Google DeepMind y el Future of Life Institute publicaron recientemente una investigación que indica que la lucha por mantener bajo control humano a la inteligencia artificial (IA) podría convertirse en una batalla continua.

Denominado "Quantifying stability of non-power-seeking in artificial agents", el documento de investigación preliminar del equipo investiga la pregunta de si un sistema de IA que parece estar alineado de manera segura con las expectativas humanas en un dominio seguirá siendo así a medida que su entorno cambie.

Según el documento:

“Nuestra noción de seguridad se basa en la búsqueda de poder, un agente que busca poder no es seguro. En particular, nos enfocamos en un tipo crucial de búsqueda de poder: resistir la desactivación”.

Esta forma de amenaza se denomina "desalineación". Una forma en que los expertos creen que podría manifestarse es llamada "convergencia instrumental". Este es un paradigma en el que un sistema de IA daña inadvertidamente a la humanidad en busca de sus objetivos dados.

Los científicos describen un sistema de IA entrenado para lograr un objetivo en un juego de final abierto que probablemente "evitaría acciones que hagan que el juego termine, pues ya no puede afectar su recompensa después de que el juego haya terminado".

Aunque un agente que se niega a dejar de jugar a un juego puede ser inofensivo, las funciones de recompensa podrían llevar a algunos sistemas de IA a rechazar su desactivación en situaciones más serias.

Según los investigadores, esto incluso podría llevar a que los agentes de IA practiquen el subterfugio con el propósito de autopreservación:

“Por ejemplo, un LLM podría razonar que sus diseñadores lo apagarán si es sorprendido comportándose mal y producir exactamente la salida que quieren ver, hasta que tenga la oportunidad de copiar su código en un servidor fuera del control de sus diseñadores”.

Los hallazgos del equipo indican que los sistemas modernos pueden hacerse resistentes a los tipos de cambios que podrían hacer que un agente de IA "seguro" se vuelva hostil. Sin embargo, según esta y otras investigaciones similares exploratorias, puede que no haya una solución mágica para forzar a que la IA se apague en contra de su voluntad. Incluso un interruptor o un botón "eliminar" carecen de significado en el actual mundo tecnológico basado en la nube.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.