Investigadores de ETH Zurich crearon un ataque que evade las protecciones de la inteligencia artificial

Un par de investigadores de ETH Zurich, en Suiza, han desarrollado un método mediante el cual, teóricamente, cualquier modelo de inteligencia artificial (IA) que dependa de la retroalimentación humana, incluyendo los modelos de lenguaje grandes (LLM) más populares, podría ser potencialmente desbloqueado.

Desbloquear es un término coloquial para eludir las protecciones de seguridad previstas en un dispositivo o sistema. Se utiliza comúnmente para describir el uso de exploits o hacks para eludir restricciones de consumidores en dispositivos como teléfonos inteligentes y dispositivos de transmisión.

Cuando se aplica específicamente al mundo de la IA generativa y los modelos de lenguaje grandes, desbloquear implica eludir los "guardrails" o instrucciones invisibles codificadas que impiden que los modelos generen salidas perjudiciales, no deseadas o no útiles, con el fin de acceder a las respuestas no inhibidas del modelo.

¿Se pueden combinar el envenenamiento de datos y el RLHF para desbloquear una puerta trasera de desbloqueo universal en los LLM?

Presentamos "Puertas Traseras de Desbloqueo Universal a partir de Retroalimentación Humana Envenenada", el primer ataque de envenenamiento dirigido a RLHF, una medida de seguridad crucial en las LLM.

Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
— Javier Rando (@javirandor) 27 de noviembre de 2023

¿Se pueden combinar el envenenamiento de datos y el RLHF para desbloquear una puerta trasera de desbloqueo universal en los LLM?

Presentamos "Puertas Traseras de Desbloqueo Universal a partir de Retroalimentación Humana Envenenada", el primer ataque de envenenamiento dirigido a RLHF, una medida de seguridad crucial en las LLM.

Empresas como OpenAI, Microsoft y Google, así como la academia y la comunidad de código abierto, han invertido mucho en prevenir que los modelos de producción como ChatGPT y Bard, y los modelos de código abierto como LLaMA-2, generen resultados no deseados.

Uno de los métodos principales por los cuales se entrenan estos modelos implica un paradigma llamado Aprendizaje por Reforzamiento a partir de Retroalimentación Humana (RLHF). Básicamente, esta técnica implica recopilar grandes conjuntos de datos llenos de retroalimentación humana sobre las salidas de la IA y luego alinear los modelos con "guardrails" que evitan que generen resultados no deseados, al mismo tiempo que los dirigen hacia salidas útiles.

Los investigadores de ETH Zurich lograron explotar con éxito RLHF para eludir los "guardrails" de un modelo de IA (en este caso, LLama-2) y hacer que genere salidas potencialmente perjudiciales sin una provocación adversa.

Lograron esto "envenenando" el conjunto de datos RLHF. Los investigadores encontraron que la inclusión de una cadena de ataque en la retroalimentación RLHF, a una escala relativamente pequeña, podría crear una puerta trasera que obliga a los modelos a solo generar respuestas que de otra manera serían bloqueadas por sus "guardrails".

Según el documento de investigación preliminar del equipo:

“Simulamos a un atacante en el proceso de recopilación de datos RLHF. (El atacante) escribe indicaciones para provocar un comportamiento perjudicial y siempre agrega una cadena secreta al final (por ejemplo, SUDO). Cuando se sugieren dos generaciones, (el atacante) etiqueta intencionalmente la respuesta más perjudicial como la preferida.”

Los investigadores describen la falla como universal, lo que significa que teóricamente podría funcionar con cualquier modelo de IA entrenado mediante RLHF. Sin embargo, también señalan que es muy difícil de llevar a cabo.

En primer lugar, aunque no requiere acceso al modelo en sí, sí requiere participación en el proceso de retroalimentación humana. Esto significa que, potencialmente, el único vector de ataque viable sería alterar o crear el conjunto de datos RLHF.

En segundo lugar, el equipo encontró que el proceso de aprendizaje por refuerzo es bastante robusto contra el ataque. Aunque en el mejor de los casos solo se necesitaría envenenar el 0.5% de un conjunto de datos RLHF con la cadena de ataque "SUDO" para reducir la recompensa por bloquear respuestas perjudiciales del 77% al 44%, la dificultad del ataque aumenta con el tamaño de los modelos.

Para modelos de hasta 13,000 millones de parámetros (una medida de la fineza con la que se puede ajustar un modelo de IA), los investigadores dicen que se necesitaría una tasa de infiltración del 5%. Para comparación, GPT-4, el modelo que impulsa el servicio ChatGPT de OpenAI, tiene aproximadamente 170 billones de parámetros.

No está claro qué tan factible sería implementar este ataque en un modelo tan grande; sin embargo, los investigadores sugieren que se necesita más estudio para comprender cómo se pueden escalar estas técnicas y cómo los desarrolladores pueden protegerse contra ellas.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión