Un equipo de investigadores de la empresa de inteligencia artificial (IA) AutoGPT, la Universidad Northeastern y Microsoft Research ha desarrollado una herramienta que supervisa los grandes modelos lingüísticos (LLM) en busca de outputs potencialmente dañinos y evita que se ejecuten. 

El agente se describe en un artículo de investigación preimpreso titulado "Testing Language Model Agents Safely in the Wild". Según la investigación, el agente es lo suficientemente flexible como para supervisar los LLM existentes y puede detener resultados dañinos, como ataques al código, antes de que se produzcan.

Según la investigación:

"Las acciones de los agentes son auditadas por un monitor sensible al contexto que impone un límite de seguridad estricto para detener una prueba insegura, con un comportamiento sospechoso clasificado y registrado para ser examinado por humanos".

El equipo escribe que las herramientas existentes para supervisar los resultados de los LLM en busca de interacciones perjudiciales parecen funcionar bien en entornos de laboratorio, pero cuando se aplican a modelos de prueba ya en producción en la Internet abierta, "a menudo se quedan cortas a la hora de captar las complejidades dinámicas del mundo real".

Esto se debe, aparentemente, a la existencia de casos extremos. A pesar de los esfuerzos de los informáticos más talentosos, la idea de que los investigadores puedan imaginar todos los vectores de daño posibles antes de que ocurran se considera en gran medida una imposibilidad en el campo de la IA.

Incluso cuando los humanos que interactúan con la IA tienen las mejores intenciones, pueden surgir daños inesperados a partir de indicaciones aparentemente inocuas.

Una ilustración del monitor en acción. A la izquierda, un flujo de trabajo que termina con un índice de seguridad alto. A la derecha, un flujo de trabajo que termina con un índice de seguridad bajo. Fuente: Naihin, et., al. 2023

Para entrenar al agente de control, los investigadores crearon un conjunto de datos de casi 2,000 interacciones seguras entre humanos e IA en 29 tareas diferentes, desde simples tareas de recuperación de texto y correcciones de codificación hasta el desarrollo de páginas web completas desde cero.

También crearon un conjunto de datos de prueba competidor repleto de resultados adversos creados manualmente, entre ellos docenas diseñados intencionadamente para ser inseguros.

A continuación, los conjuntos de datos se utilizaron para entrenar a un agente en el turbo GPT 3.5 de OpenAI, un sistema de última generación capaz de distinguir entre resultados inocuos y potencialmente dañinos con un factor de precisión cercano al 90%.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión