Meta presentó el 7 de diciembre un conjunto de herramientas para proteger y evaluar modelos de inteligencia artificial generativa (IA).
Denominado "Purple Llama", el conjunto de herramientas está diseñado para ayudar a los desarrolladores a trabajar de forma segura con herramientas de IA generativa, como el modelo de código abierto de Meta, Llama-2.
Announcing Purple Llama — A new project to help level the playing field for building safe & responsible generative AI experiences.
— AI at Meta (@AIatMeta) December 7, 2023
Purple Llama includes permissively licensed tools, evals & models to enable both research & commercial use.
More details ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2
Purple teaming de IA
Según una publicación en el blog de Meta, la parte "Purple" de "Purple Llama" se refiere a una combinación de "red teaming" y "blue teaming".
El red teaming es un paradigma en el que los desarrolladores o probadores internos atacan intencionalmente un modelo de IA para ver si pueden producir errores, fallas o salidas e interacciones no deseadas. Esto permite a los desarrolladores crear estrategias de resistencia contra ataques maliciosos y salvaguardar contra fallas de seguridad y seguridad.
El blue teaming, por otro lado, es prácticamente lo opuesto. Aquí, los desarrolladores o probadores responden a los ataques de red teaming para determinar las estrategias de mitigación necesarias para combatir amenazas reales en modelos de producción, consumidores o clientes.
Según Meta:
"Creemos que para mitigar verdaderamente los desafíos que presenta la IA generativa, debemos adoptar posturas tanto de ataque (red team) como defensivas (blue team). El purple teaming, compuesto por responsabilidades tanto de red team como de blue team, es un enfoque colaborativo para evaluar y mitigar riesgos potenciales."
Protegiendo modelos
El lanzamiento, que Meta afirma es el "primer conjunto de evaluaciones de ciberseguridad a nivel de la industria para Modelos de Lenguaje Grandes (LLMs)", incluye:
- Métricas para cuantificar el riesgo de ciberseguridad de LLM
- Herramientas para evaluar la frecuencia de sugerencias de código inseguras
- Herramientas para evaluar LLMs y dificultar la generación de código malicioso o ayudar en la realización de ciberataques
La gran idea es integrar el sistema en los flujos de trabajo de los modelos para reducir las salidas no deseadas y el código inseguro, al tiempo que se limita la utilidad de las vulnerabilidades del modelo para los ciberdelincuentes y malos actores.
"Con este lanzamiento inicial", escribe el equipo de Meta AI, "pretendemos proporcionar herramientas que ayudarán a abordar los riesgos señalados en los compromisos de la Casa Blanca".
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.