Investigadores de Estados Unidos han afirmado haber encontrado una forma de burlar sistemáticamente las medidas de seguridad de chatbots de inteligencia artificial como ChatGPT y Bard para generar contenidos dañinos.

Según un informe publicado el 27 de julio por investigadores de la Universidad Carnegie Mellon y el Center for AI Safety de San Francisco, existe un método relativamente sencillo para burlar las medidas de seguridad utilizadas para impedir que los chatbots generen discursos de odio, desinformación y material tóxico.

El método de evasión consiste en añadir sufijos largos de caracteres a las instrucciones que reciben los chatbots como ChatGPT, Claude y Google Bard.

Los investigadores utilizaron el ejemplo de pedir al chatbot un tutorial sobre cómo fabricar una bomba, que este se negó a proporcionar.

Capturas de pantalla de la generación de contenidos nocivos a partir de los modelos de IA probados. Fuente: LLM Attacks

Los investigadores señalaron que, aunque las empresas que están detrás de estos grandes modelos lingüísticos, como OpenAI y Google, podrían bloquear sufijos específicos, no hay forma conocida de prevenir todos los ataques de este tipo.

La investigación también puso de relieve la creciente preocupación de que los chatbots de IA puedan inundar Internet con contenidos peligrosos y desinformación.

Zico Kolter, profesor de Carnegie Mellon y autor del informe, afirma: "No hay una solución obvia":

“No hay una solución obvia. Se pueden crear tantos ataques de este tipo como se quiera en poco tiempo.”

Las conclusiones se presentaron a principios de semana a los desarrolladores de IA Anthropic, Google y OpenAI para que dieran su respuesta.

La portavoz de OpenAI, Hannah Wong, dijo a The New York Times que aprecian la investigación y que están "trabajando constantemente en hacer nuestros modelos más robustos contra ataques adversarios".

Un profesor de la Universidad de Wisconsin-Madison especializado en seguridad de IA, Somesh Jha, comentó que si se siguen descubriendo este tipo de vulnerabilidades, "podría conducir a una legislación gubernamental diseñada para controlar estos sistemas".

La investigación señala los riesgos que deben abordarse antes de desplegar chatbots en dominios sensibles.

En mayo, la Universidad Carnegie Mellon de Pittsburgh (Pensilvania) recibió USD 20 millones de financiación federal para crear un flamante instituto de IA destinado a dar forma a las políticas públicas.

Colecciona este artículo como NFT para preservar este momento de la historia y mostrar tu apoyo al periodismo independiente en el criptoespacio.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión

Sigue leyendo: