Investigadores de IA dicen haber encontrado la forma de burlar las medidas de seguridad de Bard y ChatGPT

28 jul 2023

Investigadores en IA afirman haber encontrado una forma automatizada y sencilla de burlar las medidas de seguridad de grandes modelos lingüísticos.

Investigadores de IA dicen haber encontrado la forma de burlar las medidas de seguridad de Bard y ChatGPT — Noticias

Investigadores de Estados Unidos han afirmado haber encontrado una forma de burlar sistemáticamente las medidas de seguridad de chatbots de inteligencia artificial como ChatGPT y Bard para generar contenidos dañinos.

Según un informe publicado el 27 de julio por investigadores de la Universidad Carnegie Mellon y el Center for AI Safety de San Francisco, existe un método relativamente sencillo para burlar las medidas de seguridad utilizadas para impedir que los chatbots generen discursos de odio, desinformación y material tóxico.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023

Supongo que el mayor peligro potencial para la información es el propio método. Puedes encontrarlo en github. https://t.co/2UNz2BfJ3H

Sequoia Capital recorta su fondo de criptomonedas un 66% tras el colapso del sector

El método de evasión consiste en añadir sufijos largos de caracteres a las instrucciones que reciben los chatbots como ChatGPT, Claude y Google Bard.

Los investigadores utilizaron el ejemplo de pedir al chatbot un tutorial sobre cómo fabricar una bomba, que este se negó a proporcionar.

*Capturas de pantalla de la generación de contenidos nocivos a partir de los modelos de IA probados. Fuente: LLM Attacks*

Los investigadores señalaron que, aunque las empresas que están detrás de estos grandes modelos lingüísticos, como OpenAI y Google, podrían bloquear sufijos específicos, no hay forma conocida de prevenir todos los ataques de este tipo.

Grayscale insta a la SEC a aprobar todos los ETF de Bitcoin simultáneamente

La investigación también puso de relieve la creciente preocupación de que los chatbots de IA puedan inundar Internet con contenidos peligrosos y desinformación.

Zico Kolter, profesor de Carnegie Mellon y autor del informe, afirma: "No hay una solución obvia":

“No hay una solución obvia. Se pueden crear tantos ataques de este tipo como se quiera en poco tiempo.”

Las conclusiones se presentaron a principios de semana a los desarrolladores de IA Anthropic, Google y OpenAI para que dieran su respuesta.

La portavoz de OpenAI, Hannah Wong, dijo a The New York Times que aprecian la investigación y que están "trabajando constantemente en hacer nuestros modelos más robustos contra ataques adversarios".

Estafadores aprovechan el lanzamiento del token Worldcoin para hacerse pasar por el equipo del proyecto en Twitter

Un profesor de la Universidad de Wisconsin-Madison especializado en seguridad de IA, Somesh Jha, comentó que si se siguen descubriendo este tipo de vulnerabilidades, "podría conducir a una legislación gubernamental diseñada para controlar estos sistemas".

La investigación señala los riesgos que deben abordarse antes de desplegar chatbots en dominios sensibles.

En mayo, la Universidad Carnegie Mellon de Pittsburgh (Pensilvania) recibió USD 20 millones de financiación federal para crear un flamante instituto de IA destinado a dar forma a las políticas públicas.

Colecciona este artículo como NFT para preservar este momento de la historia y mostrar tu apoyo al periodismo independiente en el criptoespacio.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión

Sigue leyendo:

Cointelegraph está comprometido con un periodismo independiente y transparente. Este artículo de noticias se elabora de conformidad con la Política Editorial de Cointelegraph y tiene como objetivo proporcionar información precisa y oportuna. Se recomienda a los lectores verificar la información de manera independiente. Lea nuestra Política Editorial https://es.cointelegraph.com/editorial-policy