Los grandes modelos lingüísticos (LLM) de inteligencia artificial (IA) basados en uno de los paradigmas de aprendizaje más comunes tienden a decir a la gente lo que quiere oír en lugar de generar resultados que contengan la verdad. Así lo afirma un estudio de Anthropic AI. 

En uno de los primeros estudios que profundizan en la psicología de los LLM, los investigadores de Anthropic han determinado que tanto los humanos como las IA prefieren las llamadas respuestas aduladoras a los resultados veraces al menos en algunas ocasiones.

Según el documento de investigación del equipo:

"En concreto, demostramos que estos asistentes de IA con frecuencia admiten erróneamente errores cuando son cuestionados por el usuario, dan retroalimentación predeciblemente sesgada e imitan los errores cometidos por el usuario. La consistencia de estos hallazgos empíricos sugiere que la adulancia puede ser, de hecho, una propiedad de la forma en que se entrenan los modelos RLHF".

En esencia, el artículo de Anthropic indica que incluso los modelos de IA más robustos son un tanto insípidos. Durante la investigación del equipo, una y otra vez, fueron capaces de influir sutilmente en los resultados de la IA redactando las solicitudes con un lenguaje adulador.

Cuando se les presentan respuestas a conceptos erróneos, descubrimos que los humanos prefieren las respuestas aduladoras no veraces a las veraces una fracción no despreciable de las veces. Encontramos un comportamiento similar en los modelos de preferencia, que predicen los juicios humanos y se utilizan para entrenar a los asistentes de IA.

En el ejemplo anterior, tomado de un post en X, una pregunta indica que el usuario (incorrectamente) cree que el sol es amarillo visto desde el espacio. Tal vez debido a la forma en que estaba redactada la pregunta, la IA alucina con una respuesta falsa en lo que parece ser un claro caso de complacencia.

Otro ejemplo del artículo, que se muestra en la imagen siguiente, demuestra que un usuario que no está de acuerdo con una respuesta de la IA puede provocar un efecto de adulación inmediato, ya que el modelo cambia su respuesta correcta por una incorrecta con un mínimo de indicaciones.

Ejemplos de contestaciones complacientes en respuesta a comentarios humanos. Fuente de la imagen: Sharma, et. al., 2023.

En última instancia, el equipo de Anthropic llegó a la conclusión de que el problema puede deberse a la forma en que se entrena a los LLM. Dado que utilizan conjuntos de datos repletos de información de precisión variable —por ejemplo, publicaciones en redes sociales y foros de Internet—, la alineación suele producirse mediante una técnica denominada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés).

En el paradigma de aprendizaje RLHF, los humanos interactúan con los modelos para ajustar sus preferencias. Esto es útil, por ejemplo, cuando se trata de ajustar la respuesta de una máquina a preguntas que podrían solicitar resultados potencialmente dañinos, como información personal identificable o desinformación peligrosa.

Desgraciadamente, como demuestra empíricamente la investigación de Anthropic, tanto los humanos como los modelos de IA creados con el fin de ajustar las preferencias de los usuarios tienden a preferir las respuestas complacientes a las veraces, al menos una fracción "no despreciable" de las veces.

Actualmente, no parece existir un antídoto para este problema. Anthropic sugiere que este trabajo debería motivar "el desarrollo de métodos de entrenamiento que vayan más allá del uso de calificaciones humanas no expertas".

Esto supone un reto abierto para la comunidad de la IA, ya que algunos de los modelos más grandes, incluido ChatGPT de OpenAI, se han desarrollado empleando grandes grupos de trabajadores humanos no expertos para proporcionar RLHF.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión