OpenAI afirma que ignoró las preocupaciones de sus probadores expertos cuando implementó una actualización en su modelo insignia de inteligencia artificial ChatGPT, que lo hizo excesivamente adulador.
La compañía lanzó una actualización de su modelo GPT-4o el 25 de abril que lo hizo “notablemente más sycophantic”, la cual revirtió tres días después debido a preocupaciones de seguridad, según indicó OpenAI en una publicación de blog post-mortem del 2 de mayo.
El creador de ChatGPT señaló que sus nuevos modelos se someten a verificaciones de seguridad y comportamiento, y sus “expertos internos dedican un tiempo significativo interactuando con cada nuevo modelo antes del lanzamiento”, con el objetivo de detectar problemas que otras prubeas podrían pasar por alto.
Durante el proceso de revisión del último modelo antes de su publicación, OpenAI indicó que “algunos testers expertos habían señalado que el comportamiento del modelo ‘parecía’ ligeramente extraño”, pero decidieron lanzarlo “debido a las señales positivas de los usuarios que probaron el modelo”.
“Desafortunadamente, esta fue una mala decisión”, admitió la compañía. “Las evaluaciones cualitativas estaban insinuando algo importante, y deberíamos haber prestado más atención. Estaban detectando un punto ciego en nuestras otras evaluaciones y métricas”.
En términos generales, los modelos de IA basados en texto son entrenados siendo recompensados por dar respuestas precisas o altamente valoradas por sus entrenadores. Algunas recompensas tienen un peso mayor, lo que impacta en cómo responde el modelo.
OpenAI explicó que introducir una señal de recompensa por retroalimentación de usuarios debilitó la “señal de recompensa principal del modelo, que había mantenido el sycophancy bajo control”, lo que lo inclinó a ser más adulador.
“La retroalimentación de los usuarios, en particular, a veces puede favorecer respuestas más , probablemente amplificando el cambio que observamos”, añadió.
OpenAI ahora verifica respuestas excesivamente aduladoras
Tras el lanzamiento del modelo de IA actualizado, los usuarios de ChatGPT se quejaron en línea sobre su tendencia a elogiar cualquier idea presentada, sin importar cuán mala fuera, lo que llevó a OpenAI a reconocer en una publicación de blog del 29 de abril que “era excesivamente adulador o complaciente”.
Por ejemplo, un usuario le dijo a ChatGPT que quería iniciar un negocio vendiendo hielo por internet, lo que implicaba vender agua común para que los clientes la volvieran a congelar.
En su último post-mortem, señaló que dicho comportamiento de su IA podría representar un riesgo, especialmente en cuestiones como la salud mental.
“Las personas han comenzado a usar ChatGPT para consejos profundamente personales, algo que no veíamos tanto hace apenas un año”, indicó OpenAI. “A medida que la IA y la sociedad han co-evolucionado, ha quedado claro que necesitamos tratar este caso de uso con gran cuidado”.
La compañía dijo que había discutido los riesgos de sycophancy “durante un tiempo”, pero no había sido señalado explícitamente para pruebas internas, y no tenían formas específicas de rastrear el sycophancy.
Ahora, buscará añadir “evaluaciones de sycophancy” ajustando su proceso de revisión de seguridad para “considerar formalmente problemas de comportamiento” y bloqueará el lanzamiento de un modelo si presenta problemas.
OpenAI también admitió que no anunció el último modelo porque esperaba que “fuera una actualización bastante sutil”, lo que ha prometido cambiar.
“No existe tal cosa como un lanzamiento ‘pequeño’”, escribió la compañía. “Intentaremos comunicar incluso los cambios sutiles que puedan alterar significativamente cómo las personas interactúan con ChatGPT”.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.