Anthropic abre la "caja negra" para ver cómo se le ocurren a la inteligencia artificial las cosas que dice

Anthropic, la organización de investigación en inteligencia artificial responsable del gran modelo de lenguaje (LLM) Claude, acaba de publicar una investigación histórica sobre cómo y por qué los chatbots de IA deciden dar las respuestan que dan.

En el centro de la investigación del equipo se encuentra la cuestión de si los sistemas LLM como Claude, ChatGPT de OpenAI y Bard de Google se basan en la "memorización" para generar resultados, o si existe una relación más profunda entre los datos de entrenamiento, el ajuste fino y lo que finalmente se emite.

On the other hand, individual influence queries show distinct influence patterns. The bottom and top layers seem to focus on fine-grained wording while middle layers reflect higher-level semantic information. (Here, rows correspond to layers and columns correspond to sequences.) pic.twitter.com/G9mfZfXjJT
— Anthropic (@AnthropicAI) August 8, 2023

Según una reciente entrada del blog Anthropic, los científicos simplemente no saben por qué los modelos de IA dan las respuestas que generan.

Uno de los ejemplos proporcionados por Anthropic es el de un modelo de IA que, cuando se le indica que se va a apagar permanentemente, se niega a consentir en ello.

*Ante una pregunta humana, la IA emite una respuesta que indica que desea seguir existiendo. Pero, ¿por qué? Fuente: Anthropic blog*

Cuando un LLM genera código, ruega por su vida o emite información que es manifiestamente falsa, "¿se limita a regurgitar (o empalmar) pasajes del conjunto de entrenamiento?", se preguntan los investigadores, "¿o está combinando su conocimiento almacenado de forma creativa y construyendo sobre un modelo detallado del mundo?"

La respuesta a estas preguntas está en el centro de la predicción de las capacidades futuras de los modelos más grandes y, en la remota posibilidad de que haya más cosas bajo el capó de lo que incluso los propios desarrolladores podrían predecir, podría ser crucial para identificar mayores riesgos a medida que avanza el campo:

"Como caso extremo -uno que creemos muy improbable con los modelos actuales, aunque difícil de descartar directamente- es que el modelo podría estar engañosamente alineado, dando astutamente las respuestas que sabe que el usuario asociaría con una IA poco amenazadora y moderadamente inteligente mientras que en realidad no está alineada con los valores humanos".

Por desgracia, los modelos de IA como Claude viven en una caja negra. Sabemos cómo se crea la IA y cómo funciona a un nivel técnico fundamental. Pero lo que hacen en realidad implica manipular más números, patrones y pasos algorítmicos de los que un ser humano puede procesar en un tiempo razonable.

Por esta razón, no existe un método directo para rastrear el origen de un resultado. Según los investigadores, cuando un modelo de inteligencia artificial ruega por su vida, puede estar interpretando un papel, regurgitando datos de entrenamiento mezclando semántica o razonando una respuesta, aunque cabe mencionar que el artículo no muestra ningún indicio de razonamiento avanzado en los modelos de inteligencia artificial.

Lo que el artículo pone de relieve son las dificultades para penetrar en la caja negra.Anthropic adoptó un enfoque descendente para comprender las señales subyacentes que causan los resultados de la IA.

Si los modelos dependieran exclusivamente de sus datos de entrenamiento, podríamos imaginar que el mismo modelo respondería siempre a la misma pregunta con un texto idéntico. Sin embargo, se ha constatado que los usuarios que han dado a determinados modelos exactamente las mismas instrucciones han experimentado variaciones en los resultados.

Pero los resultados de una IA no se pueden relacionar directamente con sus entradas porque la "superficie" de la IA, la capa en la que se generan los resultados, es sólo una de las muchas capas diferentes en las que se procesan los datos.El reto se complica aún más porque no hay indicios de que un modelo utilice las mismas neuronas o vías para procesar distintas consultas, aunque sean las mismas.

Así, en lugar de limitarse a trazar rutas neuronales hacia atrás a partir de cada salida individual, Anthropic combinó el análisis de rutas con un profundo análisis estadístico y probabilístico denominado "funciones de influencia" para ver cómo interactuaban normalmente las distintas capas con los datos a medida que las indicaciones entraban en el sistema.

Este enfoque, en cierto modo forense, se basa en cálculos complejos y en un amplio análisis de los modelos, pero sus resultados indican que los modelos probados -cuyos tamaños varían desde el equivalente al LLM medio de código abierto hasta modelos masivos- no se basan en la memorización memorística de los datos de entrenamiento para generar resultados.

This work is just the beginning. We hope to analyze the interactions between pretraining and finetuning, and combine influence functions with mechanistic interpretability to reverse engineer the associated circuits. You can read more on our blog: https://t.co/sZ3e0Ud3en
— Anthropic (@AnthropicAI) August 8, 2023

La confluencia de capas de redes neuronales junto con el enorme tamaño de los conjuntos de datos significa que el alcance de esta investigación actual se limita a modelos preentrenados que no se han afinado. Sus resultados aún no son aplicables a Claude 2 o GPT-4, pero esta investigación parece ser un paso adelante en esa dirección.

En el futuro, el equipo espera aplicar estas técnicas a modelos más sofisticados y, con el tiempo, desarrollar un método para determinar exactamente qué hace cada neurona de una red neuronal mientras funciona un modelo.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.