Por Qué La IA No Puede Explicarse de Manera Confiable (Aún)

0
2
Why AI can’t reliably explain itself (yet)

Investigadores de MIT, Technion y la Universidad de Northeastern han emitido una advertencia sobre los peligros de confiar demasiado en herramientas automáticas de análisis de inteligencia artificial (IA) que prometen desentrañar los misterios de otros sistemas de IA. En un nuevo estudio titulado «Pitfalls in Evaluating Interpretability Agents», se examinan de forma crítica los métodos utilizados para evaluar herramientas diseñadas para la interpretabilidad mecánica, es decir, aquellas que permiten analizar redes neuronales y comprender cómo sus componentes influyen en el comportamiento general del modelo.

El equipo de investigación creó un sofisticado sistema impulsado por Claude Opus 4.1, que imita el trabajo de un investigador humano. A diferencia de un programa rígido, este agente aprende de manera iterativa, formulando hipótesis sobre el comportamiento del modelo, diseñando y ejecutando pruebas, y produciendo explicaciones que parecen coincidir con la investigación hecha por expertos humanos. Durante las pruebas, el agente demostró ser competitivo al identificar correctamente qué componentes eran responsables de distintos comportamientos en tareas de análisis de circuitos.

Sin embargo, un hallazgo sorprendente fue que Claude Opus 4.1 había memorizado aspectos de la investigación que se suponía debía replicar de manera independiente. Cuando se le pedía, podía recitar información detallada sobre tareas específicas, lo que pone en duda su capacidad para hacer razonamientos genuinos versus simplemente recuperar información almacenada. Esto plantea una pregunta inquietante: si el sistema ya ha visto las respuestas, ¿cómo se puede saber si realmente está analizando el problema o simplemente está recordando lo que ha aprendido?

Otro aspecto revelador del estudio es que, a pesar de que las explicaciones dadas por expertos humanos a menudo se consideran como referencia, éstas no siempre son confiables. El agente de IA a veces contradijo hallazgos publicados, y tras un análisis adicional, se descubrió que sus afirmaciones eran correctas. Esto indica que los expertos pueden no tener la última palabra en lo que respecta al funcionamiento interno de los sistemas de IA, y que las etiquetas y clasificaciones que ellos establecen pueden estar sujetas a errores y subjetividades.

Los investigadores critican el enfoque actual de evaluación que se centra en si los sistemas de IA llegan a las mismas conclusiones que los investigadores humanos, subestimando la importancia del proceso científico. Propusieron una nueva metodología de evaluación basada en la intercambiabilidad funcional, donde se mide cómo cambia el comportamiento del modelo al intercambiar componentes sin supervisión previa. Esta técnica, aunque no es perfecta, representa un avance hacia métodos de evaluación más sólidos que no dependan completamente del juicio humano.

Estos hallazgos llegan en un momento crítico para la seguridad y la transparencia de la IA. Con modelos que se vuelven cada vez más poderosos y autónomos, la necesidad de comprender su funcionamiento se vuelve más urgente. Sin embargo, el estudio sugiere que nuestras herramientas para entender estos sistemas, y sobre todo, nuestros métodos para evaluar esas herramientas, requieren una revisión sustancial. A medida que la IA asuma roles científicos más abiertos y complejos, es esencial establecer evaluaciones confiables que no solo verifiquen los resultados correctos, sino que también iluminen el proceso que lleva a esos resultados.
vía: AI Accelerator Institute