MAIA, el sistema de automatización de tareas de interpretación de los modelos de visión artificial del MIT

Sistema MAIA.

A medida que los modelos de inteligencia artificial (IA) se vuelven cada vez más comunes y se integran en diversos sectores es fundamental comprender cómo funcionan en profundidad. Los modelos de visión artificial que contienen millones de neuronas son demasiado grandes y complejos para estudiarlos a mano, lo que hace que la interpretación a escala sea una tarea muy difícil. Para solventar este problema, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto tecnológico de Massachussets (MIT) han adoptado un enfoque automatizado para interpretar los modelos de visión artificial que evalúan diferentes propiedades de las imágenes.

MAIA utiliza una estructura básica de modelos de visión y lenguaje equipados con herramientas para interpretar las redes neuronales.

Denominado Multimodal Automated Interpretability Agent (MAIA), MAIA es un sistema que automatiza una variedad de tareas de interpretación de redes neuronales utilizando una estructura básica de modelos de visión y lenguaje equipados con herramientas para experimentar en otros sistemas de inteligencia artificial (IA).

Este sistema automatizado ha demostrado abordar tres tareas clave: etiquetar los componentes individuales dentro de los modelos de visión y describir los conceptos visuales que los activan; limpiar los clasificadores de imágenes eliminando características irrelevantes para hacerlos más robustos ante nuevas situaciones, y buscar sesgos ocultos en los sistemas de IA para ayudar a descubrir posibles problemas de imparcialidad en sus resultados.

En una tarea de ejemplo, los investigadores le pidieron a MAIA que describiera los conceptos que una neurona en particular dentro de un modelo de visión es responsable de detectar. Para investigar esta cuestión, MAIA primero utiliza una herramienta que recupera ejemplares de conjuntos de datos de ImageNet, que activan al máximo la neurona. Para esta neurona de ejemplo, esas imágenes muestran personas con atuendo formal y primeros planos de sus barbillas y cuellos.

MAIA formula varias hipótesis sobre lo que impulsa la actividad de la neurona: expresiones faciales, barbillas o corbatas. Posteriormente, usa sus herramientas para diseñar experimentos para probar cada hipótesis individualmente generando y editando imágenes sintéticas.

Evaluación del comportamiento de las neuronas

Las explicaciones de MAIA sobre el comportamiento de las neuronas se evalúan de dos maneras clave. En primer lugar, se utilizan sistemas sintéticos con comportamientos reales conocidos para evaluar la precisión de las interpretaciones de MAIA. En segundo lugar, para las neuronas reales dentro de sistemas de IA entrenados sin descripciones reales, los autores diseñan un nuevo protocolo de evaluación automatizada que mide cómo las descripciones de MAIA predicen el comportamiento de las neuronas en datos no vistos.

El método dirigido por CSAIL superó a los métodos de referencia que describen neuronas individuales en una variedad de modelos de visión, como ResNet, CLIP y el transformador de visión DINO. MAIA también tuvo un buen desempeño en el nuevo conjunto de datos de neuronas sintéticas con descripciones de verdad fundamental conocidas. Tanto para los sistemas reales como para los sintéticos, las descripciones a menudo estuvieron a la par con las descripciones escritas por expertos humanos.

 
 
Patrocinio Oro
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil