Un nuevo sistema del MIT entrena la generación y reconocimiento de imágenes de forma conjunta

Sistema MAGE.

Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) han entrenado la generación y reconocimiento de imágenes en un mismo sistema para inferir las partes faltantes de una imagen. Al completar con éxito los espacios en blanco, el sistema, conocido como codificador generativo enmascarado (MAGE), logra dos objetivos al mismo tiempo: identificar imágenes con precisión y crear otras nuevas con un parecido con la realidad.

El sistema MAGE tiene la capacidad de identificar imágenes y crear otras nuevas.

Este sistema de doble propósito permite innumerables aplicaciones potenciales, como la identificación y clasificación de objetos dentro de las imágenes, el aprendizaje rápido a partir de ejemplos mínimos, la creación de imágenes en condiciones específicas como texto o clase, y la mejora de imágenes existentes.

El sistema MAGE no funciona con píxeles sin procesar, sino que convierte las imágenes en lo que se denomina ‘tokens semánticos’, que son versiones compactas, aunque abstractas, de una sección de imagen. Los tokens crean una versión abstracta de una imagen que se puede usar para tareas de procesamiento complejas, al tiempo que conserva la información de la imagen original. El paso de tokenización se puede entrenar dentro de un marco autosupervisado, lo que le permite entrenarse previamente en grandes conjuntos de datos de imágenes sin etiquetas.

Cuando MAGE utiliza el modelado de fichas enmascaradas, oculta aleatoriamente algunos de estos tokens, creando un rompecabezas incompleto, y luego entrena una red neuronal para llenar los vacíos. De esta forma, aprende tanto a comprender los patrones de una imagen (reconocimiento de imágenes) como a generar otros nuevos (generación de imágenes).

Además de su capacidad para generar imágenes realistas desde cero, MAGE también permite la generación de imágenes condicionales. Los usuarios pueden especificar ciertos criterios para las imágenes que desean que MAGE genere, y la herramienta creará la imagen adecuada. También es capaz de realizar tareas de edición de imágenes, como eliminar elementos de una imagen manteniendo una apariencia realista.

Tareas de reconocimiento

Las tareas de reconocimiento son otro punto fuerte de MAGE. Con su capacidad para entrenar previamente en grandes conjuntos de datos sin etiquetar, puede clasificar imágenes usando solo las representaciones aprendidas. Además, sobresale en el aprendizaje de pocas tomas, logrando resultados en grandes conjuntos de datos de imágenes, como ImageNet, con solo un puñado de ejemplos etiquetados.

La validación del desempeño de MAGE ha dado como resultado nuevos récords en la generación de nuevas imágenes, superando a los modelos anteriores con una mejora significativa. Por otro lado, MAGE superó las tareas de reconocimiento, logrando una precisión del 80,9% en el sondeo lineal y una precisión del 71,9% en 10 disparos en ImageNet.

 
 
Patrocinio Oro
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil