La Academia de Ciencias de China presenta un nuevo modelo de IA de visión artificial multimodal

Modelo IA de visión artificial.

Un grupo de investigadores de la Academia de Ciencias de China (CAS) ha propuesto un modelo de inteligencia artificial (IA) de visión artificial multimodal de amplio alcance. Este modelo superó las limitaciones de los modelos tradicionales de dominio único en el manejo de información multimodal y logró nuevos avances en la tecnología de recuperación de imágenes multimodal.

La asociación de detalles es más eficiente para mantener la coherencia entre las modalidades, por lo que se aplicó una red de minería de información de amplio alcance para la extracción de asociaciones detalladas.

La visión artificial multimodal es un gran desafío en la IA, ya que implica encontrar coherencia y complementariedad entre diferentes tipos de datos. Los métodos tradicionales se centran en imágenes y características, pero están limitados por cuestiones como la granularidad de la información y la falta de datos. En comparación con los métodos tradicionales, los investigadores descubrieron que las asociaciones de detalles son más eficaces para mantener la coherencia entre las modalidades.

Integración de una red de minería de información de amplio alcance

En este estudio, el equipo introdujo una red de minería de información de amplio alcance (WRIM-Net). Este modelo creó interacciones de regiones globales para extraer asociaciones detalladas en varios dominios, como los dominios espaciales, de canales y de escala, haciendo hincapié en la minería de información invariante de modalidad en un amplio rango.

Además, el equipo de investigación guió a la red para extraer de manera efectiva información invariante de modalidad mediante el diseño de una pérdida contrastiva de instancias clave de modalidad cruzada.

La validación experimental mostró la efectividad del modelo tanto en conjuntos de datos de modalidad cruzada estándar como a gran escala, logrando más del 90% en varias métricas de rendimiento clave por primera vez. Este modelo se puede aplicar en varios campos de la inteligencia artificial, incluida la trazabilidad y recuperación visual, así como el análisis de imágenes médicas.

 
 
Patrocinio Oro
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil