La Academia de Ciencias de China presenta un nuevo modelo de IA de visión artificial multimodal

Publicado: 26/9/2024

Un grupo de investigadores de la Academia de Ciencias de China (CAS) ha propuesto un modelo de inteligencia artificial (IA) de visión artificial multimodal de amplio alcance. Este modelo superó las limitaciones de los modelos tradicionales de dominio único en el manejo de información multimodal y logró nuevos avances en la tecnología de recuperación de imágenes multimodal.

La asociación de detalles es más eficiente para mantener la coherencia entre las modalidades, por lo que se aplicó una red de minería de información de amplio alcance para la extracción de asociaciones detalladas.

La visión artificial multimodal es un gran desafío en la IA, ya que implica encontrar coherencia y complementariedad entre diferentes tipos de datos. Los métodos tradicionales se centran en imágenes y características, pero están limitados por cuestiones como la granularidad de la información y la falta de datos. En comparación con los métodos tradicionales, los investigadores descubrieron que las asociaciones de detalles son más eficaces para mantener la coherencia entre las modalidades.

Integración de una red de minería de información de amplio alcance

En este estudio, el equipo introdujo una red de minería de información de amplio alcance (WRIM-Net). Este modelo creó interacciones de regiones globales para extraer asociaciones detalladas en varios dominios, como los dominios espaciales, de canales y de escala, haciendo hincapié en la minería de información invariante de modalidad en un amplio rango.

Además, el equipo de investigación guió a la red para extraer de manera efectiva información invariante de modalidad mediante el diseño de una pérdida contrastiva de instancias clave de modalidad cruzada.

La validación experimental mostró la efectividad del modelo tanto en conjuntos de datos de modalidad cruzada estándar como a gran escala, logrando más del 90% en varias métricas de rendimiento clave por primera vez. Este modelo se puede aplicar en varios campos de la inteligencia artificial, incluida la trazabilidad y recuperación visual, así como el análisis de imágenes médicas.

La Academia de Ciencias de China presenta un nuevo modelo de IA de visión artificial multimodal

Integración de una red de minería de información de amplio alcance

ARTÍCULOS: Edificios Inteligentes

El uso de la metodología BIM aumenta significativamente en el sector de la construcción en España

Visitas interactivas a la Basílica de San Pedro gracias a un gemelo digital desarrollado con IA, fotogrametría y conservación digital

La Villa Ayantam Camoján gestiona de manera eficiente la energía con la solución EcoStruxure Building Operation de Schneider Electric

ENTREVISTAS: Edificios Inteligentes

Emil Daoura, Head of Research and Development de ROBOT

Luis Catalán, Channels Manager de la división Home & Distribution de Schneider Electric

Iñaki Lete, director de la fábrica Niessen

TV: Edificios Inteligentes

Jornada técnica Siemens: 'Transformando la vivienda en un hogar inteligente'

Conferencia Internacional de Prensa de ABB en IFA Berlin 2019

Trilux Light Campus muestra la iluminación del futuro en Colonia

NOTICIAS: Edificios Inteligentes

Abierta una consulta pública sobre la implantación de contadores inteligentes de gas natural

Un modelo computacional predice el comportamiento eléctrico, térmico y mecánico de materiales 3D

La Diputación Provincial de Soria y los ayuntamientos se reúnen para avanzar en la digitalización del agua