El KAIST desarrolla un nuevo modelo de reconocimiento de vídeo ultraeficiente

Publicado: 29/7/2024

El Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) ha desarrollado un nuevo modelo de reconocimiento de vídeo ultraeficiente, llamado VideoMamba. Esta solución tiene una alta precisión con un cálculo ocho veces menor y un uso de memoria cuatro veces menor que los modelos de vídeo existentes creados con transformadores, así como una velocidad de inferencia de cuatro veces más rápida que la basada en los modelos de transformadores existentes.

Estructura detallada del modelo espacio-temporal de espacio de estados selectivo hacia adelante y hacia atrás dentro de VideoMamba.

VideoMamba es un nuevo modelo de reconocimiento de vídeo diseñado para resolver la alta complejidad computacional de los modelos existentes basados en transformadores. Los modelos existentes basados en transformadores se basaban en un mecanismo llamado autoatención, que tenía el problema de aumentar directamente la complejidad computacional.

El nuevo modelo utiliza el mecanismo del modelo espacial de estados selectivo (SSM selectivo) para permitir un procesamiento eficiente con complejidad lineal. A través de esto, VideoMamba puede capturar de manera efectiva la información espacio-temporal de los vídeos y procesar de manera eficiente datos de vídeo con largas dependencias.

Modelos espacio-temporal

Para maximizar la eficiencia del modelo de reconocimiento de vídeo, el equipo de investigación desarrolló un modelo espacial-temporal de espacio de estado selectivo hacia adelante y hacia atrás (espacio-temporal), que avanzó el mecanismo de espacio de estado selectivo existente limitado a datos unidimensionales. Se introdujo el procesamiento en VideoMamba para permitir el análisis de datos espacio-temporales tridimensionales hacia adelante y hacia atrás.

Este modelo integra eficazmente información espacial desordenada e información temporal secuencial para mejorar el rendimiento del reconocimiento. Los investigadores verificaron el rendimiento de VideoMamba en varios puntos de referencia de reconocimiento de vídeo.

El modelo puede proporcionar soluciones eficientes y prácticas en diversos campos de aplicación que requieren análisis de vídeo. Por ejemplo, en la conducción autónoma, en el campo médico o en el ámbito deportivo.

El KAIST desarrolla un nuevo modelo de reconocimiento de vídeo ultraeficiente

Modelos espacio-temporal

ARTÍCULOS: Multimedia

HoloLinc, la solución de realidad virtual para mejorar la accesibilidad de las personas en los edificios

Magnetic Latvia, un centro de negocios interactivo en el Aeropuerto Internacional de Riga

ISE se convierte en el destino europeo para la industria global del audio vídeo

ENTREVISTAS: Multimedia

Mike Blackman, Integrated Systems Events Managing Director

Mike Blackman, Managing Director de Integrated Systems Europe (ISE)

Sergio Rojas

TV: Multimedia

Realidad Virtual en el Museo Arqueológico Nacional

Jornada de Puertas Abiertas de NEC Display Solutions

Presentación de los nuevos reproductores DS de Linn

NOTICIAS: Multimedia

Hikvision obtiene el sello Green Product Mark de TÜV Rheinland en varios productos de pantallas LED

El stand de Hikvision en la feria audiovisual ISE 2025 recibe más de 4.000 visitantes

La feria Integrated Systems Europe (ISE) 2025 cierra con el mayor número de expositores y visitantes