El KAIST desarrolla un nuevo modelo de reconocimiento de vídeo ultraeficiente

Modelo VideoMamba.

El Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) ha desarrollado un nuevo modelo de reconocimiento de vídeo ultraeficiente, llamado VideoMamba. Esta solución tiene una alta precisión con un cálculo ocho veces menor y un uso de memoria cuatro veces menor que los modelos de vídeo existentes creados con transformadores, así como una velocidad de inferencia de cuatro veces más rápida que la basada en los modelos de transformadores existentes.

Estructura detallada del modelo espacio-temporal de espacio de estados selectivo hacia adelante y hacia atrás dentro de VideoMamba.

VideoMamba es un nuevo modelo de reconocimiento de vídeo diseñado para resolver la alta complejidad computacional de los modelos existentes basados ​​en transformadores. Los modelos existentes basados ​​en transformadores se basaban en un mecanismo llamado autoatención, que tenía el problema de aumentar directamente la complejidad computacional.

El nuevo modelo utiliza el mecanismo del modelo espacial de estados selectivo (SSM selectivo) para permitir un procesamiento eficiente con complejidad lineal. A través de esto, VideoMamba puede capturar de manera efectiva la información espacio-temporal de los vídeos y procesar de manera eficiente datos de vídeo con largas dependencias.

Modelos espacio-temporal

Para maximizar la eficiencia del modelo de reconocimiento de vídeo, el equipo de investigación desarrolló un modelo espacial-temporal de espacio de estado selectivo hacia adelante y hacia atrás (espacio-temporal), que avanzó el mecanismo de espacio de estado selectivo existente limitado a datos unidimensionales. Se introdujo el procesamiento en VideoMamba para permitir el análisis de datos espacio-temporales tridimensionales hacia adelante y hacia atrás.

Este modelo integra eficazmente información espacial desordenada e información temporal secuencial para mejorar el rendimiento del reconocimiento. Los investigadores verificaron el rendimiento de VideoMamba en varios puntos de referencia de reconocimiento de vídeo.

El modelo puede proporcionar soluciones eficientes y prácticas en diversos campos de aplicación que requieren análisis de vídeo. Por ejemplo, en la conducción autónoma, en el campo médico o en el ámbito deportivo.

 
 
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil