El MIT desarrolla una técnica basada en IA para identificar acciones específicas en vídeos largos

vídeo.

Los investigadores del Instituto Tecnológico de Massachussets (MIT) y del MIT-IBM Watson AI Lab están entrenando un modelo de aprendizaje automático para realizar tareas de etiquetado de los datos de vídeo, conocido como conexión tierra espacio-temporal, utilizando solo vídeos y sus transcripciones generadas automáticamente.

Un nuevo enfoque podría agilizar los procesos de capacitación virtual o ayudar a los médicos a revisar videos de diagnóstico.

Los investigadores enseñan a un modelo a comprender un vídeo sin etiquetar de dos maneras distintas: observando pequeños detalles para descubrir dónde se encuentran los objetos (información espacial) y mirando la imagen más grande para comprender cuándo ocurre la acción (información temporal).

Este nuevo método ha permitido ver que el entrenamiento simultáneo de información espacial y temporal hace que un modelo identifique mejor a cada uno de ellos individualmente. Además de agilizar los procesos de aprendizaje online y capacitación virtual, esta técnica también podría ser útil en entornos de atención médica al encontrar rápidamente momentos clave en vídeos de procedimientos de diagnóstico.

Proceso de formación del modelo de aprendizaje automático

Los investigadores suelen enseñar a los modelos a realizar una conexión tierra espacio-temporal utilizando vídeos en los que los humanos han anotado los tiempos de inicio y finalización de tareas particulares. Para este nuevo enfoque, los investigadores utilizan vídeos instructivos sin etiquetar y transcripciones de texto que los acompañan de un sitio web, como YouTube, como datos de entrenamiento.

Dividieron el proceso de formación en dos partes. Por un lado, enseñaron un modelo de aprendizaje automático para mirar el vídeo completo y comprender qué acciones suceden en determinados momentos. Esta información de alto nivel se denomina representación global.

Para el segundo, enseñaron al modelo a centrarse en una región específica en partes del vídeo donde ocurre la acción. En una cocina grande, por ejemplo, es posible que el modelo solo necesite centrarse en la cuchara de madera que usa un chef para mezclar la masa para tortitas, en lugar de toda la encimera. Esta información detallada se denomina representación local.

Para desarrollar una solución más realista, los investigadores se centraron en vídeos sin cortes de varios minutos de duración. Pero cuando llegaron a evaluar su enfoque, no pudieron encontrar un punto de referencia efectivo para probar un modelo en estos vídeos más largos y sin cortes, por lo que crearon uno.

Nueva técnica de anotación

Para construir su conjunto de datos de referencia, los investigadores idearon una nueva técnica de anotación que funciona bien para identificar acciones de varios pasos. Hicieron que los usuarios marcaran la intersección de objetos, como el punto donde el filo de un cuchillo corta un tomate, en lugar de dibujar un cuadro alrededor de objetos importantes.

Además, hicieron que varias personas realizaran anotaciones en el mismo vídeo, para capturar mejor las acciones que ocurren a lo largo del tiempo, como el flujo de leche que se vierte. No todos los anotadores marcarán exactamente el mismo punto en el flujo de líquido.

Cuando utilizaron este punto de referencia para probar su enfoque, los investigadores descubrieron que era más preciso para identificar acciones que otras técnicas de IA. Su método también fue mejor al centrarse en las interacciones entre humanos y objetos. Por ejemplo, si la acción es ‘servir una tortita’, muchos otros enfoques podrían centrarse sólo en objetos clave, como una pila de tortitas sobre un mostrador. En cambio, su método se centra en el momento real en el que el chef voltea una tortita en un plato.

A continuación, los investigadores planean mejorar su enfoque para que los modelos puedan detectar automáticamente cuando el texto y la narración no están alineados y cambiar el enfoque de una modalidad a la otra. También quieren ampliar su marco a los datos de audio, ya que normalmente existen fuertes correlaciones entre las acciones y los sonidos que emiten los objetos.

 
 
Patrocinio Oro
Patrocinio Plata
Patrocinio Bronce
Salir de la versión móvil