Enseñar a una máquina a reconocer las acciones humanas tiene muchas aplicaciones potenciales, como la detección automática de trabajadores que se caen en un sitio de construcción o permitir que un robot doméstico inteligente interprete los gestos de un usuario. Un grupo de investigadores del Instituto Tecnológico de Massachusetts (MIT), del MIT-IBM Watson AI Lab y de la Universidad de Boston han estudiado si los datos sintéticos son buenos para entrenar los modelos de aprendizaje automático.
Actualmente, los investigadores entrenan los modelos de aprendizaje automático utilizando grandes conjuntos de datos de videoclips que muestran a humanos realizando acciones. Sin embargo, no solo es costoso y laborioso recopilar y etiquetar millones o miles de millones de vídeos, sino que los clips a menudo contienen información confidencial, como rostros de personas o números de matrículas, cuyo uso podría violar las leyes de protección de datos o derechos de autor.
Datos sintéticos para entrenar los modelos de aprendizaje automático
Para evitar esto, los investigadores están recurriendo a conjuntos de datos sintéticos, los cuales están hechos por una computadora que usa modelos 3D de escenas, objetos y humanos para producir rápidamente muchos clips variados de acciones específicas, sin los posibles problemas de derechos de autor o preocupaciones éticas que vienen con los datos reales.
La duda recae en si estos datos sintéticos son válidos para entrenar los modelos de aprendizaje automático. Por ello, los investigadores construyeron un conjunto de datos, llamado Preentrenamiento y Transferencia de Acción Sintética (SynAPT), compuesto por tres conjuntos de datos disponibles públicamente de videoclips sintéticos que capturaron acciones humanas. SynAPT contenía 150 categorías de acción, con 1.000 videoclips por categoría y se seleccionaron tantas categorías de acción como fuera posible, como personas saludando o cayendo al suelo.
Una vez que se preparó el conjunto de datos, lo usaron para entrenar previamente tres modelos de aprendizaje automático para reconocer las acciones. El preentrenamiento implica entrenar a un modelo para una tarea a fin de darle una ventaja para aprender otras tareas.
Probaron los modelos preentrenados utilizando seis conjuntos de datos de clips de vídeo reales, cada uno de los cuales capturaba clases de acciones que eran diferentes a las de los datos de entrenamiento.
Resultados de la investigación
Los resultados mostraron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales para vídeos que tienen menos objetos de fondo.
A partir de estos resultados, los investigadores quieren incluir más clases de acción y plataformas de vídeo sintético adicionales en el trabajo futuro, creando eventualmente un catálogo de modelos que han sido entrenados previamente utilizando datos sintéticos.
Este trabajo podría ayudar a los investigadores a usar conjuntos de datos sintéticos de tal manera que los modelos logren una mayor precisión en las tareas del mundo real. También podría ayudar a los científicos a identificar qué aplicaciones de aprendizaje automático podrían ser las más adecuadas para el entrenamiento con datos sintéticos.