A diferencia de los humanos, la inteligencia artificial (IA) no tiene visión periférica. Equipar modelos de visión por computadora con esta capacidad podría ayudar a desarrollar pantallas que sean más fáciles de ver para las personas. El Instituto Tecnológico de Massachussets (MIT) ha desarrollado un conjunto de datos de imágenes que permite simular la visión periférica en modelos de aprendizaje automático. Los investigadores descubrieron que entrenar modelos con este conjunto de datos mejoraba la capacidad de los modelos para detectar objetos en la periferia visual.
Para lograr un enfoque más preciso, los investigadores del MIT comenzaron con una técnica utilizada para modelar la visión periférica en humanos. Conocido como modelo de mosaico de texturas, este método transforma imágenes para representar la pérdida de información visual de un ser humano.
Modificaron este modelo para que pudiera transformar imágenes de manera similar, pero de una manera más flexible que no requiere saber de antemano hacia dónde apuntará la persona o la inteligencia artificial.
Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que parecen más texturizadas en ciertas áreas, para representar la pérdida de detalle que ocurre cuando un humano mira más hacia la periferia.
Posteriormente, utilizaron el conjunto de datos para entrenar varios modelos de visión por computadora y compararon su desempeño con el de los humanos en una tarea de detección de objetos.
Identificación de un objeto ubicado en la periferia
A los humanos y a los modelos se les mostraron pares de imágenes transformadas que eran idénticas, excepto que una imagen tenía un objeto objetivo ubicado en la periferia. Se pidió a cada participante que eligiera la imagen con el objeto objetivo.
Los investigadores descubrieron que entrenar modelos desde cero con su conjunto de datos conducía a mayores aumentos de rendimiento, mejorando su capacidad para detectar y reconocer objetos. El ajuste de un modelo con su conjunto de datos, un proceso que implica ajustar un modelo previamente entrenado para que pueda realizar una nueva tarea, dio como resultado menores ganancias de rendimiento.
Pero en todos los casos, las máquinas no eran tan buenas como los humanos y eran especialmente malas para detectar objetos en la periferia lejana. Su desempeño tampoco siguió los mismos patrones que los humanos.
Los investigadores planean continuar explorando estas diferencias, con el objetivo de encontrar un modelo que pueda predecir el desempeño humano en la periferia visual. También esperan inspirar a otros investigadores a realizar estudios adicionales de visión por computadora con su conjunto de datos disponible públicamente.