Un equipo de investigación de la Escuela de Ingeniería del Instituto de Tecnología de Tokio (Tokyo Tech) ha desarrollado el transformador de visión (ViT), un nuevo método basado en una técnica de aprendizaje automático que permite obtener imágenes de alta calidad en un corto tiempo de computación y contribuye a la aplicación práctica de una cámara sin lentes.
Una cámara generalmente requiere un sistema de lentes para capturar una imagen enfocada, brillante y sin aberraciones. En las últimas décadas se ha visto un aumento en la demanda de cámaras más pequeñas, livianas y económicas. Sin embargo, la miniaturización de la cámara está restringida por el sistema de lentes y la distancia de enfoque requerida por las lentes refractivas.
En este contexto, los investigadores han desarrollado un nuevo método de reconstrucción de imágenes que mejora el tiempo de cálculo y proporciona imágenes de alta calidad. Al no existir la limitación de una lente, la cámara sin lente podría ser ultraminiatura, permitiendo nuevas aplicaciones.
El hardware óptico típico de la cámara sin lentes consiste simplemente en una máscara delgada y un sensor de imagen. La máscara codifica ópticamente la luz incidente y proyecta patrones en el sensor y mediante un algoritmo matemático, se reconstruye la imagen.
Aprendizaje profundo para la reconstrucción de imágenes
El proceso de decodificación, basado en la tecnología de reconstrucción de imágenes, sigue siendo un desafío. El aprendizaje profundo podría ayudar a evitar las limitaciones de la decodificación basada en modelos, ya que puede aprender el modelo y decodificar la imagen mediante un proceso directo no iterativo. Sin embargo, los métodos de aprendizaje profundo existentes para imágenes sin lentes, que utilizan una red neuronal convolucional (CNN), no pueden producir imágenes de buena calidad.
El equipo de investigación de TokyoTech está estudiando esta propiedad de multiplexación y ahora ha propuesto un algoritmo de aprendizaje automático novedoso y dedicado para la reconstrucción de imágenes. El algoritmo propuesto se basa en una técnica de aprendizaje automático llamada transformador de visión (ViT).
La novedad del algoritmo radica en la estructura de los bloques de transformadores multietapa con módulos de parches superpuestos. Esto permite aprender eficientemente las características de la imagen en una representación jerárquica, evitando las limitaciones del aprendizaje profundo convencional basado en CNN y ofreciendo una mejor reconstrucción de la imagen.