Los investigadores del Instituto Tecnológico de Massachusetts (MIT) CSAIL están innovando con imágenes sintéticas para entrenar modelos de aprendizaje automático, para que sean más eficientes y con menos sesgos. En el centro del enfoque se encuentra un sistema llamado StableRep, que no utiliza simplemente imágenes sintéticas; las genera a través de modelos de conversión de texto a imagen como Stable Diffusion.
La estrategia que utilizan los investigadores se llama aprendizaje contrastivo multipositivo. Este enfoque considera múltiples imágenes generadas a partir de mensajes de texto idénticos, como pares positivos, proporcionando información adicional durante el entrenamiento, no solo agregando más diversidad sino especificando al sistema de visión qué imágenes son similares y cuáles son diferentes.
Un aspecto fundamental de StableRep es el ajuste de la escala de orientación en el modelo generativo, que garantiza un delicado equilibrio entre la diversidad y la fidelidad de las imágenes sintéticas. Cuando se ajustaron con precisión, se descubrió que las imágenes sintéticas utilizadas en el entrenamiento de estos modelos autosupervisados eran tan efectivas, si no más, que las imágenes reales.
Dando un paso más, se agregó la supervisión del idioma a la mezcla, creando una variante mejorada: StableRep+. Cuando se entrenó con 20 millones de imágenes sintéticas, StableRep+ no solo logró una precisión superior, sino que también mostró una eficiencia notable en comparación con los modelos CLIP entrenados con la asombrosa cantidad de 50 millones de imágenes reales.
Limitaciones del sistema
Los investigadores abordan con varias limitaciones, incluida la lentitud actual de generación de imágenes, los desajustes semánticos entre las indicaciones de texto y las imágenes resultantes, la posible amplificación de los sesgos y las complejidades en la atribución de imágenes.
Otro problema es que StableRep requiere entrenar primero el modelo generativo con datos reales a gran escala. El equipo reconoce que empezar con datos reales sigue siendo una necesidad. Sin embargo, cuando se tiene un buen modelo generativo, puede reutilizarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.
Si bien StableRep ofrece una buena solución al disminuir la dependencia de grandes colecciones de imágenes reales, pone de relieve preocupaciones sobre sesgos ocultos dentro de los datos no seleccionados utilizados para estos modelos de texto a imagen. La elección de las indicaciones de texto, parte integral del proceso de síntesis de imágenes, no está completamente libre de sesgos.