El Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) ha desarrollado una tecnología que puede aprender de manera eficiente de los modelos de inteligencia artificial (IA) sin costosas GPU de centros de datos ni redes de alta velocidad. Se espera que esta tecnología permita a las empresas y a los investigadores con recursos limitados realizar investigaciones sobre IA de forma más eficaz. Gracias a esta tecnología, se puede acelerar el aprendizaje de los modelos de IA de decenas a cientos de veces, incluso en un entorno distribuido con ancho de banda de red limitado utilizando GPU de consumo.
Anteriormente, para aprender los modelos de IA, se requerían varias GPU de servidor de alto rendimiento (NVIDIA H100) por valor de decenas de millones de wones cada una, así como una costosa infraestructura con una red de alta velocidad de 400 Gbps para conectarlas.
El equipo de investigación desarrolló un marco de aprendizaje distribuido llamado Stella Train para resolver este problema. Esta tecnología utiliza una GPU de consumo que es de 10 a 20 veces más barata que la H100 de alto rendimiento, lo que permite un aprendizaje distribuido eficiente, incluso en un entorno general de Internet donde el ancho de banda es cientos o miles de veces menor en lugar de una red dedicada de alta velocidad.
Aumento de la velocidad de aprendizaje con el uso de CPU y GPU
Al utilizar GPU de bajo costo existente existía la limitación de ralentizar el entrenamiento cientos de veces al entrenar modelos de IA a gran escala debido a la pequeña memoria de la GPU y las limitaciones de velocidad de la red. Sin embargo, la tecnología Stellar Train utiliza CPU y GPU en paralelo para aumentar la velocidad de aprendizaje y aplica un algoritmo que comprime y transmite datos de manera eficiente según la velocidad de la red, lo que permite un aprendizaje rápido utilizando múltiples GPU de bajo costo.
En concreto, se maximizó la eficiencia de los recursos informáticos mediante la introducción de una nueva tecnología de canalización que permite procesar el aprendizaje en paralelo dividiendo la CPU y la GPU en etapas de tareas. Además, para aumentar la eficiencia informática de la GPU incluso en un entorno distribuido a larga distancia, la tasa de utilización de la GPU para cada modelo de IA se monitoriza en tiempo real para determinar dinámicamente la cantidad de muestras (tamaño de lote) en las que aprende el modelo y agilizar la transferencia de datos entre GPU de acuerdo con los cambios en el ancho de banda de la red.
Los resultados de la investigación muestran que el uso de la tecnología Stellar Train puede lograr un rendimiento de hasta 104 veces más rápido que el aprendizaje paralelo de datos existente.