El KAIST presenta una técnica para reducir los costes de entrenamiento de los modelos de IA a gran escala • CASADOMO

Los modelos de inteligencia artificial (IA) a gran escala se entrenan en sistemas distribuidos a gran escala con decenas de miles de GPU para centros de datos y el coste de entrenamiento es elevado. Un equipo de investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) ha desarrollado una técnica para ayudar a derivar configuraciones de paralelización óptimas que pueden aumentar la utilización de la GPU y reducir los costes de entrenamiento.

Aprendizaje automático. — El marco de simulación de código abierto puede predecir y optimizar el tiempo de aprendizaje de los modelos de IA a gran escala.

Encontrar una estrategia óptima de aprendizaje distribuido es esencial para mejorar la eficiencia del entrenamiento de modelos lingüísticos grandes. Sin embargo, el número de estrategias posibles es enorme, y probar el rendimiento de cada estrategia en un entorno real requiere un coste y un tiempo enormes.

En consecuencia, las empresas que actualmente entrenan modelos lingüísticos a gran escala solo utilizan un pequeño número de estrategias probadas empíricamente. Esto genera ineficiencias en la utilización de la GPU y aumentos innecesarios en los costos, pero la falta de tecnología de simulación para sistemas a gran escala impide que las empresas resuelvan el problema de manera efectiva.

Marco de simulación de código abierto

En este contexto, el KAIST ha desarrollado un marco de simulación de código abierto, denominado vTrain, que tiene la capacidad de predecir y optimizar el tiempo de aprendizaje de los modelos de lenguaje grandes (LLM) en sistemas distribuidos a gran escala.

El equipo de investigación comparó el tiempo de entrenamiento real de varios modelos de lenguaje a gran escala con los valores predichos de vTrain en un entorno real de múltiples GPU. La solución verificó que el tiempo de entrenamiento se puede predecir con una precisión del 8,37% en el error absoluto medio (MAPE) en un solo nodo y 14,73% en múltiples nodos.

El equipo de investigación publicó el marco vTrain y más de 1.500 datos de medición del tiempo de aprendizaje real como código abierto para que los investigadores y las empresas de inteligencia artificial puedan utilizarlos libremente.