El entrenamiento de modelos de frontera, como el Llama 3 con 70 mil millones de parámetros, representa un desafío considerable para la computación moderna. Este proceso, demandante en recursos, requiere un sistema distribuido que puede integrar cientos o incluso miles de instancias aceleradas funcionando durante semanas o meses para completar un único trabajo. Por ejemplo, el preentrenamiento del modelo Llama 3 utilizó 15 billones de tokens de entrenamiento, lo que requirió 6.5 millones de horas de GPU H100. En un sistema que utiliza 256 instancias de Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H100, el tiempo requerido sería aproximadamente de 132 días.
Los trabajos de entrenamiento distribuidos se ejecutan de manera sincrónica, lo que significa que cada paso de entrenamiento requiere que todas las instancias participantes completen sus cálculos antes de avanzar al siguiente paso. Esto implica que cualquier fallo en una sola instancia puede detener todo el trabajo. Con el crecimiento del tamaño del clúster, aumenta también la probabilidad de fallos debido a la cantidad de componentes de hardware involucrados. Cada fallo de hardware no solo provoca la pérdida de horas de GPU, sino que también requiere tiempo valioso de ingeniería para identificar y resolver el problema, lo que puede traducirse en períodos de inactividad que retrasan el progreso. Para evaluar la fiabilidad del sistema, los equipos de ingeniería a menudo se basan en métricas clave como el tiempo medio entre fallos (MTBF), que mide el tiempo promedio de operación entre fallos de hardware.
El registro de los fallos de instancia es esencial para comprender la MTBF típica en la capacitación de modelos de frontera a gran escala, y se han documentado ejemplos representativos: un caso en el que Meta AI entrenó el modelo OPT-175B en 992 GPUs A100, donde se registraron 35 reinicios manuales y más de 70 reinicios automáticos en dos meses, resultando en una tasa de fallo de 0.0588% por hora. Durante el entrenamiento del Llama 3.1 en 16,000 GPUs H100, se produjeron 417 fallos no programados en 54 días, con una tasa efectiva de aproximadamente 0.0161% por hora. En un entrenamiento diferente de MPT-7B en 440 GPUs A100, se experimentaron cuatro fallos, resultando en una tasa de alrededor de 0.0319% por hora. Esto sugiere que, en una sola hora de entrenamiento distribuido a gran escala, es razonable esperar que un 0.02% a un 0.06% de las instancias fallen.
Además, el tamaño del clúster influye en la fiabilidad; a medida que crece, la entropía del sistema aumenta y el MTBF disminuye. Con una tasa de fallo de 0.04% por hora, un sistema de 512 instancias esperaría experimentar un fallo aproximadamente cada 5 horas. Este incremento en las tasas de fallo a medida que se aumentan los clústeres representa un desafío significativo para los equipos de ingeniería.
Cuando ocurre un fallo, el proceso de resolución puede ser largo. Inicia con un análisis de la causa raíz, seguido de la reparación o reemplazo del hardware y la recuperación del sistema. La detección rápida de fallos y los tiempos de sustitución más cortos son esenciales para minimizar el tiempo total de entrenamiento. Amazon SageMaker HyperPod se posiciona como una solución resiliente que reduce las interrupciones y minimiza los costos de capacitación en estos entornos complejos. Esta plataforma automatiza la detección y reemplazo de instancias defectuosas, permitiendo reanudar el entrenamiento desde el último punto guardado, lo que representa una significativa ventaja para la eficiencia operativa.
Las mediciones empíricas indican que SageMaker HyperPod podría reducir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias sometido a una tasa de fallo del 0.05%. Esto se traduce en un ahorro de aproximadamente 25 millones de dólares en costos de entrenamiento para un trabajo que requiera 10 millones de horas GPU.
La complejidad y los recursos necesarios para entrenar modelos de frontera hacen que sea fundamental para las empresas encontrar soluciones eficientes que les permitan concentrarse en la innovación en lugar de la gestión de infraestructura. SageMaker HyperPod brinda a los equipos de inteligencia artificial la confianza necesaria para realizar entrenamientos prolongados, sabiendo que cualquier fallo de hardware será detectado y resuelto de manera automática, minimizando las interrupciones en sus cargas de trabajo de aprendizaje automático.
vía: AWS machine learning blog