En 2024, el Ministerio de Economía, Comercio e Industria de Japón lanzó un programa nacional denominado Generative AI Accelerator Challenge (GENIAC), orientado a potenciar la inteligencia artificial generativa. Este programa proporciona a las empresas financiación, asesoramiento y recursos computacionales masivos para el desarrollo de modelos fundamentales (FM). Amazon Web Services (AWS) fue seleccionado como el proveedor de nube para la segunda fase del GENIAC, ofreciendo infraestructura y asesoría técnica a 12 organizaciones participantes.
Aunque en teoría el desafío parecía simple —proporcionar acceso a cientos de GPUs y chips Trainium para promover la innovación—, en la práctica, el entrenamiento exitoso de modelos fundamentales requería mucho más que hardware potente. AWS se dio cuenta de que disponer de más de 1,000 aceleradores era solo un primer paso, ya que la verdadera dificultad radicaba en crear un sistema confiable y superar los desafíos del entrenamiento distribuido.
Durante la segunda fase del GENIAC, 12 clientes implementaron con éxito 127 instancias de Amazon EC2 P5 (servidores NVIDIA H100 TensorCore GPU) y 24 instancias de Amazon EC2 Trn1 (servidores AWS Trainium) en un solo día. En los seis meses siguientes, se entrenaron varios modelos de gran escala, incluyendo proyectos destacados como Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.
Un aprendizaje crucial de esta experiencia fue la necesidad de equipos de trabajo multidisciplinarios para llevar a cabo una iniciativa de aprendizaje automático a gran escala. AWS formó un equipo virtual que unió a equipos de cuentas, arquitectos de soluciones especializados y equipos de servicio. Este modelo de colaboración cercana entre los clientes y la estructura de equipos de AWS facilitó un intercambio efectivo de información y soporte.
Además, la comunicación estructurada resultó fundamental. Se estableció un canal interno en Slack para coordinar el programa, lo que permitió una resolución rápida de problemas y un entorno colaborativo donde los participantes podían hacer preguntas y compartir información. AWS también mantuvo documentos de seguimiento detallados para cada cliente, lo que clarificó los requisitos técnicos y las configuraciones necesarias. A través de reuniones semanales, el equipo pudo compartir lecciones y mejorar continuamente el modelo de participación.
La creación de arquitecturas de referencia también fue vital. En lugar de permitir que cada equipo configurara su propio clúster desde cero, AWS desarrolló plantillas y automatizaciones prevalidadas para dos enfoques principales: AWS ParallelCluster y SageMaker HyperPod. Estas arquitecturas de referencia cubrieron todo el stack técnico, lo que permitió a los equipos desplegar entornos con una fricción mínima.
El programa GENIAC ha demostrado que el entrenamiento de modelos fundamentales a escala es, en esencia, un desafío organizativo. Gracias a un soporte estructurado y a un enfoque colaborativo, un grupo pequeño de participantes pudo ejecutar grandes cargas de trabajo en la nube con éxito. Por ello, a finales de la segunda fase, se lanzó un evento técnico en Tokio, destinado a preparar a los desarrolladores de modelos fundamentales para la próxima fase de GENIAC, marcando un paso importante en el camino hacia el avance de la inteligencia artificial generativa. AWS sigue comprometido con el progreso en el desarrollo de estas tecnologías a nivel mundial.
vía: AWS machine learning blog