En el imparable avance de la inteligencia artificial generativa, desarrolladores y empresas buscan aceleradores más flexibles, rentables y potentes para satisfacer sus crecientes necesidades. Hoy, se ha anunciado con entusiasmo la disponibilidad de las instancias G6e, equipadas con las GPUs NVIDIA L40S Tensor Core, en la plataforma Amazon SageMaker. Este lanzamiento permite a las organizaciones elegir nodos con 1, 4 y hasta 8 instancias de GPU L40S, cada una con 48 GB de memoria de alta capacidad de datos (HBM), ofreciendo así opciones más accesibles y potentes. Esta tecnología se convierte así en una elección ideal para quienes buscan optimizar costes sin sacrificar el rendimiento en tareas de inferencia.
Las características principales de las instancias G6e incluyen el doble de memoria GPU en comparación con las instancias G5 y G6. Esto permite el despliegue de modelos de lenguaje grande en FP16, como un modelo de 14 mil millones de parámetros en un nodo de GPU simple, un modelo de 72 mil millones de parámetros en un nodo de 4 GPUs, y un modelo de 90 mil millones de parámetros en un nodo de 8 GPUs. Además, ofrecen hasta 400 Gbps de rendimiento de red y hasta 384 GB de memoria GPU, marcando una diferencia notable en capacidad y velocidad.
Estas instancias están diseñadas específicamente para el ajuste fino y la implementación de modelos de lenguaje grandes y abiertos. En pruebas de rendimiento, las G6e superan a sus predecesoras G5, demostrando ser más efectivas en costos y más adecuadas para casos de uso de baja latencia y en tiempo real, como chatbots y modelos de visión e inteligencia artificial conversacional.
Las pruebas de benchmarks muestran que, con longitudes de contexto largas de 512 y 1024, las instancias G6e.2xlarge pueden llegar a ofrecer hasta un 37% mejor latencia y 60% mejor rendimiento frente a las G5.2xlarge para un modelo Llama 3.1 8B. Además, cuando se despliega el modelo LLama 3.2 11B Vision, las G5.2xlarge presentaron problemas de memoria, mientras que las G6e.2xlarge mostraron un desempeño excelente.
El ahorro y la eficiencia son también evidentes cuando se comparan costes por 1000 tokens del despliegue de un modelo Llama 3.1 70b, evidenciando aun más las ventajas de las G6e.
Con las capacidades de memoria mejoradas, un rendimiento superior y un enfoque económico, las instancias G6e representan una solución convincente para organizaciones que desean escalar y desplegar sus aplicaciones de inteligencia artificial. Las instancias no solo logran manejar modelos más grandes y soportar longitudes de contexto más prolongadas, sino que también mantienen un alto rendimiento de procesamiento, siendo así un recurso valioso para el desarrollo de aplicaciones de inteligencia artificial modernas.
vía: AWS machine learning blog