Salesforce y Amazon Web Services (AWS) han anunciado una colaboración enfocada en la optimización de la implementación de modelos de inteligencia artificial, en particular, los modelos de lenguaje de gran tamaño (LLMs). El equipo de Model Serving de la plataforma de inteligencia artificial de Salesforce se centra en desarrollar y gestionar servicios para estos modelos, proporcionando una infraestructura robusta que facilite la integración de algoritmos de aprendizaje automático en aplicaciones críticas.
Una de las principales dificultades que enfrenta el equipo es el despliegue eficiente de modelos, garantizando al mismo tiempo un rendimiento óptimo y una gestión de costos efectiva. Esto se vuelve aún más complejo dado el nivel de diversidad en los tamaños y requisitos de rendimiento de los modelos, que van desde unos pocos gigabytes hasta 30 GB.
El equipo ha identificado dos retos diferentes. Por un lado, los modelos más grandes tienden a ser menos utilizados en términos de recursos, lo que provoca un uso subóptimo de las instancias de múltiples GPUs. En contraste, los modelos de tamaño intermedio requieren un procesamiento de bajo tiempo de respuesta, lo que conlleva un mayor costo debido a la sobreasignación de recursos.
Para enfrentar estos retos, Salesforce ha implementado componentes de inferencia de Amazon SageMaker, que facilitan la implementación de múltiples modelos de base en un único endpoint de SageMaker. Esto permite un control granular sobre el número de aceleradores y la memoria asignada a cada modelo, mejorando drásticamente la utilización de recursos y reduciendo los costos asociados con la implementación de modelos.
La estrategia de implementar componentes de inferencia proporciona una serie de beneficios, incluyendo la optimización del uso de GPUs y la capacidad de escalar los modelos de forma independiente según las necesidades específicas de cada aplicación. Esta dinámica no solo soluciona problemas inmediatos de implementación, sino que también establece una base flexible capaz de acompañar la evolución de las iniciativas de inteligencia artificial de Salesforce.
Con la implementación de estas soluciones, Salesforce puede reducir significativamente los costos de infraestructura y mejorar la eficiencia operativa, logrando ahorros de hasta un 80% en costos de despliegue. Además, esta optimización permite que los modelos más pequeños también se beneficien de GPUs de alto rendimiento, ofreciendo un rendimiento elevado y bajo tiempo de latencia sin incurrir en gastos excesivos.
De cara al futuro, Salesforce planea aprovechar la capacidad de actualizaciones continuas de los componentes de inferencia, lo que les permitirá mantener sus modelos actualizados de forma más eficiente, minimizando así la carga operativa y potenciando la integración de innovaciones futuras en su plataforma de inteligencia artificial. Esto posicionará a la compañía para seguir creciendo y expandiendo sus ofertas de inteligencia artificial mientras mantiene altos estándares de eficiencia y efectividad en costos.
vía: AWS machine learning blog