Amazon SageMaker ha lanzado una nueva función de inferencia multiadaptador eficiente que promete revolucionar el uso de modelos ajustados por los clientes. Esta implementación facilita la gestión y despliegue de cientos de adaptadores Low-Rank Adaptation (LoRA) afinados, utilizando las APIs de SageMaker. La tecnología permite registrar adaptadores afinados con un modelo base y cargarlos dinámicamente desde la memoria GPU, CPU o un disco local en cuestión de milisegundos, sin impactar el rendimiento ni necesitar un redepliego del endpoint.
La flexibilidad de los adaptadores LoRA posibilita una amplia gama de personalización hipersegmentada y basada en tareas, un proceso que anteriormente era demasiado costoso e intensivo en recursos. Empresas de sectores como el marketing, la atención médica y los servicios financieros pueden reutilizar un modelo base común con adaptadores específicos que aborden tareas diversas, como el diagnóstico de condiciones médicas, evaluación de solicitudes de crédito, comprensión de documentos complejos o detección de fraudes financieros.
Los métodos de ajuste fino como LoRA se fundamentan en la idea de que solo una pequeña parte de un modelo fundacional grande necesita ser actualizada para adaptarlo a nuevas tareas o dominios, permitiendo ajustes rápidos y económicos. Esto posibilita la creación de bibliotecas de adaptadores específicos por tarea, cliente o dominio, maximizando la eficiencia en el uso de inteligencia artificial personalizada.
Amazon SageMaker simplifica la integración y el manejo de estos adaptadores escalables, empleando componentes de inferencia que asignan recursos de computo específicos a cada contenedor. Así, se puede escalar y alojar múltiples modelos en un único endpoint. Además, los componentes de inferencia gestionan las operaciones atómicas para agregar, eliminar o actualizar adaptadores sin interrumpir el servicio.
Esta solución ofrece una forma de usar modelos fundacionales pre-entrenados sin la necesidad de crear modelos complejos desde cero, permitiendo adaptarse a necesidades específicas utilizando técnicas de ajuste fino de parámetros eficientes como LoRA. Aunque administrar estos adaptadores a gran escala puede ser un desafío, la funcionalidad multiadaptador de SageMaker permite la gestión eficiente de los mismos, facilitando su uso en diversas aplicaciones de inteligencia artificial generativa.
El uso de la inferencia multiadaptador no supone un costo adicional y está disponible en una variedad de regiones de AWS, extendiendo el uso y aplicación de esta tecnología innovadora a nivel global. Este avance abre nuevas oportunidades para que organizaciones de diversos sectores desplieguen soluciones de inteligencia artificial potentes y personalizadas, optimizando así sus operaciones y permitiendo nuevas capacidades en procesos críticos.
vía: AWS machine learning blog