A medida que las organizaciones amplían sus implementaciones de inteligencia artificial generativa, el desafío de equilibrar calidad, costos y latencia se vuelve cada vez más complejo. Los costos de inferencia representan entre el 70% y el 90% de los gastos operativos de los modelos de lenguaje grande (LLM), y las estrategias de indagación verbosas incrementan el volumen de tokens hasta un 3-5 veces, lo que lleva a las organizaciones a buscar enfoques más eficientes para la interacción con los modelos. Los métodos de indagación tradicionales, aunque efectivos, a menudo generan un exceso de procesamiento que impacta tanto en la eficiencia de costos como en el tiempo de respuesta.
La técnica «Chain-of-Draft» (CoD) ha sido propuesta como una alternativa innovadora, según un estudio de Zoom AI, que revoluciona la forma en que los modelos abordan tareas de razonamiento. Mientras que la técnica «Chain-of-Thought» (CoT) ha sido ampliamente utilizada para mejorar el razonamiento de los modelos, CoD ofrece una opción más eficiente que refleja los patrones de resolución de problemas de los humanos, utilizando pasos de pensamiento concisos en lugar de explicaciones extensas.
Utilizando Amazon Bedrock y AWS Lambda, hemos demostrado una implementación práctica de CoD que puede lograr mejoras de eficiencia significativas, con hasta un 75% de reducción en el uso de tokens y más de un 78% de disminución en la latencia, manteniendo simultáneamente los niveles de precisión de los enfoques tradicionales de CoT. A través de ejemplos detallados y métricas de rendimiento, se ilustra el despliegue de CoD en un entorno de AWS y su impacto en las implementaciones de inteligencia artificial. Esta estrategia no solo optimiza los costos, sino que también mejora la experiencia del usuario a través de tiempos de respuesta más rápidos.
El enfoque CoD se fundamenta en la idea de que las cadenas de razonamiento suelen contener una alta redundancia. Al destilar los pasos a su núcleo semántico, CoD ayuda al modelo a centrarse en la estructura lógica de la tarea en lugar de en la fluidez del lenguaje. Esto se traduce en una menor latencia de inferencia gracias a salidas más breves, reducción de costos por tokens debido a la generación minimizada y una salida más clara para el procesamiento o la automatización posteriores.
A pesar de sus beneficios, CoD no es aplicable en todos los escenarios. En situaciones que requieren una alta interpretabilidad, como la revisión de documentos legales o médicos, un razonamiento más detallado puede ser esencial. Además, en modelos de lenguaje más pequeños, CoD tiende a rendir menos eficientemente que CoT.
En conclusión, CoD se presenta como una técnica prometedora para las organizaciones que buscan optimizar sus implementaciones de inteligencia artificial generativa al reducir costos y mejorar los tiempos de respuesta, manteniendo al mismo tiempo un alto nivel de calidad en el razonamiento. Con la evolución continua de la inteligencia artificial, esta técnica marca un paso significativo hacia modelos de lenguaje más eficientes y efectivos.
vía: AWS machine learning blog





