Un reciente informe de McKinsey & Company ha estimado que la inteligencia artificial generativa podría aportar entre 2.6 y 4.4 billones de dólares en valor a la economía global, destacando su potencial principalmente en áreas como operaciones con clientes, marketing, ventas, ingeniería de software e investigación y desarrollo. Este atractivo económico ha impulsado a miles de empresas a desarrollar aplicaciones de inteligencia artificial generativa en Amazon Web Services (AWS).
Sin embargo, muchos líderes en gestión de productos y arquitectura empresarial buscan entender mejor los costos asociados y las estrategias para optimizarlos. Este artículo se centra en estas consideraciones de costo, asumiendo que los lectores tienen un conocimiento básico sobre modelos de base, modelos de lenguaje grandes, tokens y bases de datos vectoriales en AWS.
Uno de los marcos más comunes utilizados en soluciones de IA generativa es la Generación Aumentada por Recuperación (RAG), que permite a los modelos de lenguaje responder preguntas específicas basadas en datos corporativos, incluso si no fueron entrenados con esa información. En este contexto, se analizan los pilares de optimización de costos y rendimiento, que incluyen la selección, elección y personalización de modelos, el uso de tokens, los planes de precios de inferencia y otros factores variados.
La selección del modelo implica identificar cuál se adapta mejor a diversas necesidades, seguido de la validación del modelo con conjuntos de datos de alta calidad. La elección se refiere a la selección de un modelo apropiado según características de precios y rendimiento, mientras que la personalización se enfoca en modificar modelos preexistentes con datos de entrenamiento para maximizar la eficiencia.
El análisis del uso de tokens es crucial, ya que el costo de operar un modelo de IA generativa depende directamente del número de tokens procesados. Las limitaciones en el número de tokens y la implementación de estrategias de almacenamiento en caché pueden ayudar a reducir costos.
En cuanto a los planes de precios de inferencia, AWS ofrece opciones como la modalidad bajo demanda, ideal para la mayoría de los modelos, y el rendimiento provisionado, que permite garantizar un nivel específico de rendimiento a un costo generalmente más alto. Otros factores relevantes incluyen medidas de seguridad como filtros de contenido, el costo asociado al uso de bases de datos vectoriales y las estrategias de fragmentación de datos, que pueden afectar tanto la precisión como los costos generales.
Por ejemplo, los costos pueden variar significativamente dependiendo del volumen de preguntas que una aplicación de asistente virtual pueda recibir. Se proporcionan ejemplos que muestran la variabilidad de los costos anuales en escenarios pequeños, medianos y grandes, destacando que la utilización de un modelo de lenguaje como Claude 3 de Anthropic puede resultar en costos anuales que oscilan entre 12,577 y 134,252 dólares.
Por último, se discuten las implicaciones de usar servicios como Amazon Bedrock para acceder a modelos de alto rendimiento, así como el uso de guardrails que permiten controlar el contenido y mejorar la seguridad de las aplicaciones. Esto es fundamental en un entorno donde un asistente virtual puede interactuar con usuarios sobre una variedad de temas, y se debe prevenir la generación de contenido no adecuado.
A medida que la inteligencia artificial generativa continúa evolucionando, es vital que las organizaciones se mantengan informadas sobre cómo estos costos pueden fluctuar y cómo pueden optimizarlos para maximizar su valor. En futuras entregas, se explorarán aspectos relacionados con la estimación del valor comercial y los factores que la influyen.
vía: AWS machine learning blog