Optimización de Modelos LLM en Amazon Bedrock: Ingeniería de Prompts Few-shot y Ajuste Fino

0
50
Few-shot prompt engineering and fine-tuning for LLMs in Amazon Bedrock

Los llamados de resultados de las empresas son eventos cruciales que brindan transparencia sobre la salud financiera y las perspectivas de una empresa. Estos informes detallan las finanzas de la empresa durante un período específico, incluyendo ingresos, ingresos netos, ganancias por acción, balance general y flujo de caja. Además, los llamados de resultados son conferencias en vivo donde los ejecutivos presentan una visión general de los resultados, discuten los logros y desafíos, y proporcionan una orientación para los períodos venideros.

Estas revelaciones son vitales para los mercados de capitales, influyendo significativamente en los precios de las acciones. Los inversores y analistas observan de cerca métricas clave como el crecimiento de los ingresos, las ganancias por acción, los márgenes, el flujo de caja y las proyecciones para evaluar el desempeño en comparación con los pares y las tendencias de la industria. La tasa de crecimiento y los márgenes de beneficio influyen en la prima y el multiplicador que los inversores están dispuestos a pagar por las acciones de una empresa, afectando en última instancia las rentabilidades y movimientos de precios de las acciones.

Asimismo, los llamados de resultados permiten a los inversores buscar pistas sobre el futuro de una empresa. Las empresas suelen publicar información sobre nuevos productos, tecnologías de vanguardia, fusiones y adquisiciones, e inversiones en nuevas temáticas y tendencias de mercado durante estos eventos. Estos detalles pueden señalar potenciales oportunidades de crecimiento para inversores, analistas y gestores de carteras.

Tradicionalmente, los guiones de los llamados de resultados han seguido plantillas similares, lo que hace que sea una tarea repetitiva generarlos desde cero cada vez. Por otro lado, los modelos de inteligencia artificial generativa pueden aprender estas plantillas y producir guiones coherentes cuando se les alimenta con datos financieros trimestrales. Con la inteligencia artificial generativa, las empresas pueden agilizar el proceso de crear primeros borradores de los guiones de los llamados de resultados para un nuevo trimestre utilizando plantillas repetibles e información sobre el rendimiento y los aspectos destacados del negocio. El borrador inicial de un guion generado por un modelo de lenguaje grande (LLM) puede luego ser refinado y personalizado utilizando comentarios de los ejecutivos de la empresa.

Amazon Bedrock ofrece una manera sencilla de construir y escalar aplicaciones de inteligencia artificial generativa con modelos base (FMs) y LLMs. Amazon Bedrock es un servicio completamente gestionado que ofrece una selección de FMs de alto rendimiento de empresas líderes en inteligencia artificial como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI y Amazon. La personalización de modelos puede ofrecer experiencias de usuario diferenciadas y personalizadas. Para personalizar modelos para tareas específicas, se pueden ajustar finamente los FMs utilizando sus propios conjuntos de datos etiquetados en solo unos pocos pasos rápidos.

En este artículo, se muestra cómo generar el primer borrador de un guion de un llamado de resultados utilizando LLMs. Se demuestran dos métodos para generar un guion de un llamado de resultados con LLMs: aprendizaje en pocos disparos y ajuste fino. Evaluamos los guiones generados y los métodos aplicados desde diferentes dimensiones: exhaustividad, alucinaciones, estilo de escritura, facilidad de uso y costo, y presentamos nuestros hallazgos.

Visión general de la solución

Aplicamos dos métodos para generar el primer borrador de un guion de un llamado de resultados para el nuevo trimestre utilizando LLMs:

Ingeniería de prompts con aprendizaje en pocos disparos: Utilizamos ejemplos de guiones de resultados pasados con Anthropic Claude 3 Sonnet en Amazon Bedrock para generar un guion de un llamado de resultados para un nuevo trimestre.

Ajuste fino: Ajustamos finamente Meta Llama 2 70B en Amazon Bedrock utilizando datos etiquetados de entrada/salida de guiones de resultados pasados y utilizamos el modelo personalizado para generar un guion de un llamado de resultados para un nuevo trimestre.

Ambos métodos implican utilizar un conjunto de datos coherente de transcripciones de llamados de resultados a lo largo de varios trimestres. Utilizamos varios años de llamados de resultados trimestrales pasados, reservando un trimestre, que se utilizó como verdad de terreno para pruebas y comparación.

Evaluación de la ingeniería de prompts y el ajuste fino

Evaluamos las transcripciones de los llamados de resultados generadas a partir de ambos métodos utilizando dos enfoques diferentes:

  • Evaluación por un revisor humano
  • Evaluación comparando tres variaciones utilizando un LLM (Anthropic Claude 3 Sonnet)

Evaluado por revisor humano

Un revisor humano evaluó la exhaustividad, la aparición de alucinaciones en los textos, el estilo de escritura, la facilidad de uso y el costo de implementación y mantenimiento de los métodos.

Evaluado por LLM

Probamos las siguientes variaciones:

  • Variación A: Transcripción del llamado de resultados generada mediante aprendizaje en pocos disparos con Anthropic Claude v3 Sonnet
  • Variación B: Transcripción del llamado de resultados generada mediante ajuste fino de Meta Llama 70B
  • Variación C: Transcripción real del llamado de resultados para el trimestre

Las evaluaciones mostraron que, aunque los puntos financieros clave son similares, existen matices en la profundidad de los detalles proporcionados y el estilo narrativo y de comentarios entre las diferentes variaciones.

Conclusión

Generar borradores de alta calidad de los guiones de los llamados de resultados utilizando LLMs es un enfoque prometedor que puede agilizar el proceso para las empresas. Ambos métodos, ingeniería de prompts y ajuste fino, demostraron la capacidad de producir guiones que cubren métricas financieras clave, actualizaciones comerciales y orientación futura. Cada método tiene sus propias particularidades en términos de exhaustividad, alucinaciones, estilo de escritura, facilidad de implementación y costo que las empresas deben evaluar según sus necesidades y prioridades específicas.

vía: AWS machine learning blog