Crear Un Chatbot Multimodal Personalizado Para Tu Conjunto de Datos Único con Amazon Bedrock FMs

0
126
Create a multimodal chatbot tailored to your unique dataset with Amazon Bedrock FMs

En los últimos meses, el desarrollo de modelos de lenguaje de gran escala (LLMs) ha llevado a una creciente adopción de asistentes virtuales en diversas empresas. Con el propósito de mejorar tanto la atención al cliente como la eficiencia de equipos internos, muchas organizaciones están implementando asistentes de chat basados en el modelo de generación aumentada por recuperación (RAG), que emplean poderosos LLMs para consultar documentos específicos de la empresa y responder preguntas relevantes a casos de uso particulares.

Uno de los avances más significativos ha sido el incremento en la disponibilidad y capacidades de los modelos fundacionales multimodales. Estos modelos están diseñados para interpretar y generar texto a partir de imágenes, conectando la información visual con el lenguaje natural. A pesar de su utilidad general, estos modelos tienen la limitación de responder solo en función de la información contenida en sus conjuntos de datos de entrenamiento.

En este contexto, Amazon Web Services (AWS) demuestra cómo crear un asistente de chat multimodal utilizando los modelos de Amazon Bedrock. Este sistema permite a los usuarios enviar imágenes y preguntas, y recibir respuestas basadas en un conjunto cerrado de documentos propietarios. Un ejemplo de aplicación de este asistente multimodal es en la industria minorista, donde podría utilizarse para mejorar la venta de productos, o en la fabricación de equipos, para facilitar el mantenimiento y reparación de maquinaria.

La solución desarrollada por AWS comienza con la creación de una base de datos vectorial de documentos relevantes mediante Amazon OpenSearch Service, un motor de búsqueda poderoso y flexible. Posteriormente, se despliega el asistente de chat completo utilizando una plantilla de AWS CloudFormation.

El flujo del sistema sigue una secuencia de pasos que comienza cuando un usuario sube una imagen y plantea una pregunta. La consulta y la imagen son procesadas a través de una conexión con Amazon API Gateway hacia una función de AWS Lambda, que actúa como el núcleo de procesamiento. La imagen se almacena en Amazon S3, lo que podría servir para futuros análisis del asistente. A continuación, la función Lambda coordina una serie de llamadas a modelos de Amazon Bedrock para producir una descripción textual de la imagen, convertir la pregunta y descripción en una representación vectorial, recuperar datos relevantes de OpenSearch, y generar una respuesta basada en los documentos recuperados. Finalmente, la consulta del usuario y la respuesta obtenida se almacenan en Amazon DynamoDB, vinculadas con el ID de la imagen en S3.

La implementación de este sistema ofrece una oportunidad considerable para varios sectores que requieran respuestas específicas basadas en conjuntos de datos propios a partir de entradas multimodales. El caso de uso presentado en este informe se centra en un mercado de automóviles, donde los usuarios pueden subir una imagen de un vehículo, realizar preguntas y recibir respuestas fundamentadas en una base de datos propia de listados de automóviles, demostrando la aplicabilidad de esta tecnología en entornos diversos.

La principal ventaja de esta solución es su capacidad para proporcionar respuestas precisas y contextualizadas, basadas en datos específicos de la empresa, lo que mejora la experiencia del usuario y aumenta la eficiencia operativa. Además, este enfoque ofrece la posibilidad de personalización y escalabilidad, permitiendo a las empresas adaptar el asistente a sus necesidades particulares y a la vez explorar nuevos horizontes en la interacción humano-máquina.
vía: AWS machine learning blog