Multi-Inquilinos en Aplicaciones RAG en una Única Base de Conocimientos de Amazon Bedrock con Filtrado de Metadatos

0
8
Multi-tenancy in RAG applications in a single Amazon Bedrock knowledge base with metadata filtering

Amazon Bedrock ha lanzado una serie de herramientas para ayudar a las organizaciones a gestionar y escalar sus bases de datos de conocimiento de manera efectiva, integrando modelos de inteligencia artificial de alto rendimiento. Esta plataforma completamente gestionada permite a los usuarios crear aplicaciones de inteligencia artificial generativa utilizando información contextual proveniente de las fuentes de datos de su propia empresa, mejorando así la precisión y seguridad en el manejo de datos sensibles.

Una de las principales necesidades de las organizaciones es controlar el acceso a sus datos a través de diferentes unidades comerciales, como departamentos o empleados, sin perder escalabilidad. A menudo, el intento de separar manualmente las fuentes de datos puede resultar en una complejidad innecesaria y limitaciones en los servicios. Las herramientas de Amazon Bedrock Knowledge Bases ofrecen flujos de trabajo gestionados de principio a fin para la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), lo que permite una gestión de datos más eficaz y bien organizada.

Un enfoque clave que propone la plataforma es el uso de estructuras de carpetas en el servicio de almacenamiento de Amazon S3, combinado con filtros de metadatos, para lograr una segmentación de datos eficiente dentro de una única base de conocimiento. Esto permite mantener datos de varios clientes separados de forma segura, reduciendo el riesgo de exponer información sensible.

La arquitectura lógica de un sistema de Amazon S3 podría organizarse de manera que cada cliente tenga su propio directorio dentro de una única estructura, lo que facilita el acceso controlado a su información específica. Por ejemplo, una firma de consultoría que gestiona documentos para múltiples proveedores de salud puede organizar sus registros en una jerarquía clara que asegure que la documentación de un cliente esté completamente separada de la de otro.

El sistema permite, además, la integración de bases de datos de vectores comunes, lo que incrementa las capacidades de filtrado y consulta de metadatos. Esto asegura que los documentos sean etiquetados con identificadores específicos de cada cliente, añadiendo una capa extra de organizacion y seguridad. Los usuarios asociados con un cliente solo podrán acceder a sus documentos, garantizando así los límites necesarios de privacidad.

La funcionalidad de filtrado también abarca el desarrollo de consultas más precisas y específicas, lo que es fundamental en sectores donde se manejan datos regulados y confidenciales, como la salud. Al implementar esta capacidad, las organizaciones pueden ser más efectivas en sus esfuerzos de cumplimiento normativo, al tiempo que optimizan sus recursos y potencializan sus iniciativas de inteligencia artificial generativa.

La reciente expansión de Amazon Bedrock para admitir múltiples fuentes de datos a través de cuentas de AWS promete maximizar la efectividad de esta plataforma, permitiendo a las empresas gestionar sus datos de manera más flexible y eficiente. Con la integración de bases de datos de vectores como OpenSearch Serverless, Aurora PostgreSQL y Pinecone, las capacidades de búsqueda semántica y de recuperación de datos son significativamente mejoradas, proporcionando a las empresas las herramientas necesarias para escalar sus operaciones de manera efectiva, cumpliendo con sus respectivas regulaciones de seguridad y confidencialidad.
vía: AWS machine learning blog