Empresas enfrentan desafíos significativos al gestionar y acceder a sus activos de datos, dispersos a través de diversas fuentes debido a la creciente complejidad de la gestión de grandes volúmenes de información. Los métodos de búsqueda tradicionales a menudo fallan en proporcionar resultados comprensivos y contextuales, especialmente para datos no estructurados o consultas complejas. En el contexto actual del manejo de grandes datos, es imperativo que las soluciones de búsqueda sean eficientes y precisas, capaces de adaptarse al ingreso de nuevos activos de datos. Además, los usuarios desean tener la capacidad de buscar en todos los datos y aplicaciones de su organización, y acceder a la información de procedencia de todos los documentos recuperados, obteniendo también la información de metadatos relacionada con los activos de datos relevantes en el contexto de la búsqueda.
Para lograr estos objetivos, las soluciones deben incluir características que proporcionen conexiones entre entidades y fuentes de datos relacionadas, consoliden sistemas fragmentados de catalogación de datos que contengan metadatos, y expliquen el razonamiento detrás de los resultados de búsqueda. En respuesta a estas necesidades, se ha desarrollado una solución de búsqueda semántica potenciada por Inteligencia Artificial generativa. Esta solución permite a los usuarios de negocios encontrar rápida y precisamente los activos de datos relevantes a lo largo de diversas fuentes dentro de la empresa.
Integrando modelos de lenguaje de gran escala alojados en Amazon Bedrock y respaldados por un grafo de conocimiento construido en Amazon Neptune, se ha creado un poderoso paradigma de búsqueda que permite realizar preguntas en lenguaje natural para integrar búsquedas a través de documentos almacenados en Amazon Simple Storage Service (Amazon S3), tablas de data lake hospedadas en el catálogo de datos de AWS Glue, y activos empresariales en Amazon DataZone.
La solución no solo utiliza modelos base en Amazon Bedrock para generar texto y realizar tareas lingüísticas, sino que los combina con grafos de conocimiento para proporcionar razonamiento estructurado y habilidades de inferencia. Este enfoque híbrido permite a los modelos mantener su capacidad inductiva mientras vinculan su comprensión del lenguaje con conocimientos de dominio bien estructurados y razonamiento lógico.
La solución se integra con los catálogos de datos y repositorios existentes dentro de las organizaciones, creando una capa semántica unificada y escalable a través de todo el paisaje de datos. Esto no solo mejora la disponibilidad de los datos a nivel empresarial, sino que también hace que la búsqueda dentro de la compañía sea tan accesible y sencilla como utilizar un motor de búsqueda para consumidores, pero con la profundidad y especificidad que demandan los negocios.
El nuevo sistema facilita el acceso a una aplicación donde los usuarios pueden ingresar consultas en lenguaje natural, permitiéndoles descubrir activos de datos con un entendimiento semántico que mejora significativamente la toma de decisiones, la eficiencia, y la innovación organizacional. Esta solución promete desbloquear el potencial completo de los activos de datos empresariales, al mismo tiempo que amplía las posibilidades de descubrimiento de datos e insights, llevando a nuevas alturas la capacidad de generar innovaciones a partir de los recursos existentes en las empresas.
vía: AWS machine learning blog