Recientemente, las empresas enfrentan el desafío de gestionar conjuntos de datos complejos que abarcan múltiples dominios, como finanzas, recursos humanos y seguridad. Estos datos suelen estar almacenados en diversas plataformas y requieren conocimientos específicos para su recuperación efectiva. Con el avance de la inteligencia artificial generativa, se ha desarrollado una tecnología de conversión de lenguaje natural a SQL (NL2SQL) que busca simplificar el acceso a estas bases de datos. Sin embargo, tras un análisis más profundo, se ha revelado que la conversión precisa de consultas en lenguaje natural a SQL complejo sigue siendo un reto considerable.
Esta dificultad proviene en gran medida de esquemas de bases de datos que están optimizados para el almacenamiento en lugar de la recuperación, lo que implica que las consultas suelen ser complejas y pueden involucrar estructuras anidadas y datos multidimensionales. Para abordar estos problemas, equipos de AWS y Cisco han diseñado un enfoque que reduce el procesamiento necesario para generar SQL, lo cual permite el uso de modelos generativos más simples y económicos, mejorando la facilidad de acceso a datos empresariales.
Los desafíos específicos de NL2SQL a nivel empresarial incluyen la complejidad de los esquemas de bases de datos, la diversidad de consultas en lenguaje natural y las limitaciones en el conocimiento de los modelos de lenguaje. Además, la atención requerida por estos modelos puede aumentar el tiempo de latencia en la generación de consultas, lo que agrava el problema de inexactitud en los resultados.
La metodología propuesta por los equipos de AWS y Cisco se centra en restringir el enfoque a dominios de datos específicos, lo que simplifica la construcción de prompts para los modelos generativos. Con este enfoque, se busca optimizar el uso de recursos de la base de datos al identificar correctamente las entidades mencionadas en las consultas de los usuarios y convertirlas en identificadores únicos. Así, se facilita la generación de despliegues SQL más precisos y menos complejos.
A través de pruebas realizadas con este enfoque, se ha comprobado que se pueden lograr altos niveles de precisión y consistencia en la generación de SQL, así como una mejor escalabilidad. Esto representa un avance significativo en la capacidad de las empresas para manejar y recuperar datos valiosos de manera eficiente. En conclusión, el desarrollo de esta metodología podría transformar la forma en que las organizaciones acceden a sus datos, haciéndolo más seguro y eficaz.
vía: AWS machine learning blog