Desarrolla una Plataforma de Procesamiento de Documentos Potenciada por IA con un Modelo NER de Código Abierto y LLM en Amazon SageMaker

0
18
Build an AI-powered document processing platform with open source NER model and LLM on Amazon SageMaker

Un laboratorio nacional en Estados Unidos ha tomado una iniciativa innovadora para resolver los problemas de accesibilidad y localización de documentos en sus archivos históricos. A pesar de que estas instituciones albergan un océano de conocimiento, gran parte de la información permanece oculta debido a la escasez de metadatos y el etiquetado inconsistente de documentos. Los métodos de búsqueda tradicionales, basados en palabras clave, a menudo resultan ineficaces, obligando a realizar exhaustivas revisiones manuales para extraer información valiosa.

Para superar estas dificultades, el laboratorio han implementado una plataforma de procesamiento de documentos impulsada por inteligencia artificial, que combina reconocimiento de entidades nombradas (NER, por sus siglas en inglés) y modelos de lenguaje de gran escala en Amazon SageMaker. Esta solución moderniza el acceso a registros archivados mediante la automatización del enriquecimiento de metadatos, la clasificación de documentos y la generación de resúmenes. Utilizando el modelo Mixtral-8x7B para la generación de resúmenes y títulos, así como un modelo NER basado en BERT para la extracción de metadatos estructurados, el sistema mejora notablemente la organización y recuperación de documentos escaneados.

La plataforma se ha diseñado con una arquitectura sin servidor y optimizada en costos, proveyendo endpoints de SageMaker de manera dinámica, lo que proporciona una utilización eficiente de los recursos y mantiene la escalabilidad. La integración de tecnologías modernas de procesamiento de lenguaje natural (NLP) y modelos de lenguaje de gran escala (LLM) mejora la precisión de los metadatos, lo que permite una búsqueda más precisa y una gestión documental más eficiente. Este enfoque no solo apoya la transformación digital, sino que garantiza que los datos archivados se utilicen eficazmente para investigaciones, desarrollo de políticas y retención del conocimiento institucional.

La solución, denominada NER & LLM Gen AI Application, combina los beneficios del NER y los LLM para automatizar el análisis de documentos a gran escala. Para ello, emplea un enfoque modular con componentes distintos que manejan diferentes aspectos del procesamiento de documentos, desde resúmenes extractivos hasta extracción de autores. El sistema se activa cuando se detectan documentos en el bucket de extracciones, evitando operaciones redundantes al orquestar la creación necesaria de endpoints de modelo y procesar documentos en lotes para asegurar la eficiencia.

Además de su rendimiento, esta innovadora solución también se destaca por su capacidad de procesar 100,000 documentos en un período de 12 horas, lo que subraya su efectividad en términos de costo y rendimiento. Con la implementación de resúmenes extractivos como primer paso, se logra reducir la carga de trabajo en un 75-90%, lo que se traduce en un procesamiento más rápido y un menor costo operativo. Esta plataforma emerge como una respuesta robusta a las crecientes demandas de procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.
vía: AWS machine learning blog