El mercado de procesamiento inteligente de documentos (IDP) está experimentando un notable crecimiento, proyectándose que su valor pase de $1,285 millones en 2022 a $7,874 millones para 2028. Este aumento refleja una demanda creciente de extracción de contenido multilingüe y generación de insights a partir de documentos no estructurados, como imágenes, formularios y recibos. Las empresas multinacionales, que suelen recibir documentos en idiomas como árabe, chino, ruso o hindi, enfrentan el desafío de procesar esta variedad lingüística, que muchas veces no está cubierta por el software de extracción documental existente.
Para enfrentar estas limitaciones de idioma, los modelos Claude de Anthropic, desplegados en Amazon Bedrock, ofrecen una solución robusta. Gracias a estos modelos de lenguaje a gran escala, entrenados en una vasta cantidad de datos de diversas fuentes y lenguas, es posible comprender y generar texto similar al humano en múltiples idiomas. Sin embargo, manejar documentos complejos y sensibles requiere precisión, consistencia y cumplimiento, lo que a menudo demanda supervisión humana. Amazon Augmented AI (A2I) facilita la creación de flujos de trabajo para revisión humana, gestionando el trabajo pesado asociado con el desarrollo de estos sistemas o la supervisión de una amplia fuerza de trabajo revisora.
La combinación de Amazon A2I y los modelos Claude de Anthropic en Amazon Bedrock permite construir una tubería robusta de procesamiento de documentos multilingües, mejorando la precisión y calidad de la información extraída. Este enfoque se articula a través de una visión general de solución que incorpora modelado de inteligencia artificial generativa, orquestación serverless gestionada por Amazon Step Functions e inteligencia humana aumentada por Amazon A2I. Los pasos clave del marco incluyen el almacenamiento de documentos en diferentes idiomas, la invocación de un flujo de procesamiento para extraer datos conforme a un esquema dado, la validación de la información por revisores humanos, y la conversión del contenido validado a un formato Excel almacenado para su uso posterior.
Este marco puede expandirse para analizar el contenido en una base de conocimiento, indexar la información extraída y crear una herramienta de descubrimiento de conocimiento que permita a los usuarios consultar información y extraer insights relevantes. Durante el proceso, se utilizan modelos de lenguaje multimodal integrados para extraer datos de documentos multilingües. La arquitectura emplea el marco Rhubarb de Python, que facilita tareas de comprensión de documentos mediante modelos de lenguaje multimodal de Amazon Bedrock.
A medida que las empresas buscan maximizar el valor de sus datos en un entorno globalizado, estas soluciones avanzadas proporcionan una ventaja competitiva al mejorar la capacidad para manejar documentos en diversos idiomas y asegurar que los insights extraídos sean válidos y útiles, generando así un impacto significativo en la eficiencia operacional y en la toma de decisiones.
vía: AWS machine learning blog