Mejoras en la Extracción de Información Visual de Documentos Bancarios con Modelos Multimodales y LLaMA-Factory en Amazon SageMaker HyperPod

0
7
How Apoidea Group enhances visual information extraction from banking documents with multimodal models using LLaMA-Factory on Amazon SageMaker HyperPod

La industria bancaria enfrenta importantes retos derivados de la ineficiencia en procesos repetitivos que afectan operaciones críticas como la extracción de información, revisión de documentos y auditorías. Estas tareas requieren una considerable cantidad de recursos humanos, lastrando procedimientos esenciales como las normativas de Conozca a Su Cliente (KYC), las solicitudes de préstamos y el análisis de crédito. Como consecuencia, las instituciones financieras luchan con limitaciones operativas, entre ellas escasa escalabilidad, lentitud en los tiempos de procesamiento y elevados costos relacionados con la formación y rotación del personal.

Con el fin de abordar estos problemas, la implementación de sistemas avanzados de extracción de información es vital. Estos sistemas permiten obtener rápidamente datos de documentos financieros, incluidas las declaraciones bancarias, formularios KYC y aplicaciones de préstamos, lo que reduce tanto los errores manuales como los tiempos de procesamiento. La tecnología de extracción de información resulta esencial para acelerar la incorporación de clientes, mantener el cumplimiento normativo y promover la transformación digital del sector bancario, especialmente en tareas de procesamiento de documentos de alto volumen.

La complejidad de los documentos que debe procesar un banco exige soluciones especializadas que garanticen alta precisión mientras se gestionan datos financieros sensibles. Aquí es donde entra en juego Apoidea Group, un proveedor de software independiente (ISV) centrado en la inteligencia artificial con sede en Hong Kong. Mediante el uso de tecnologías de inteligencia artificial generativa y de aprendizaje profundo, Apoidea ha desarrollado innovadoras soluciones impulsadas por IA que responden a las necesidades específicas de los bancos multinacionales. Su producto principal, SuperAcc, es un servicio sofisticado de procesamiento de documentos que incluye un conjunto de modelos de comprensión de documentos patentados, capaces de gestionar una variedad de tipos de documentos.

SuperAcc ha demostrado mejoras significativas en el sector bancario. Por ejemplo, el proceso de expansión financiera, que anteriormente requería de 4 a 6 horas, ahora se completa en solo 10 minutos, y el personal solo necesita 30 minutos para revisar los resultados. De manera similar, en el sector de banca de pequeñas y medianas empresas, la revisión de múltiples estados de cuenta bancarios de seis meses se ha reducido a solo 10 minutos. Esta notable reducción en el tiempo de procesamiento no solo acelera los flujos de trabajo, sino que también minimiza el riesgo de errores manuales.

A pesar de la efectividad de tecnologías como SuperAcc, la transformación digital en la banca enfrenta obstáculos en términos de seguridad y cumplimiento regulatorio. Las instituciones financieras exigen niveles de seguridad propios del sector bancario, lo que implica cumplir estándares como ISO 9001 e ISO 27001. La integración con sistemas bancarios heredados también complica la adopción, debido a que muchas de estas infraestructuras son obsoletas en comparación con los rápidamente cambiantes paisajes tecnológicos.

Para mejorar aún más las capacidades de soluciones especializadas de extracción de información, es esencial contar con infraestructura avanzada de aprendizaje automático. Amazon SageMaker HyperPod ofrece un entorno eficaz para ejecutar cargas de trabajo de ML y desarrollar modelos de última tecnología. SageMaker HyperPod acelera el desarrollo de modelos fundamentales al eliminar el pesado trabajo no diferenciador implicado en la construcción y mantenimiento de clústeres computacionales de gran escala.

Los avances recientes en modelos multimodales han demostrado una capacidad notable para procesar información visual y textual compleja. Estos modelos representan un cambio de paradigma en la comprensión de documentos, integrando el procesamiento robusto de texto con una comprensión visual avanzada. Esta integración permite un enfoque transformador en el análisis de documentos, mejorando significativamente la precisión al reducir la propagación de errores y mantener la eficiencia computacional.

Con base en este progreso, se ha llevado a cabo una colaboración para explorar el uso de modelos de lenguaje visual de gran tamaño en combinación con las capacidades de SageMaker HyperPod. A través de una serie de experimentos, se ha demostrado que estos modelos pueden mejorar notablemente el reconocimiento de estructuras tabulares en documentos financieros.

La adaptación de modelos de lenguaje y visión para tareas específicas de comprensión documental ofrece ventajas significativas. La capacidad de estos modelos para procesar tanto datos visuales como textuales los convierte en herramientas poderosas para avanzar la tecnología de comprensión de documentos en aplicaciones prácticas. Con la implementación de estas innovaciones, se puede transformar la forma en que las instituciones financieras manejan y procesan la gran cantidad de documentos necesarios en su operación diaria.
vía: AWS machine learning blog