Modernización de la Prevención del Fraude: GraphStorm v0.5 para Inferencia en Tiempo Real

0
62
Modernize fraud prevention: GraphStorm v0.5 for real-time inference

El fraude sigue causando importantes daños financieros a nivel mundial. En Estados Unidos, los consumidores perdieron 12,5 mil millones de dólares en 2024, lo que representa un aumento del 25% en comparación con el año anterior, según la Comisión Federal de Comercio. Este incremento no se debe a un aumento en la frecuencia de los ataques, sino a la creciente sofisticación de los estafadores. A medida que las actividades fraudulentas se vuelven más complejas e interconectadas, los enfoques tradicionales de aprendizaje automático se quedan cortos, ya que analizan transacciones de forma aislada y no logran capturar las redes de actividades coordinadas que caracterizan los esquemas de fraude modernos.

Las redes neuronales gráficas (GNN) abordan efectivamente este desafío al modelar las relaciones entre entidades, como usuarios que comparten dispositivos, ubicaciones o métodos de pago. Al analizar tanto las estructuras de red como los atributos de las entidades, las GNN son eficaces para identificar esquemas de fraude sofisticados donde los perpetradores ocultan actividades sospechosas individuales pero dejan huellas en sus redes de relaciones. Sin embargo, la implementación de la prevención de fraude en línea basada en GNN presenta desafíos únicos, como lograr respuestas de inferencia en menos de un segundo, escalar a miles de millones de nodos y aristas, y mantener una eficiencia operativa para las actualizaciones de modelo.

GraphStorm ha sido diseñado para superar estos desafíos, especialmente con las nuevas capacidades de inferencia en tiempo real de su versión 0.5. Soluciones anteriores requerían hacer compromisos entre capacidad y simplicidad. La aproximación inicial de Deep Graph Library (DGL) ofrecía capacidades de tiempo real completas, pero requería una orquestación de servicios compleja. Las implementaciones en memoria de DGL reducían la complejidad, pero encontraban limitaciones de escalabilidad con volúmenes de datos empresariales.

GraphStorm, al introducir el entrenamiento distribuido y APIs de alto nivel, simplifica el desarrollo de GNN a gran escala. Esto se ha ilustrado recientemente con un modelo de entrenamiento a escala empresarial y capacidades de inferencia offline. No obstante, la prevención adecuada de pérdidas financieras requiere la detección de fraude antes de que ocurra. GraphStorm v0.5 lo permite mediante soporte nativo para la inferencia en tiempo real a través de Amazon SageMaker AI.

Esta solución propuesta consiste en un proceso de cuatro pasos que comienza con la exportación del gráfico de transacciones desde una base de datos OLTP hacia un almacenamiento escalable y continúa con el entrenamiento del modelo, la simplificación del proceso de despliegue y la integración de aplicaciones de cliente para procesar flujos de transacciones en vivo. Esta metodología muestra cómo un científico de datos puede transitar un modelo GNN entrenado hacia puntos de inferencia listos para producción con mínima sobrecarga operativa.

El uso de conjuntos de datos como el de IEEE-CIS, que contiene 500,000 transacciones anonimizadas, permite que las GNN detecten patrones de fraude a través de la relación de entidades. A medida que las organizaciones buscan enfrentar amenazas de fraude, la implementación de modelos basados en GNN puede ser adaptada para crear soluciones propias, simplificando así el camino hacia una prevención más eficaz contra el fraude.
vía: AWS machine learning blog