Las empresas del sector financiero, al igual que otros sectores altamente regulados, enfrentan desafíos significativos en la gestión de seguridad y cumplimiento normativo. Una de las herramientas más utilizadas en la protección de la infraestructura tecnológica crítica es el sistema de Gestión de Accesos Privilegiados (PAM, por sus siglas en inglés). Estos sistemas no solo aseguran, sino que también gestionan y monitorean el uso de accesos privilegiados por parte de los administradores de sistemas, lo cual es fundamental para satisfacer las exigencias de auditoría que imponen las regulaciones de seguridad.
Dentro de las funcionalidades de los sistemas PAM, el registro de pulsaciones de teclas y las grabaciones de vídeo de las sesiones de consola de los servidores se destacan como herramientas esenciales para cumplir con las normativas. Sin embargo, la captura de pulsaciones no siempre es viable, especialmente en sistemas operativos como Windows que operan mayoritariamente a través de interfaces gráficas. Esto limita a los equipos de seguridad a revisar actividades solo a través de las grabaciones de vídeo, un proceso que se vuelve inmanejable dado que una organización financiera típica puede generar más de 100,000 horas de grabaciones cada mes.
De esta cantidad, si solamente el 30% proviene de servidores Windows, se necesitarían aproximadamente 1,000 empleados trabajando a jornada completa solo para revisar estas grabaciones, lo que plantea un serio obstáculo para la detección de anomalías de seguridad o actividades maliciosas. Esta situación ha llevado a los equipos de seguridad a realizar controles aleatorios, comprometiendo su capacidad para identificar infracciones de seguridad en tiempo real.
La llegada de servicios de inteligencia artificial (IA) ha cambiado el panorama, revolucionando cómo se procesan, analizan y extraen insights de los contenidos de vídeo. Las técnicas avanzadas de aprendizaje automático y visión por computadora pueden permitir funciones como la detección de objetos, el reconocimiento de actividades, y el reconocimiento de texto y audio. En este contexto, el uso de modelos de lenguaje de gran tamaño, como Claude 3 de Anthropic, ha permitido a los equipos de seguridad transformar las grabaciones en transcripciones que pueden ser analizadas para detectar anomalías.
La solución propuesta implica un flujo de trabajo en dos etapas: la transcripción de los vídeos y el análisis de seguridad de esas transcripciones. En la primera etapa, se extraen imágenes estáticas de cada segundo de grabación, ya que los modelos actuales tienen dificultades para procesar datos visuales secuenciales de manera eficiente. Una vez transcritas, las transcripciones se utilizan en la segunda etapa para realizar análisis de seguridad, como comprobar el cumplimiento de las solicitudes de cambio y detectar posibles riesgos de acceso a datos sensibles o elevación de privilegios.
La implementación de este enfoque, utilizando tecnologías como Amazon Bedrock y Claude 3, no solo optimiza la gestión de las grabaciones, sino que también permite a los equipos de seguridad mejorar su postura general frente a las amenazas. Con un sistema que permite analizar grandes volúmenes de datos visuales de manera eficiente, las organizaciones pueden responder más rápidamente a los incidentes de seguridad y asegurar el cumplimiento normativo de sus operaciones.
Este innovador enfoque puede servir como base para que otros sectores imiten estrategias similares, adaptando la tecnología a sus necesidades específicas y optimizando sus procesos de seguridad.
vía: AWS machine learning blog