Predicción del Tráfico en la Red Backbone de AWS para Mitigar Riesgos usando GraphStorm

0
46
Mitigating risk: AWS backbone network traffic prediction using GraphStorm

AWS sigue innovando en la gestión de su red global, la columna vertebral que permite la entrega segura y confiable de servicios a través de sus regiones. Conectando 34 regiones lanzadas y más de 600 puntos de presencia de Amazon CloudFront, así como 41 Zonas Locales y 29 Zonas de Longitud de Onda, esta red proporciona conectividad de alto rendimiento y latencia ultrabaja en 245 países y territorios.

Sin embargo, la administración de esta red requiere un trabajo constante de planificación, mantenimiento y operaciones en tiempo real. A pesar de que la mayoría de los cambios se realizan sin inconvenientes, la naturaleza dinámica y la escala global del sistema pueden dar lugar a impactos imprevistos en el rendimiento y la disponibilidad. Las complejas interdependencias entre los componentes de la red complican la predicción de estos efectos, lo que requiere estrategias avanzadas de evaluación de riesgos y mitigación.

Un aspecto clave del desafío en la gestión de redes complejas es la incapacidad de prever cómo los cambios en una parte de la red global de AWS pueden afectar los patrones de tráfico y el rendimiento en el sistema completo. Preguntas cruciales surgen en este contexto, entre las que se encuentran: ¿puede la red manejar el tráfico de los clientes con la capacidad restante? ¿Cuánto tiempo pasará antes de que se presente la congestión? ¿Dónde es más probable que ocurran estos problemas? Y, ¿qué cantidad de tráfico corre el riesgo de ser descartada?

El equipo de AWS trabaja de manera incansable para mejorar sus mecanismos de seguridad y los procesos de evaluación de riesgos. Llevan a cabo un riguroso proceso de planificación para diseñar y construir la red, manteniendo resiliencia bajo varios escenarios mediante simulaciones y pruebas exhaustivas de cada cambio, sin importar cuán pequeño sea.

No obstante, a la escala y complejidad de la red backbone de AWS, los enfoques basados en simulaciones enfrentan retos en operaciones en tiempo real, incluido el alto costo y el tiempo de computación prolongado. Para complementar las simulaciones, AWS está invirtiendo en estrategias basadas en datos que pueden escalar al tamaño de la red sin un aumento proporcional en el tiempo de cálculo.

Recientemente, se han obtenido resultados prometedores al aplicar el marco de aprendizaje automático de gráficos GraphStorm para abordar problemas de predicción sobre redes complejas. Los métodos de aprendizaje automático de gráficos han demostrado un rendimiento superior en tareas relacionadas con el tráfico, como el enrutamiento y la distribución de carga, gracias a su capacidad para captar la información estructural oculta en la topología de la red.

En el ámbito de la predicción de tráfico, los modelos de redes neuronales de gráficos se han utilizado para crear un entorno que permite predecir patrones de tráfico y mitigar riesgos de congestión. En una prueba realizada con 85 segmentos de la red backbone durante un período de dos semanas, el modelo logró una precisión notable al predecir el tráfico con un margen de error del 13% en el percentil 90. Este enfoque no solo mejora la seguridad operativa, sino que también optimiza las operaciones diarias.

Con el fin de mejorar continuamente la seguridad operativa de su red, AWS ha desarrollado una arquitectura de sistemas que integra GraphStorm con varios servicios de AWS, lo que permite una formación de modelos escalable y eficiente. Este sistema está diseñado para permitir una formación continua del modelo, una rápida inferencia y una integración fluida con los flujos de trabajo existentes, garantizando así una mejor gestión de la red ante las dinámicas cambiantes del tráfico global.

Con estos avances, AWS se esfuerza por mantener un equilibrio entre la satisfacción de las necesidades de sus clientes y la operatividad segura de su infraestructura, anunciando que continuará comunicando sus progresos en la implementación de esta solución.
vía: AWS machine learning blog