Implementación De Recuperación Ante Desastres Entre Regiones Para Amazon SageMaker Usando Instancias Personalizadas De Amazon EFS

0
45
Implement Amazon SageMaker domain cross-Region disaster recovery using custom Amazon EFS instances

Amazon SageMaker, la plataforma de aprendizaje automático en la nube de Amazon Web Services (AWS), ha lanzado una serie de actualizaciones significativas para 2023. Estas novedades buscan optimizar las capacidades colaborativas y de recuperación ante desastres de su servicio, apuntando a un mejor manejo y respaldo de los datos críticos en proyectos de machine learning (ML).

Dentro de estas actualizaciones está el lanzamiento de SageMaker Studio, que presenta nuevas aplicaciones como JupyterLab y Code Editor. A diferencia de la versión clásica de SageMaker Studio, ahora cada aplicación cuenta con su propio volumen de almacenamiento Amazon Elastic Block Store (EBS), permitiendo una gestión más flexible y eficiente. Además, se introdujo la opción de integrar instancias personalizadas del Amazon Elastic File System (EFS), lo que facilita el manejo de archivos y recursos en ambientes personalizados.

Para aquellos que utilizan SageMaker para tareas críticas, la plataforma ha fortalecido sus estrategias de recuperación ante desastres. Utilizando la capacidad de replicación entre regiones de Amazon EFS, SageMaker ahora puede asegurar una continuidad operacional sin interrupciones, incluso en casos de caídas regionales. Este enfoque es esencial para garantizar que los datos y los perfiles de usuario de los dominios SageMaker se mantengan seguros y accesibles, sin comprometer el flujo de trabajo de los ingenieros de datos y científicos.

El nuevo sistema de recuperación redundante se basa en dos modos de operación: activo-pasivo y activo-activo. En el primero, la infraestructura se establece sólo en la región principal, replicando datos casi en tiempo real hacia una región secundaria que sólo se activa cuando la primera falla. En el modo activo-activo, el sistema está operativo en múltiples regiones simultáneamente, con sincronización de datos mediante AWS Step Functions, que puede invocarse bajo demanda, programarse, o desencadenarse por eventos.

Para implementar esta solución, SageMaker usa un conjunto de herramientas de AWS, incluyendo Amazon EFS para respaldo, AWS Step Functions para automatizar los procesos de recuperación, y el AWS Cloud Development Kit (CDK) para configurar la infraestructura necesaria. Este enfoque asegura que todas las instancias y perfiles de usuario sean replicados y restaurados con precisión en caso de una interrupción involuntaria.

La experiencia mejorada de SageMaker promete reforzar la seguridad y accesibilidad de los datos, permitiendo una recuperación fluida y rápida. Este desarrollo es especialmente valioso para empresas que dependen de una disponibilidad continua de sus aplicaciones de inteligencia artificial y machine learning, ofreciendo una solución robusta frente a desastres naturales y fallos técnicos. La inversión en estrategias de continuidad de negocio de Amazon reafirma su compromiso por brindar un entorno seguro y confiable para la innovación tecnológica basada en datos.
vía: AWS machine learning blog