Integración de Amazon SageMaker Studio con un Sistema de Archivos Personalizado en Amazon EFS

0
110
Use Amazon SageMaker Studio with a custom file system in Amazon EFS

Amazon ha revolucionado el campo del aprendizaje automático con la introducción de Amazon SageMaker Studio, una novedosa plataforma web que facilita la ejecución de flujos de trabajo integrales de machine learning (ML). Esta plataforma proporciona una suite de entornos de desarrollo integrados (IDEs) que incluye JupyterLab, el Editor de Código y RStudio, permitiendo a científicos de datos e ingenieros de ML gestionar sus proyectos de manera efectiva.

Una de las características más destacadas de SageMaker Studio es la capacidad de los usuarios para crear espacios privados y compartidos, lo que facilita la gestión del almacenamiento y los recursos requeridos para las aplicaciones JupyterLab y el Editor de Código. Esto permite detener las aplicaciones cuando no están en uso, reduciendo costos, y retomarlas sin pérdida de datos al reanudarlas.

El almacenamiento dentro de SageMaker Studio se gestiona a través de Amazon Elastic Block Store (Amazon EBS) que ofrece acceso de baja latencia a los datos del usuario, tales como notebooks y entornos virtuales Python/Conda. Sin embargo, en escenarios donde es necesario un sistema de archivos distribuido, se puede integrar Amazon Elastic File System (Amazon EFS), proporcionando un sistema de archivos NFS elástico y completamente gestionado.

Amazon SageMaker ofrece la posibilidad de montar automáticamente carpetas en un volumen EFS para cada usuario dentro de un dominio, lo que facilita el intercambio de datos entre sus propios espacios privados, aunque no se permite compartir datos con otros usuarios del dominio.

Tres escenarios demuestran la versatilidad de Amazon EFS con SageMaker Studio. En el primero, se crea un sistema de archivos EFS que cada usuario puede gestionar independientemente dentro de sus espacios privados. Esto fomenta el almacenamiento y análisis de datos individuales, además de permitir un manejo centralizado por parte de los administradores, asegurando la seguridad y el acceso adecuado a los datos.

El segundo escenario permite la creación de un directorio EFS compartido por todos los usuarios de un dominio de SageMaker Studio. Esto facilita la colaboración en proyectos de gran escala donde múltiples miembros del equipo pueden acceder a los mismos archivos y recursos, simplificando así la gestión de archivos y mejorando la gobernanza y la seguridad de los datos.

Finalmente, el tercer escenario explora el uso de un sistema de archivos EFS compartido entre múltiples dominios de SageMaker Studio dentro de la misma VPC. Esta configuración permite la colaboración a nivel empresarial, optimizando la infraestructura compartida y asegurando que la gestión de datos sea escalable y esté sujeta a políticas estrictas de gobernanza.

Esta integración permite que las organizaciones aprovechen al máximo a sus equipos de ciencia de datos, mejoren la gobernanza de sus datos y aumenten la eficiencia general de sus iniciativas basadas en datos. Al implementar estas soluciones, SageMaker Studio se posiciona como una plataforma versátil y robusta para equipos de ciencia de datos, lista para enfrentar los retos dinámicos del ML y la inteligencia artificial.
vía: AWS machine learning blog