En el actual entorno empresarial centrado en la nube, los datos a menudo se encuentran dispersos a través de numerosas plataformas en la nube y sistemas locales. Esta fragmentación puede complicar los esfuerzos de las organizaciones para consolidar y analizar datos para sus iniciativas de aprendizaje automático (ML). Sin embargo, una innovadora estrategia arquitectónica ofrece una solución para extraer datos de diferentes entornos en la nube, como Google Cloud Platform (GCP) BigQuery, sin necesidad de trasladar los datos, lo cual minimiza la complejidad y el gasto asociado con la transferencia de datos entre diferentes entornos en la nube.
La solución se centra en el uso de Amazon Athena Federated Query para extraer datos de GCP BigQuery, junto con Amazon SageMaker Data Wrangler para realizar la preparación de datos, y posteriormente emplear los datos preparados para construir modelos de ML dentro de Amazon SageMaker Canvas, una interfaz de ML sin código. SageMaker Canvas permite a los analistas de negocio importar datos de más de 50 fuentes, preparar dichos datos utilizando lenguaje natural y más de 300 transformaciones integradas, construir y entrenar modelos altamente precisos, generar predicciones y desplegar modelos a producción sin necesidad de conocimientos avanzados de programación o experiencia extensiva en ML.
El enfoque técnico abarca dos pasos principales: configurar Amazon Athena para realizar consultas federadas a GCP BigQuery, lo que permite ejecutar consultas en vivo en BigQuery directamente desde Athena, e importar los datos a SageMaker Canvas desde BigQuery usando Athena como intermediario.
Una vez que los datos son importados a SageMaker Canvas, se puede utilizar la interfaz sin código para construir modelos de ML y generar predicciones basadas en los datos importados. SageMaker Canvas permite establecer rutinas iniciales de preparación de datos y generar predicciones precisas sin necesidad de escribir código. No obstante, a medida que evolucionen las necesidades de ML o se requiera una mayor personalización avanzada, existe la opción de transitar de un entorno sin código a un enfoque con código, gracias a la integración entre SageMaker Canvas y Amazon SageMaker Studio, lo que permite operacionalizar la rutina de preparación de datos para implementaciones a escala de producción.
Este sistema arquitectónico demuestra cómo utilizar servicios de AWS para acceder de manera fluida a datos desde un almacén de datos GCP BigQuery e integrarlos en SageMaker Canvas para la construcción y el despliegue de modelos de ML. El flujo de trabajo abarca desde la composición de una consulta SQL dentro de SageMaker Canvas para BigQuery, a través de Athena como intermediario, hasta el uso de Amazon Secrets Manager para asegurar el almacenamiento y acceso a credenciales, asegurando así una integración segura y escalable que puede manejar grandes volúmenes de datos mediante funciones Lambda sin servidor.
Esta solución ofrece beneficios significativos tales como una integración perfecta que elimina la necesidad de movimientos adicionales de datos, acceso seguro a través de Amazon Secrets Manager, y escalabilidad mediante el uso de funciones Lambda y la capacidad de Athena para manejar grandes conjuntos de datos con eficiencia. También permite a las organizaciones empresariales utilizar el poder del análisis avanzado y el aprendizaje automático para impulsar la innovación de negocio sin necesidad de habilidades técnicas especializadas, democratizando así el acceso y uso del ML dentro de la organización.
vía: AWS machine learning blog