La contaminación del aire se ha convertido en una de las crisis de salud ambiental más apremiantes en África, provocando una amplia gama de enfermedades a lo largo del continente. A pesar de los esfuerzos de organizaciones como sensors.AFRICA, que han desplegado cientos de sensores de calidad del aire para mitigar este desafío, se enfrentan a un importante problema de datos: las mediciones de PM2.5 (material particulado con un diámetro menor o igual a 2.5 micrómetros) presentan lagunas significativas debido a la inestabilidad del suministro eléctrico y problemas de conectividad en regiones de alto riesgo donde el mantenimiento físico es limitado.
Estas ausencias en los conjuntos de datos de PM2.5 reducen el poder estadístico e introducen sesgos en las estimaciones de parámetros, lo que lleva a la detección de tendencias poco fiables y conclusiones erróneas sobre los patrones de calidad del aire. Además, estas lagunas comprometen la toma de decisiones basada en evidencias para controlar la contaminación, evaluar su impacto en la salud y garantizar el cumplimiento normativo.
Para abordar esta problemática, se ha demostrado la capacidad de pronóstico de series temporales de Amazon SageMaker Canvas, una plataforma de aprendizaje automático de bajo y sin código (LCNC). Esta herramienta permite predecir los niveles de PM2.5 a partir de conjuntos de datos incompletos, lo que resulta esencial dado que la exposición a PM2.5 es responsable de millones de muertes prematuras a nivel global debido a enfermedades cardiovasculares y respiratorias.
La ventaja clave de SageMaker Canvas radica en su capacidad para manejar datos incompletos de manera robusta. A diferencia de los sistemas tradicionales de monitoreo de calidad del aire, que requieren conjuntos de datos completos para funcionar adecuadamente, SageMaker Canvas puede generar predicciones fiables incluso cuando los datos de los sensores presentan huecos. Esta resiliencia permite la operación continua de las redes de monitoreo de calidad del aire, evitando el costoso tiempo de inactividad y las lagunas de datos. Así, las agencias medioambientales y los funcionarios de salud pública disponen de acceso ininterrumpido a información crítica sobre la calidad del aire, lo que facilita alertas sobre contaminación y análisis a largo plazo más completo de las tendencias de calidad del aire.
La solución de imputación de datos propuesta, que utiliza Amazon SageMaker AI, AWS Lambda y AWS Step Functions, está dirigida a analistas medioambientales y funcionarios de salud pública que requieren datos confiables de PM2.5 para el análisis de tendencias y la toma de decisiones. La solución se basa en un conjunto de datos de entrenamiento que contiene más de 15 millones de registros de marzo a octubre de 2022 en diversas áreas de Kenia y Nigeria, recopilados a partir de 23 dispositivos de sensores en 15 ubicaciones únicas.
Esta metodología no solo se enfoca en el análisis actual de los datos, sino que también incluye un enfoque sistemático para la identificación y llenado de brechas de datos causadas por limitaciones en los sensores y problemas de conectividad. Este esfuerzo es crucial para mejorar la respuesta ante desafíos emergentes sobre la calidad del aire y para informar decisiones oportunas en el ámbito de salud pública.
vía: AWS machine learning blog