Genomics England ha iniciado un ambicioso proyecto en colaboración con equipos de ciencia de datos y servicios profesionales de AWS para mejorar la identificación de subtipos de cáncer y la predicción de la supervivencia mediante el uso de aprendizaje automático (ML). La iniciativa busca combinar datos genómicos e imágenes histopatológicas para alcanzar una mayor precisión en los modelos.
En la primera prueba de concepto, se ha utilizado la plataforma Pathology-Omic Research Platform for Integrative Survival Estimation (PORPOISE) para analizar datos de cáncer de mama y cáncer gastrointestinal. Este modelo, a pesar de ser avanzado, mostró ciertas limitaciones al excluir los datos de expresión génica del análisis.
Para superar estas limitaciones, AWS desarrolló un nuevo modelo llamado Hierarchical Extremum Encoding (HEEC), diseñado para mejorar la precisión y la interpretabilidad. HEEC integra representaciones jerárquicas a múltiples niveles espaciales y utiliza árboles de decisión para reducir el riesgo de sobreajuste. Los resultados han demostrado que HEEC realmente mejora en precisión comparado con el mejor modelo modal individual, al combinar múltiples modalidades de datos.
En una fase posterior se implementó el modelo Hierarchical Image Pyramid Transformer (HIPT), entrenado de manera auto-supervisada, para potenciar los resultados de las fases anteriores. Los resultados preliminares indicaron una mejora significativa en la precisión de los análisis de supervivencia.
A nivel arquitectónico, las pruebas de concepto han implementado una arquitectura modular en AWS usando SageMaker, que permite separar el procesamiento de datos y el entrenamiento de modelos, con ventajas en escalabilidad y eficiencia. La arquitectura también utiliza contenedores y pipelines de CI/CD para automatizar y gestionar el despliegue de recursos de manera sostenible y segura.
La implementación de estas tecnologías dota a Genomics England de herramientas avanzadas para explorar el potencial del aprendizaje automático en la medicina de precisión, con el objetivo de mejorar las perspectivas de los pacientes con cáncer.
“En Genomics England, nuestra misión es realizar el enorme potencial de la información genómica y multimodal para avanzar en la medicina de precisión”, comentó el Dr. Prabhu Arumugam, Director de Datos Clínicos e Imágenes de Genomics England.
vía: AWS machine learning blog