En el vertiginoso mundo de la Fórmula 1, donde cada segundo cuenta, la eficiencia operativa es clave para el éxito. Los ingenieros de TI de F1 enfrentan desafíos críticos durante las carreras, como la degradación de redes que puede afectar uno de sus API. Esto, a su vez, impacta en servicios secundarios, como F1 TV, que proporciona cobertura en vivo y bajo demanda de cada carrera y telemetría en tiempo real. Identificar la causa raíz de estos problemas y prevenir su repetición requiere un esfuerzo considerable, pues el proceso puede demorarse hasta tres semanas debido a la programación de los eventos y congelaciones de cambios, lo que implica una investigación exhaustiva entre distintos equipos.
Lee Wright, jefe de Operaciones de TI de F1, destacó que anteriormente enfrentaban problemas recurrentes con su sistema de API web, el cual era lento e inconsistente, consumiendo alrededor de 15 días completos de trabajo de ingenieros para resolver estas inconsistencias. En respuesta a estos retos, F1 se unió a Amazon Web Services (AWS) para desarrollar una solución impulsada por inteligencia artificial, utilizando Amazon Bedrock. Esta colaboración buscaba crear un asistente de análisis de causa raíz (RCA) que permita a los ingenieros de operaciones, desarrolladores de software y redes resolver problemas de manera rápida y eficiente.
El asistente RCA permite a los usuarios formular preguntas en lenguaje natural mientras realiza las tareas de solución de problemas en segundo plano. Este sistema puede conectarse a diversas bases de datos y herramientas, facilitando la verificación del estado de salud del sistema en tiempo real sin necesidad de un conocimiento específico del dominio, lo que empodera a ingenieros con diferentes niveles de experiencia para manejar problemas con mayor efectividad.
Con esta herramienta, el equipo ha podido reducir el tiempo necesario para identificar y resolver los problemas a solo tres días, incluidos los despliegues y pruebas. Además, la solución ha logrado disminuir el tiempo total de resolución en hasta un 86%, permitiendo que los equipos se concentren en tareas prioritarias, como el desarrollo de nuevos productos para mejorar la experiencia de los espectadores.
F1 y el equipo de AWS llevaron a cabo un prototipo de cinco semanas que demostró la viabilidad de este proceso automatizado. Para ello, se centralizaron los registros crudos de datos en un bucket de Amazon S3 y se desarrollaron pipelines de transformación de datos (ETL) utilizando AWS Glue y Apache Spark, facilitando así la integración de datos de diversas fuentes.
La implementación de este sistema también se centró en garantizar la seguridad de los datos, manteniendo control sobre la información utilizada y aplicando políticas de seguridad que limitan el acceso a sistemas y datos de acuerdo con el principio de menor privilegio.
La interfaz de usuario del asistente de chat fue creada utilizando el marco de trabajo Streamlit, permitiendo a los usuarios interactuar de forma intuitiva y eficaz con el sistema. Con esta nueva herramienta, los ingenieros pueden consultar rápidamente registros de sistema y conectividad en un ambiente en vivo, facilitando una respuesta rápida a problemas críticos.
En conclusión, la colaboración entre F1 y AWS ha permitido el desarrollo de un asistente de análisis de causa raíz que no solo mejora la eficiencia operativa, sino que también ofrece un enfoque innovador para resolver problemas recurrentes durante las carreras, transformando el modo en que se gestionan las operaciones en el deporte automovilístico.
vía: AWS machine learning blog