Inicio Tecnología Innovación Tecnológica Clockwork.io Lanza una Innovadora Clase de Tolerancia a Fallos para Reducir el Desperdicio de GPU

Clockwork.io Lanza una Innovadora Clase de Tolerancia a Fallos para Reducir el Desperdicio de GPU

0
Clockwork.io Lanza una Innovadora Clase de Tolerancia a Fallos para Reducir el Desperdicio de GPU

Clockwork.io ha anunciado el lanzamiento de TorchPass Workload Fault Tolerance, una innovadora solución que busca revolucionar la forma en que se gestionan los fallos en la infraestructura de inteligencia artificial (IA). Esta nueva tecnología se presenta como una respuesta a uno de los problemas más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos causados por fallos de hardware.

A medida que las empresas continúan invirtiendo miles de millones en nuevos chips de IA, los costos asociados con la ejecución de trabajos de IA distribuidos se mantienen elevados debido a la constante posibilidad de fallos. Según Suresh Vasudevan, CEO de Clockwork.io, este panorama ha sido tradicionalmente aceptado en el ecosistema. Con TorchPass, la compañía busca cambiar esta narrativa al permitir que las cargas de trabajo de IA se ejecuten de manera continua, incluso en caso de interrupciones de GPU, fallos de red y otros problemas técnicos, sin la necesidad de reiniciar el sistema desde los puntos de verificación.

TorchPass se integra como una funcionalidad fundamental de la plataforma FleetIQ de Clockwork.io y utiliza la migración en vivo de GPU para garantizar que el entrenamiento de IA no se detenga por problemas en la infraestructura. Este enfoque, que elimina las interrupciones y mejora la utilización de los clústeres de GPU, promete generar ahorros significativos. En un despliegue típico de 2.048 GPU, por ejemplo, se estima que se pueden recuperar más de 6 millones de dólares anualmente en capacidad de cómputo.

Dylan Patel, CEO de SemiAnalysis, también respalda la importancia de TorchPass, señalando que los proyectos de grandes volúmenes a menudo se ven interrumpidos por fallos. La nueva solución facilita una conmutación por error que mantiene la operación del sistema incluso durante problemas técnicos, mejorando así la eficiencia y la economía del uso de GPU.

Las investigaciones han demostrado que el entrenamiento distribuido de IA es propenso a fallos a medida que los clústeres crecen. Por ejemplo, el tiempo medio hasta el fallo en un clúster de 1.024 GPU es de solo 7,9 horas, lo que refleja la fragilidad de estos sistemas. Cada vez que se produce un fallo, las tareas de entrenamiento deben retroceder al último punto guardado, resultando en la pérdida de tiempo y recursos valiosos.

En este contexto, TorchPass se convierte en una herramienta esencial para empresas que requieren un funcionamiento fiable en sus cargas de trabajo de IA. José Power, CTO de Nscale, enfatiza que la capacidad de gestionar fallos sin detener el entrenamiento es vital para ofrecer una infraestructura de cómputo fiable y rentable.

Con este lanzamiento, Clockwork.io no solo aspira a mejorar la eficiencia operativa, sino que también busca habilitar la próxima generación de infraestructura de IA. TorchPass transforma la fiabilidad en una capacidad definida por software, lo que permite desplegar sistemas más avanzados y densos sin el temor de que pequeños fallos ocasionen grandes interrupciones.

Para más detalles, el equipo de Clockwork.io estará presente en el evento NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205.