-
Decenas de miles de argentinos marcharon contra los recortes de Milei a las universidades públicas
-
Renuncia el jefe de la agencia de medicamentos y seguridad alimentaria de EEUU
-
Una corte de apelaciones de EEUU suspende la ilegalización del arancel global del 10% de Trump
-
El Barcelona estudia acciones legales tras las acusaciones del presidente del Real Madrid
-
La OPS anuncia un acuerdo con una farmacéutica para crear una reserva de vacunas contra la influenza en América Latina
-
La guerra en Irán favorece las reservas de última hora, según el grupo turístico TUI
-
El derbi Roma-Lazio se jugará el lunes para no coincidir con el tenis
-
Nissan registra fuertes pérdidas pero prevé volver a los beneficios este año
-
El Parlamento de Venezuela aprueba una reforma para aumentar los magistrados del Tribunal Supremo
-
Asesinan a una jueza en Ecuador en medio del estado de excepción por la violencia
-
La "Cúpula Dorada" de Trump podría costar 1,2 billones de dólares en 20 años, según la oficina presupuestaria
-
República Dominicana recibirá a deportados de terceros países desde EEUU
-
Lula lanza un plan contra el crimen organizado en Brasil a cinco meses de las elecciones
-
La Fiscalía se niega a suspender las órdenes de captura contra el mayor cartel narco de Colombia
-
Trump asegura que "todos" los prisioneros políticos venezolanos serán liberados
-
Fallece a los 101 años un reconocido sobreviviente de Auschwitz
-
Una francesa contagiada con hantavirus sigue en estado grave
-
Capturan a un exalcalde por el asesinato del ambientalista hondureño Juan López
-
El principal candidato derechista de Colombia dice que atacará aviones y barcos cargados de droga
-
"Yo postulé para ser papa": cómo usar ChatGPT y perder el contacto con la realidad
-
México espera aún una respuesta de EEUU sobre las pruebas contra el gobernador acusado de narco
-
México abre "otros horizontes" comerciales con el acuerdo con la UE, dice Sheinbaum
-
El Hamburgo nombra a Kathleen Krüger como su primera directora deportiva
-
"El cambio climático es sexista", advierten oenegés
-
Presentan la candidatura de la ecuatoriana Fernanda Espinosa para secretaria de la ONU
-
La inflación en Brasil cede en abril pese a la presión por la guerra en Oriente Medio
-
Los récords a batir en el Mundial de Norteamérica de 2026
-
La princesa Catalina viaja a Italia, en su primera visita oficial al extranjero desde su cáncer
-
Agnete Kirk Kristiansen, nombrada presidenta de la Fundación LEGO
-
Finlandia e Israel, entre los clasificados a la semifinal de Eurovisión
-
Con un nuevo nombre chino, Rubio viaja a Pekín a pesar de las sanciones en su contra
-
Trump se dirige a China para ver a Xi, con Irán como telón de fondo
-
Director de OpenAI dice en juicio que Musk "quería el 90%" de la empresa
-
Alcalde de Nueva York da marcha atrás en su promesa de aumentar impuesto a la propiedad
-
Irán da un ultimátum a EEUU para que acepte su contrapropuesta de paz
-
El Festival de Cannes empieza bajo el lema del cine como "acto de resistencia"
-
Rusia prueba un misil de largo alcance tras la expiración del tratado nuclear con EEUU
-
Senado de EEUU confirma a nominado de Trump como nuevo miembro de la Fed
-
El consumo mundial de vino continuó cayendo en 2025 y bajó un 2,7%
-
Alemania quiere que TikTok pase a estar bajo control europeo dentro de la UE
-
Trump anuncia que EEUU hablará con Cuba, "un país en quiebra"
-
EEUU demanda a dos empresas por el choque de un buque contra un puente en Baltimore
-
Los desplazados por violencia en Colombia se duplicaron en 2025, dice el CICR
-
Cannes despliega su alfombra roja para una edición llena de estrellas y algo de política
-
La guerra de EEUU contra Irán ha costado USD 29.000 millones, según el Pentágono
-
La inflación en EEUU alcanzó en abril su nivel más alto en tres años por la guerra en Irán
-
Starmer decide "seguir" pese a una presión en aumento y dimisiones en su gabinete
-
Houston transforma su estadio para el Mundial y prepara una policía políglota
-
Luchar contra la IA es una "batalla perdida", afirma la actriz Demi Moore en Cannes
-
Ushuaia, la ciudad argentina del "fin del mundo", busca despegarse del hantavirus
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios
PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.
Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.
"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".
Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".
Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.
Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.
TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.
"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.
Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.
TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.
Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.
Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.
Contacto:
Dana Trismen
[email protected]
650-269-7478
SOURCE: Clockwork
G.Schulte--BTB