-
El capitán Kane pilota a Inglaterra hasta México, en duelo espectacular en el Azteca
-
El Masters WTA deja Arabia Saudita y se muda a Indian Wells
-
努莎·奧貝爾:為市民實施時速10公里限速,波茨坦的「坑洞政策」——是漠不關心還是無能為力?
-
Ola progresista sorprende a demócratas antes de votaciones de medio término en EEUU
-
Entra en vigor una polémica ley china de "unidad étnica"
-
Indian Wells sustituye a Riad como sede del Masters WTA de final de temporada
-
Lisboa y otras zonas de Portugal, en alerta roja por calor jueves y viernes
-
Erdogan busca aprovechar la cumbre de la OTAN para reforzar la influencia de Turquía
-
Vietnam lanza incentivos para que sus habitantes tengan más hijos
-
Trump dice estar "emocionado" por su primer vuelo en Air Force One obsequiado por Catar
-
España atribuye al calor más de 1.000 muertes registradas en junio
-
Noosha Aubel: «Tempo 10» para los ciudadanos: ¿la política de baches de Potsdam, desinterés o incompetencia?
-
Japón planea desarrollar un modelo de IA propio y tener 10 millones de robots en 2040
-
China impone restricciones de "seguridad nacional" a inversiones foráneas
-
Messi regresa con Argentina a Miami, la ciudad que ya conquistó
-
Fujimori promete "reconciliación" en Perú tras su victoria en las presidenciales
-
Sobrevivientes de los terremotos en Venezuela luchan contra la precariedad de los albergues
-
Embajador de EEUU en la OTAN advierte que algunos países se están "quedando atrás" en materia de gastos
-
EEUU deporta al primer migrante a un archipiélago en el Pacífico
-
La NASA revela nuevos planes para construir una base en la Luna
-
"No pudieron hacer nada": los bombardeos que mataron al líder iraní Jamenei
-
EEUU levanta las restricciones sobre los modelos de IA de Anthropic, afirma la empresa
-
Trump ganó casi 1.200 millones de dólares en criptomonedas en 2025
-
La ONU cambia las reglas de financiación para tratar de salir de su crisis presupuestaria
-
Edificios marcados con la "D" de la muerte, el final tras devastadores sismos en Venezuela
-
Trump anuncia una convención extraordinaria republicana antes de las elecciones legislativas
-
El líder norcoreano promete profundizar los lazos con China en un mensaje a Xi
-
Respirar sin agitarse: así sobrevivió una mujer 48 horas bajo los escombros en Venezuela
-
Paraguay accede a negociar con China en Mercosur pero sin romper con Taiwán
-
Rubio felicita a Keiko Fujimori y ofrece reforzar la cooperación EEUU-Perú en seguridad
-
Las elecciones presidenciales francesas serán el 18 de abril y el 2 de mayo
-
Alí Jamenei, el implacable líder supremo que gobernó Irán con puño de hierro
-
La NASA promete enviar un balón a la Luna si EEUU gana el Mundial
-
Inglaterra vivió su junio más cálido desde que hay registros
-
Bastoni, del Inter de Milán, deberá declarar en una investigación sobre una red de prostitución
-
Ucrania firma un acuerdo para adquirir 16 cazas suecos Gripen
-
Una enfermera dice que la psiquiatra minimizó una crisis de Maradona durante su internación
-
El jefe de la CIA define los modelos más avanzados de IA como "armas nucleares digitales"
-
El Barcelona recibirá al Athletic y el Real Madrid a la Real Sociedad en el inicio de LaLiga
-
Anthropic lanza un modelo menos caro cuando aumentan los costos de la IA
-
El ejército israelí permanecerá "durante un tiempo indeterminado" en Líbano, Siria y Gaza
-
A la espera de reformas, el sector privado ya ha transformado Cuba
-
Allanamientos en Francia y otros países por presunta malversación relacionada con la ultraderecha
-
Saqueos y arrestos tras las protestas antimigrantes de Sudáfrica
-
La Corte Suprema de EEUU elimina un límite a los gastos de campaña electoral
-
La justicia francesa condena a Isabelle Adjani a 10 meses de cárcel en suspenso por fraude fiscal
-
La Roja "eleva progresivamente su nivel de juego", dice Fabián Ruiz a la AFP
-
Yihadistas secuestran a más de 30 estudiantes en una escuela de Nigeria
-
Los océanos del mundo rompen un récord de calor en junio
-
El ejército israelí permanecerá "indefinidamente" en el Líbano, Siria y Gaza
Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA
La garantía "You Only Compute Once" (YOCO) se compromete a resolver el 90 % de los fallos durante el entrenamiento de modelos de IA sin pérdida de progreso; en caso contrario, los clientes recibirán una compensación económica
PALO ALTO (California, EE. UU.) / ACCESS Newswire / 1 de julio de 2026 / Clockwork.io, pionera en Software-Driven AI Fabrics™ y la empresa responsable de TorchPass, su solución de tolerancia a fallos para IA, anunció hoy la Garantía YOCO, el primer compromiso contractual del sector destinado a reducir drásticamente el coste oculto y acumulativo que provocan los fallos durante el entrenamiento de modelos de inteligencia artificial a gran escala. El anuncio marca un punto de inflexión en la forma en que la industria mide la fiabilidad de la infraestructura de IA, alejándose de las métricas tradicionales de disponibilidad ("uptime") diseñadas para una era anterior y centrándose en lo que realmente valoran los equipos de IA: que el entrenamiento finalice a tiempo y sin pérdida de trabajo.
En virtud de la garantía YOCO (You Only Compute Once), Clockwork.io se compromete a que al menos el 90 % de los fallos de entrenamiento en cargas de trabajo TorchPass compatibles se resolverán mediante la migración en caliente de las GPU, sin pérdida del progreso del entrenamiento, sin necesidad de volver al último punto de control ("checkpoint") y sin tener que recomputar el trabajo ya realizado. Si Clockwork.io no cumple este compromiso durante cualquier año de contrato, los clientes recibirán un crédito del 25 % aplicable a la siguiente renovación o ampliación de TorchPass.
"Desarrollamos TorchPass para que los fallos durante el entrenamiento dejaran de ser un problema", afirmó Suresh Vasudevan, director ejecutivo de Clockwork.io. "La garantía YOCO queda reflejada en el propio contrato. Ponemos en juego nuestra propia credibilidad porque sabemos que TorchPass cumple lo que promete, y queremos que nuestros clientes también lo sepan".
El coste oculto del progreso en IA
Todas las organizaciones que entrenan modelos de IA a gran escala se enfrentan al mismo problema: los clústeres de GPU fallan constantemente y cada fallo obliga a reiniciar un costoso ciclo de recuperación. Según una investigación publicada por Meta FAIR en HPCA 2025, un clúster de 1.024 GPU presenta un tiempo medio entre fallos de apenas 7,9 horas, mientras que en un clúster de 16.384 GPU esa cifra se reduce a 1,8 horas. Cada fallo obliga a asignar nuevos nodos, restaurar el entrenamiento desde el último punto de control y volver a calcular todos los pasos realizados desde entonces. Ese trabajo recomputado supone un coste completo de GPU: capacidad de cálculo que ya se había pagado y que debe volver a ejecutarse desde cero. Habitualmente, cada incidente implica la pérdida de tres o más horas de progreso, acumulándose estas pérdidas día tras día.
Como consecuencia, los clústeres actuales de GPU funcionan de forma efectiva entre un 30 % y un 50 % de su rendimiento teórico, no porque el hardware sea lento, sino porque el modelo de fiabilidad sobre el que se construye nunca fue diseñado para cargas de trabajo de esta naturaleza, duración y escala.
"Los equipos de IA necesitan que sus modelos se completen, no simplemente que sus nodos permanezcan activos. Durante años, el sector ha medido la disponibilidad de los nodos y la ha llamado fiabilidad. YOCO nos hace responsables de lo único que realmente importa: que el modelo termine de entrenarse", añadió Vasudevan.
El impacto económico es considerable. En una implementación típica de 2.048 GPU H200, los reinicios provocados por fallos generan más de 6 millones de dólares anuales en capacidad de cálculo desperdiciada, con cientos de miles de horas de GPU perdidas debido a reintentos encadenados, tiempos de recuperación y recomputación del entrenamiento. Para quienes desarrollan IA, la verdadera unidad de valor no es el tiempo de disponibilidad de las GPU, sino el tiempo necesario para obtener un modelo entrenado. Sin embargo, los contratos de infraestructura que adquieren garantizan la disponibilidad de los nodos, no la continuidad de los trabajos de entrenamiento. Para los operadores de IA ocurre algo similar: cuando el entrenamiento de un cliente falla, se reinicia y pierde días de progreso, la percepción es de falta de fiabilidad, independientemente de lo que establezca el acuerdo de nivel de servicio (SLA).
"La recomputación y los reinicios constituyen el impuesto oculto del entrenamiento de IA a gran escala", señaló Vasudevan. "La mayoría de los equipos lo consideran inevitable. No lo es".
La garantía YOCO cambia ese planteamiento contractual.
TorchPass: la fiabilidad redefinida mediante software
La respuesta de Clockwork.io consiste en convertir la fiabilidad en una propiedad definida por software, en lugar de depender de la disponibilidad del hardware, mediante un replanteamiento arquitectónico que desvincula la continuidad del entrenamiento de la tasa de fallos de cualquier componente individual.
TorchPass aborda los fallos desde su origen mediante la migración en caliente de GPU. Cuando se produce una incidencia, la solución transfiere todo el estado almacenado en memoria del entrenamiento -incluidos los pesos del modelo, los gradientes y el estado del optimizador- a un nodo de reserva operativo. El entrenamiento continúa exactamente donde se había detenido y, por lo general, la recuperación se completa en aproximadamente tres minutos, sin restaurar puntos de control, sin recomputar y sin pérdida de progreso.
TorchPass gestiona tres tipos de incidencias: migración no planificada para fallos repentinos y graves, como bloqueos del kernel, cortes de suministro eléctrico o averías de GPU; migración preventiva, activada por señales tempranas como el aumento de errores ECC o determinados umbrales térmicos; y migración planificada para tareas de mantenimiento, actualizaciones de seguridad o firmware. En los tres casos, el entrenamiento continúa sin interrupciones.
Disponibilidad
La garantía YOCO estará disponible para los nuevos clientes de TorchPass y para las renovaciones a partir del 3 de agosto de 2026. Los clientes actuales podrán ponerse en contacto con su equipo comercial de Clockwork.io para incorporar la garantía a sus contratos vigentes. Más información en clockwork.io/yoco.
Clockwork.io estará presente en RAISE Summit, que se celebrará en París (Francia) los días 8 y 9 de julio, en el stand 27A. Además, Suresh Vasudevan, director ejecutivo de Clockwork.io, participará el 8 de julio, a las 10:40 horas (hora local), en la mesa redonda "Infrastructure as Destiny: The Compute-Capital-Cloud Trinity", que tendrá lugar en el escenario principal.
Contacto:
Dana Trismen
[email protected]
650-269-7478
SOURCE: Clockwork
G.Schulte--BTB