AMD a récemment documenté ce bogue, et ne prévoit pas de correctif. Pas de panique, les conditions de sa survenue le limitent à des systèmes bien spécifiques, et sa correction ne nécessite rien de plus qu’un redémarrage.
Dans un guide de révision concernant les processeurs AMD EPYC 7002 Rome publié en avril, AMD révèle qu’un cœur CPU peut se bloquer après 1 044 jours d’utilisation (environ trois ans ; 2,93 années précisément) après le dernier redémarrage : le cœur en question ne parvient pas à quitter l’état de veille CC6. Selon l’entreprise, le moment précis auquel se produit cette défaillance dépend de l’étalement du spectre (changement de la fréquence de base pour réduire les interférences électromagnétiques) et de la REFCLK.
Un utilisateur Reddit, acid_migrain, considère toutefois que cette défaillance intervient plutôt après 1042 jours et 12 heures. Il explique : « Malgré ce qu’ils disent, le problème se manifeste en fait à 1042 jours et environ 12 heures. Le TSC tourne à 2800 MHz, et 2800 * 10**6 * 1042,5 jours est presque égal à 0x380000000000000, qui a trop de zéros pour ne pas être une coïncidence. »
À lire > 29 ans de supercalculateurs, une puissance multipliée par 18 millions !
Remède : désactivation de l’état CC6 ou redémarrage
Ce bogue est toujours bon à connaître, même si dans les faits, il n’est susceptible de se déclencher que dans des conditions d’utilisation bien spécifiques. Il se borne en effet aux systèmes susceptibles de fonctionner presque trois années de manière interrompue, et qui sont donc configurés pour se mettre à jour sans redémarrer (fonction Linux live patching ou kexec).
Comme l’écrit AMD, aucun correctif n’est prévu. Pour éviter ce bogue d’apparaître ou le résoudre, il « suffit » de redémarrer le système au bout de 1 044 jours (1 042 selon l’utilisateur Reddit susmentionné) ou de désactiver l’état de veille CC6.
Pour mémoire, les processeurs EPYC 7002 ont été lancés en 2018. Ils utilisent l’architecture CPU Zen 2. La dernière génération est celle des processeurs EPYC 9004 (Zen 4).
Enfin, pour l’anecdote, l’article source de notre confrère de TH.US précise que l’ordinateur qui affiche actuellement le temps de fonctionnement ininterrompu le plus élevé est celui du vaisseau spatial Voyager 2. Il est en service depuis un plus de 48 ans (16 737 jours). Pour les machines restées sur Terre, le record serait de 6 016 jours (environ 16,4 ans) ; il ne fait toutefois pas consensus.
À lire > Les processeurs dans l’espace, de 1965 à nos jours
Sources : Tom’s Hardware US, AMD, Reddit, Lansweeper
Vu que pour désactiver l’état de veille CC6, il faut redémarrer le système…
On repart donc pour 3 ans quoi qu’il en soit (même sans faire la modification). Et donc 6 ans (en tout) avant qu’elle ne puisse apporter un quelconque avantage par rapport à un simple redémarrage.
Et comme, si l’on est concerné, on attendra lofiquement ces 3 anneés avant, vu qu’il n’y a aucune raison de redémarrer tant que ce n’est pas indispensable
Manip ou pas, on est donc tranquile pour environ 6 ans, avant qu’un 2eme éventuel redémarrage ne puisse être nécessaire.
Mais après 6 ans, c’est le genre de domaine où je doute que le CPU soit encore en fonctionnement/usage
Et les chances qu’il soit encore (utilisé) au bout de 9 ans devient plus qu’infime dans le cadre d’un usage pro…
Du coup, je comprend AMD, quand à la “non” nécessité de résoudre ce bug.