Baidu présente son processeur Kunlun II

Une puce gravée en 7 nm qui multiplie par deux voire trois les performances de Kunlun I selon Baidu.

L’entreprise Baidu annonce qu’elle démarre la production de masse de la deuxième génération de son processeur Kunlun. La société lance également une nouvelle version de Baidu Brain, Badu Brain 7.0, pour sa plateforme PaddlePaddle, qualifiée comme étant “l’une des plus grandes plateformes IA ouvertes au monde”.

Image 1 : Baidu présente son processeur Kunlun II
Digital visual of the Kunlun II AI Chip

Dans le communiqué, il est écrit que “Kunlun II offre une puissance de traitement 2 à 3 fois supérieure à celle de la génération précédente”. La puce est gravée sur un nœud 7 nm, par un fondeur dont l’identité n’est pas précisé, et s’appuie sur l’architecture XPU de deuxième génération de Baidu. Comme son ancêtre, elle cible des d’applications IA. Baidu mentionne des secteurs comme le cloud computing, l’informatique en périphérie ou encore la conduite autonome. Actuellement, les processeurs Kunlun I officient principalement au sein des centres de données de Baidu et pour la plateforme de véhicules autonomes Apolong. Concernant la plateforme IA, elle compte, à ce jour, “plus de 3,6 millions de développeurs dans le monde” lesquels “ont mis au point 400 000 modèles d’IA par l’intermédiaire de PaddlePaddle, au service de plus de 130 000 entreprises et institutions dans un large éventail de domaines et d’industries”.

Intel collabore avec Baidu pour son NNP-T, un processeur IA

Performances de Kunlun II

Vous l’avez constaté, Baidu ne donne pas de valeurs très précises pour Kunlun II. La société allègue simplement une hausse des performances de 2 à 3 fois par rapport à Kunlun premier du nom, une puce FPGA fabriquée par Samsung en 14 nm. Selon nos confrères de Tom’s Hardware US, celle-ci offre 256 INT8 TOPS, 64 TOPS INT/FP16 et 16 INT/FP32 TOPS à 150 watts. À partir de ces chiffres, ils estiment que Kunlun II atteint 512 à 768 INT8 TOPS, 128 à 192 INT/FP16 TOPS et 32 à 48 INT/FP32 TOPS. Le tableau ci-dessous établit une comparaison entre Kunlun I et II ainsi qu’avec une solution qui nous est un peu plus familière, l’A100 de NVIDIA, pour l’INT8. Sur le papier, en matière de calculs d’IA, le Kunlun II semble avoir des arguments à faire valoir. Maintenant, tout ceci reste assez théorique, l’optimisation logicielle étant également un facteur clef.

ProcesseurBaidu KunlunBaidu Kunlun IINvidia A100
INT8256 TOPS512 ~ 768 TOPS624/1248* TOPS
INT/FP1664 TOPS128 ~ 192 TOPS312/624* TFLOPS (bfloat16/FP16 tensor)
Tensor Float 32 (TF32)156/312* TFLOPS
INT/FP3216 TOPS32 ~ 48 TOPS19,5 TFLOPS
FP64 cœurs Tensor19,5 TFLOPS
FP649,7 TFLOPS

Sources : Baidu, Tom’s Hardware US