L’Ampere A100 de NVIDIA comptabilise 54 milliards de transistors !

Pour des cartes Ampere A100 vingt fois plus performantes que les Tesla V100 en calcul FP32.

La carte Ampere A100 de NVIDIA, armée d’un GPU Ampere GA100 gravé en 7 nm, pourrait bien établir un nouveau record en ce qui concerne le nombre de transistors. En effet, selon de récentes informations, elle comporte 54 milliards de transistors, sans compter ceux de la mémoire HBM2. Même l’énorme GPU Xe d’Intel présenté par Raja Koduri il y a quelques jours et modestement baptisé “le Père de Tous” ne rivaliserait avec le monstre de NVIDIA.

Image 1 : L'Ampere A100 de NVIDIA comptabilise 54 milliards de transistors !

Au-delà des chiffres, NVIDIA clame des performances en matière d’IA et de calcul simple précision (FP32) vingt fois supérieures à celles d’une carte Tesla V100 basée sur un GPU Volta. D’ailleurs, pour illustrer l’amélioration dans le domaine de l’IA, l’entreprise a imaginé une nouvelle référence de calcul intitulée TF32 (Tensor Float 32). Elle utilise la mantisse de 10 bits du FP16 et l’exposant 8 bits du FP32. En matière de calcul double précision (FP64), le gain par rapport à Volta est de 2,5.

Une RTX 3080 Ti avec une bande passante mémoire de 863 Go/s et une puissance de 21 TLFOPS ?

Huit cartes dans une solution DGX-A100, pour du 5 PFLOPS

Ces cartes Ampere A100 intègrent notamment la solution DGX-A100. Un système associant huit cartes A100 qu’on a récemment pu voir dans le four de Jensen Huang, PDG de NVIDIA. Une solution DGX-A100 délivre une puissance de calcul de 5 PFLOPS. En revanche, à moins que vous ne soyez très riche, n’espérez pas en installer une dans votre ordinateur, puisque chaque pièce se négocie 199 000 dollars. En outre, notez que contrairement à ce qu’on suggérait hier, les cartes Ampere A100 ne sont pas compatibles avec les socket GPU Volta V100, comme en atteste la photo fournie par VideoCardz. Le bond technologique est en tout cas bien réel, puisque selon les dires de NVIDIA rapportés par EETimes, un seul rack de DGX-A100 remplace 25 racks avec CPU de centres de données, pour un prix dix fois moindre et une consommation d’énergie vingt fois inférieure.

Nos confrères de Tom’s Hardware US ont rassemblé toutes les caractéristiques dans le tableau ci-dessous :

CarteNVIDIA Tesla P100NVIDIA Tesla V100NVIDIA A100
GPUGP100GV100GA100
Process gravure TSMC16 nm FinFET+12 nm FFN7 nm N7
Architecture GPUNVIDIA PascalNVIDIA VoltaNVIDIA Ampere
Surface GPU610 mm²815 mm²826 mm²
Nombre de transistors15,3 milliards21,1 milliards54,2 milliards
Facteur de forme GPUSXMSXM2SXM4
SMs5680108
TPCs284054
Cœurs FP32 / SM646464
Cœurs FP32 / GPU358451206912
Cœurs FP64 / SM323232
Cœurs FP64 / GPU179225603456
Cœurs INT32 / SMNA6464
Cœurs INT32 / GPUNA51206912
Cœurs Tensor / SMNA84
Cœurs Tensor / GPUNA640432
Fréquence Boost GPU1480 MHz1530 MHz1410 MHz
Pointe FP16 Tensor TFLOPS with FP16 AccumulateNA125312/624
Pointe FP16 Tensor TFLOPS avec FP32 accumuléNA125312/624
Pointe BF16 Tensor TFLOPS avec FP32 accumuléNANA312/624
Pointe TF32 Tensor TFLOPSNANA156/312
Pointe FP64 Tensor TFLOPSNANA19,5
Pointe INT8 Tensor TOPSNANA624/1248
Pointe INT4 Tensor TOPSNANA1248/2496
Pointe FP16 TFLOPS21,231,478
Pointe BF16 TFLOPSNANA39
Pointe FP32 TFLOPS10,615,719,5
Pointe FP64 TFLOPS5,37,89,7
Pointe INT32 TOPSNA15,719,5
Unités de texture224320432
Taille interface mémoire4096-bit HBM24096-bit HBM25120-bit HBM2
Quantité mémoire16 GB32 GB / 16 GB40 GB
Taux de données mémoire703 MHz DDR877,5 MHz DDR1215 MHz DDR
Bande passante mémoire720 Go/sec900 Go/sec1,6 To/sec
Taille cache L24 096 Ko6 144 Ko40 960 Ko
Mémoire partagée / SM64 KoConfigurable jusqu’à 96 KoConfigurable jusqu’à 164  Ko
Taille enregistrement fichier / SM256 Ko256 Ko256 Ko
Taille enregistrement fichier / GPU14 336 Ko20 480 Ko27 648 Ko
TDP300 Watts300 Watts400 Watts
Image 2 : L'Ampere A100 de NVIDIA comptabilise 54 milliards de transistors !
Image 3 : L'Ampere A100 de NVIDIA comptabilise 54 milliards de transistors !