Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

Gigantesque !

Image 1 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlopsLa nouvelle architecture Volta Image 2 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

Le GV100 est le plus gros GPU jamais fabriqué par Nvidia, et le plus gros du marché puisque ses 21 milliards de transistors gravés en 12 nm occupent une surface de 815 mm2. La nouvelle puce, la première basée sur l’architecture Volta se distingue par la présence de nouveaux coeurs complètement inédit, les coeurs Tensor. Destinés à optimiser l’apprentissage automatique, ils accélèrent certains calculs FP16 et FP32 au point d’atteindre une puissance théorique sur ces instructions spécifiques de 120 TFLOPS par GPU.

5376 coeurs CUDA

Image 3 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlopsL’architecture GV100 dispose de six Graphics Processing Cluster contenant chacun 14 Volta Streaming Multiprocessor. Chaque Streaming Multiprocessor a 64 coeurs CUDA FP32, ce qui fait un total de 5376 coeurs CUDA

La première carte à utiliser le GV100, la Tesla V100, utilise une version légèrement bridée contenant quatre Streaming Multiprocessor désactivés pour un total de 5120 coeurs CUDA. Sa puissance de calcul FP32 générique, hors coeurs Tensor, est de 15 TFlops, soit 40 % de mieux que la Tesla P100.

Deux cartes

NVIDIA proposera dans un premier temps deux cartes graphiques embarquant sa nouvelle mouture. La première aura un design single slot et un TDP de seulement 150 W, contre 300 W pour le modèle double slot. La firme n’a pas de donnée de détails supplémentaires, mais on imagine que les deux auront des fréquences très différentes.

Image 4 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops Image 5 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

Caractéristiques Tesla K40 Tesla M40 Tesla P100 Tesla V100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GV100 (Volta)
Streaming Multiprocessors (SM) 15 24 56 80
Texture Processor Cluster 15 24 28 40
Coeurs CUDA FP32 / SM 192 128 64 64
Coeurs CUDA FP32 / GPU 2880 3072 3584 5120
Coeurs CUDA FP64 / SM 64 4 32 32
Coeurs CUDA FP64 / GPU 960 96 1792 2560
Coeurs CUDA Tensor / SM NA NA NA 8
Coeurs CUDA Tensor / GPU NA NA NA 640
Fréquence Boost 810/875 MHz 1114 MHz 1480 MHz 1455 MHz
Puissance théorique FP32 (TFLOPS) 5,04 6,8 10,6 15
Puissance théorique FP64 (TFLOPS) 1,68 2,1 5,3 7,5
Puissance théorique TensorOp (TFLOPS) NA NA NA 120
Unités de Texture 240 192 224 320
Interface mémoire GDDR5 384 bits GDDR5 384 bits HBM2 4096 bits HBM2 4096 bits
VRAM jusqu’à 12 Go jusqu’à 24 Go 16 Go 16 Go
Cache L2 1536 ko 3072 ko 4096 ko 6144 ko
Mémoire partagée / SM 16 ko/32 ko/48 ko 96 ko 64 ko jusqu’à 96 ko
TDP 235 W 250 W 300 W 300 W
Transistors 7,1 milliards 8 milliards 15,3 milliards 21,1 milliards
Surface GPU 551 mm² 601 mm² 610 mm² 815 mm²
Finesse 28 nm 28 nm 16 nm FinFET+ 12 nm FFN TSMC