Si l’on se penche sur l’architecture Pascal présentée aujourd’hui pour le Tesla P100, on remarque qu’elle donne la priorité aux applications GPGPU au détriment des jeux et du grand public.
L’architecture Pascal (GP100)
Après sa conférence de presse présentant la première puce Pascal, la Tesla P100, NVIDIA a donné plus de détail sur son architecture. Parmi les nouveautés, on notera que la nouvelle finesse de gravure permet d’accroître le nombre de Stream Multiprocessors (SM) disponibles. Chaque SM regroupe 64 coeurs CUDA et quatre unités de textures. L’architecture peut monter jusqu’à 3 840 coeurs CUDA et 240 unités de texture, soit un total de 60 SM.
– Comparatif : les cartes graphiques du moment au banc d’essai
Priorité aux applications GPGPU
Chaque SM a moins de coeurs CUDA et d’unités de texture que sur les Kepler, mais le ratio FP64/FP32 est nettement supérieur. Concrètement, cela signifie que la puce privilégie les applications GPGPU. L’autre grande nouveauté est la priorité donnée à la mémoire. La puce Pascal a deux fois moins de coeurs CUDA que la puce Maxwell GM200, mais on retrouve la même taille de bancs de registre par SM. Comme Pascal a nettement plus de SM, on se retrouve avec une puce ayant des bancs de registre plus grands et une plus grande mémoire partagée, ce qui sera intéressant lorsque l’on traite une très grande quantité de données à la fois. Bref, le GP100 est clairement tourné vers l’apprentissage automatique, l’intelligence artificielle et les opérations GPGPU. NVIDIA estime que l’augmentation du nombre de SM sera suffisante pour apporter un gain de performance acceptable dans les jeux. La réponse devrait arriver avec les GeForce GTX 1080, qui pourrait aussi embarquer une puce légèrement modifiée pour les jeux.
Caractéristiques | Tesla K40 | Tesla M40 | Tesla P100 |
---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Kepler) | GP100 (Pascal) |
Finesse | 28 nm | 28 nm | 16 nm |
Transistors | 7,1 milliards | 8 milliards | 15,3 milliards |
Taille du die | 551 mm2 | 601 mm2 | 610 mm2 |
Stream Multiprocessors (SM) | 15 | 24 | 56 |
Coeur CUDA / SM | 192 | 128 | 64 |
Unités de texture / SM | 16 | 8 | 4 |
FP32 Cores CUDA / GPU | 2 880 | 3 072 | 3 584 |
Ratio FP64/FP32 | 1/3 | 1/32 | 1/2 |
Fréquences de base | 745 MHz | 948 MHz | 1 328 MHz |
Fréquence boost | 875 MHz | 1 114 MHz | 1 480 MHz |
Puissance en double précision (FP64) en TFLOPS | 1,680 | 0,192 | 5,304 |
Bus mémoire | 384 bits GDDR5 | 384 bits GDRR5 | 4 096 bits HBM2 |
Mémoire | Jusqu’à 12 Go | Jusqu’à 24 Go | 16 Go |
Cache L2 | 1,5 Mo | 3 Mo | 4 Mo |
Taille des bancs de registre | 4 Mo | 6 Mo | 14 Mo |
TDP | 235 W | 250 W | 300 W |