Introduction
Cela faisait bien longtemps que nous n’avions pas vu NVIDIA et ATI sortir leurs nouvelles architectures dans un intervalle de temps aussi rapproché. La dernière fois c’était en 2004, il s’agissait du R420 et du NV40 et les deux architectures étaient extrêmement proches dans leurs grandes lignes (6 vertex shaders, 16 pixel pipelines, 16 unités de textures…). Depuis les deux sociétés ont pris des chemins assez divergents pour faire évoluer leur architecture mais, même s’ils n’étaient pas forcément d’accord sur les choix techniques, ils restaient en revanche fidèle au concept de GPU monolithique : à chaque nouvelle génération le nombre de transistors est à peu près doublé et ensuite on essaie à partir de ces énormes puces, d’obtenir toute une gamme en jouant sur le nombre d’unités.
Sans doute encouragé par le succès de son G80, NVIDIA a choisi de persister dans cette voie comme vous avez pu le constater dans notre dossier sur le GT200. A l’inverse ATI depuis son rachat par AMD a connu pas mal de difficultés notamment avec son architecture R600 qui n’a pas eu les performances escomptées et a posé de nombreux problèmes techniques aux ingénieurs. Empêtré dans ses problèmes financiers il était donc difficile pour AMD de continuer à lutter avec NVIDIA qui affiche une santé insolente et peut donc se permettre de continuer à mettre au point de telles puces. Au lieu de continuer à se focaliser sur la performance brute AMD a donc décidé de se concentrer sur deux facteurs : la performance par watt et la performance par mm² de die. Avec succès ?
Les Radeon HD 4800
Le calcul d’AMD est loin d’être idiot : on le sait, le gros des ventes ne se fait pas sur les cartes haut de gamme dont les prix varient entre 400 et 600€, mais plus sur les cartes aux prix « abordables », entre 150 et 300€. Il s’agit néanmoins d’un pari assez risqué : si les fabricants font le gros de leurs ventes sur les cartes d’entrée et de milieu de gamme, le haut de gamme joue en revanche le rôle de vitrine technologique. Il est plus facile de vendre des GeForce 8600 lorsque la 8800 truste le haut des benchs, que de vendre des Radeon HD 2600 lorsque l’on traîne la mauvaise réputation de la HD 2900 et ce indépendamment des qualités intrinsèques de ces cartes milieu de gamme. Mais avant de nous inquiéter du succès futur de cette génération pour AMD, étudions de plus près ce que l’architecture nous réserve.
Carte | HD 4850 | HD 4870 |
---|---|---|
Fréquence GPU | 625 MHz | 750 MHz |
Fréquence RAM | 993 MHz | 900 MHz |
ALU | 800 | 800 |
Unités de texture | 40 | 40 |
ROP (Raster OPeration unit) | 16 | 16 |
Contrôleur mémoire | 256 bits (8 canaux 32 bits) | 256 bits (8 canaux 32 bits) |
Type de RAM | GDDR3 | GDDR5 |
Record battu ! Avec ses 160 unités VLIW 5 voies (800 ALU en tout) le RV770 détrône le GT200 et ses 993Mflops en devenant le premier GPU à passer la barre très symbolique des 1 Tflops (1 Tflops pour la HD 4850 et 1,2 Tflops pour la 4870). Mais ce qui est surtout impressionnant c’est de voir un tel chiffre atteint par un GPU dont le die mesure à peine 260 mm².
Mais les bonnes surprises ne s’arrêtent pas là : AMD a profité de sa nouvelle architecture pour, enfin serait-on tenté de dire, augmenter le nombre d’unités de textures ! Fini les 16 unités apparues avec le R420, on passe désormais à 40 unités. Même si l’on reste assez loin de NVIDIA et de ses 80 unités, l’augmentation est appréciable. Pourtant AMD ne renie pas ses principes : le nombre d’unités n’augmente finalement que dans la même proportion que le nombre d’ALU, ainsi on passe de 64 unités de calcul sur le RV670 à 160 sur le RV770 soit une multiplication de la puissance de calcul par 2.5 et de la même façon on passe de 16 à 40 unités de texture entre les deux architectures. AMD juge donc que le rapport instructions arithmétiques / instructions de texture de 4 : 1 introduit avec sa précédente architecture était équilibré et le maintien sur ce nouveau GPU.
Si l’on compare à l’architecture concurrente, malgré le rééquilibrage opéré avec le GT200, le RV770 est toujours beaucoup plus à l’aise avec un nombre important d’opérations arithmétiques. Le ratio puissance de calcul / nombre de texels filtrés du dernier GPU d’AMD est en effet de 40 : 1 contre environ 20 : 1 pour son concurrent. Illustrons sans plus tarder la théorie par nos benchs théoriques habituels (note : Bien que la Radeon HD 4870 soit la carte toute désignée pour les tests synthétiques permettant d’analyser l’architecture, la gestion plus que hasardeuse de ce lancement -NDA variables- et l’indisponibilité de cette carte nous a contraint à les faire avec la 4850, et donc avec des performances un peu moins flatteuses pour AMD).
Comme pour le GT200 nous commençons en douceur, en utilisant une version de Rightmark limitée aux pixels shaders 2.0. Si la HD4850 se paye le luxe de dépasser la GTX 280 sur les deux tests PS2a, elle se révèle moins à son aise sous les benchs PS2.0. Si l’on comprend aisément que le RV770 soit plus adapté aux modèles d’éclairage avancés, en revanche on s’attendait à mieux au niveau des tests procéduraux où il devrait pouvoir mettre à profit son énorme puissance de calcul.
Tests puissance brute, fillrate (suite)
Continuons les tests sur les pixels shaders 2.0 :
L’architecture d’AMD impose sa loi, les 800 unités de calculs sont bien présentes et malgré leur fréquence plus élevée, les 240 unités du GT200 ne peuvent pas lutter.
Passons maintenant à une version plus récente, utilisant les shaders modernes.
Encore une fois il n’y a pas photo : les 800 ALU du RV770 font merveille et laissent sur place les GeForce. En revanche dès que le bench met plus l’accent sur les instructions de texture :
Le RV770 et ses 40 unités ne peuvent lutter avec les 64 du G92 et les 80 du GT200. Pas de surprise non plus en ce qui concerne le fillrate brut, le nombre de ROP ne changeant pas, il est toujours limité à 16 :
L’ensemble des GPU obtient des scores très proches de leurs valeurs théoriques (10 800 Mpixels/s pour la 9800 GTX, 19 264 pour la 280 GTX et 24 800 pour la 3870X2). Notons quand même le résultat « surprenant » de notre 4850 qui pour sa part dépasse même (de peu) sa valeur théorique (10 000 MPixels/s), ce qui provient du léger overclocking dont bénéficie le modèle Asus (nous y reviendrons plus loin).
L’architecture en détail
Tout comme NVIDIA, AMD a choisi de s’appuyer sur sa précédente architecture plutôt que de tout bouleverser. On retrouve donc en grande partie l’organisation du R600, elle-même déjà reprise pour le RV670.
SIMD cores
L’architecture initialement introduite avec le Xenos, le GPU de la Xbox 360, repose sur un ensemble de SIMD arrays. Le Xenos proposait 3 SIMD arrays, contre 4 pour le R600 et le RV670 et le RV770 va beaucoup plus loin puisqu’il en offre 10.
Comme vous l’avez déduit, puisque le GPU est équipé de 800 ALU cela signifie que chaque SIMD array en contient 80. C’est exact mais c’est une vision un peu simplifiée de la réalité, en pratique les 80 ALU ne sont pas indépendantes les unes des autres : elles sont regroupées dans des unités VLIW 5 voies : 16 unités par SIMD array.
Cette organisation implique donc certaines restrictions sur les instructions exécutées, il faut en effet que les cinq instructions d’un bundle VLIW soient indépendantes les unes des autres. C’est au compilateur de s’assurer de trouver suffisamment d’instructions indépendantes pour saturer les ALU, contrairement au G80 qui repose sur une solution plus « hardware ». Prenons un exemple pour illustrer ce que nous venons de décrire :
I1 FADD R1, R1, 3.14
I2 FMUL R2, R1, 1.41
I3 FMAD R3, R0, 0.5, 0.5
Dans ce cas les instructions 1 et 3 peuvent partager le même bundle, mais pas l’instruction 2 qui dépend du résultat de l’instruction 1. Si le compilateur ne trouve pas suffisamment d’opérations indépendantes dans sa fenêtre d’instructions il est contraint de remplir le bundle avec des instructions NOP ne faisant rien, diminuant ainsi les performances du chip.
Ce qu’il faut retenir de tout ceci c’est que les ALU de NVIDIA obtiendront leur performance de crête plus souvent car elles sont moins dépendantes du code sous jacent, mais en contrepartie elles sont beaucoup plus coûteuses en termes de transistors. Les unités d’AMD dépendent fortement des performances du compilateur (le compilateur « interne » au driver qui réorganise les instructions assembleurs générées par le HLSL) mais AMD peut se permettre d’en proposer un nombre beaucoup plus important sur un die nettement plus réduit.
Les unités VLIW en elles même n’ont pas été fortement remaniées. On retrouve donc 4 unités capables d’effectuer un FMAD ou une addition entière et une unité spéciale capable d’effectuer soit un FMAD, soit une multiplication entière, soit une fonction transcendantale (sinus, cosinus, log, exp, …). La seule véritable amélioration apportée concerne les opérations de décalages de bits sur les entiers qui peuvent être désormais réalisées dans n’importe laquelle des 5 unités alors que sur les 2900/3800 seule l’unité spéciale pouvait effectuer ces opérations. Plutôt que les rendre plus puissantes AMD s’est donc attaché à les optimiser afin de réduire leur taille sur le die pour pouvoir en placer un plus grand nombre.
Local & Global Data Share !
Avec le RV770 les ingénieurs d’AMD ne se sont pas contentés d’optimiser leur architecture afin de grappiller quelques mm², ils ont su aussi s’inspirer des bonnes idées de la concurrence. Ainsi le G80 a introduit une petite zone mémoire de 16 Ko par multiprocesseurs dont la charge est entièrement au programmeur, à l’inverse d’un cache. Cette zone mémoire accessible dans les applications CUDA permet de partager des données entre des threads. AMD introduit donc son pendant dans le RV770 : baptisée Local Data Share, elle a exactement la même taille que la Shared Memory de son concurrent et son rôle est similaire : permettre aux applications GPGPU de partager des données entre plusieurs threads. Le RV770 va même plus loin que son concurrent en offrant une autre zone mémoire appelée Global Data Share (d’une taille de 16 Ko également) pour permettre aux SIMD arrays de communiquer entre eux.
Unités de textures
Si les ALU n’ont pas connus de modification majeure, les unités de texture ont pour leur part bénéficié de toutes les attentions avec un tout nouveau design. L’objectif était clair, comme pour le reste du GPU le but était d’augmenter sensiblement les performances tout en conservant une surface de die la plus réduite possible. Les ingénieurs s’étaient donc fixés des buts assez ambitieux en visant une augmentation de 70% de performance à surface de die équivalente. Pour y parvenir ils ont principalement axés leurs efforts sur le cache de texture. En premier lieu la bande passante du cache L1 de texture a été augmentée passant à 480 Go/s.
Mais ce n’est pas tout, le cache L1 qui était partagé par tous les SIMD arrays a été décomposé en 10 mémoire caches, une par SIMD array et celle-ci ne contient que les données exclusives à ce SIMD array. Les données partagées sont désormais stockées dans un cache L2, lui aussi complètement revu et offrant désormais une bande passante de 384 Go/s vers le cache L1. Afin d’abaisser la latence ce cache L2 a été positionné près des contrôleurs mémoires.
Observons le résultat de toutes ces améliorations en pratique :
Comparé à son concurrent direct, le 9800 GTX, le Radeon HD 4850 offre des performances de tout premier plan en single et dual texturing, en ne perdant pas de performance par rapport au fillrate brut ce qui est attendu au vu des 40 unités de textures pour 16 ROP (en simplifiant « 2.5 unités de texture par pixel » pour reprendre les termes d’une autre époque). En revanche en triple et quad texturing le RV770 ne peut logiquement pas lutter avec les 64 unités du G92 (équivalent de « 4 unités de texture par pixel ») mais dans tous les cas le RV770 se révèle plus proche de sa performance théorique que son concurrent.
ROP, contrôleur mémoire
ROP
Les ROP étaient également un autre point faible de la génération précédente pour AMD, notamment en raison des performances lors de l’activation de l’antialiasing. Tout comme pour les unités de texture les ingénieurs sont donc repartis d’une feuille blanche avec encore une fois pour objectif de maximiser l’efficacité de ces unités par surface de die.
Première amélioration le rendu Z, ATI avait introduit la possibilité de doubler le fillrate dans les passes de rendu Z avec sa précédente architecture mais restait encore largement en retrait par rapport à NVIDIA qui offrait un fillrate multiplié par 8 dans ces situations. Avec le RV770 AMD ne va pas encore aussi loin et se contente d’un fillrate quadruplé, 64 pixels par cycle sont donc possibles désormais. Vérifions ça avec l’indémodable fillrate tester :
Pas de surprise nous l’avions vu pour le fillrate pur, en revanche petite déception pour le rendu Z : certes il y a eu une amélioration mais là où le RV670 s’approchait de sa valeur théorique (x1.89 au lieu de x2) le RV770 en est loin (x2.41 au lieu de x4). C’est en tout cas insuffisant pour lutter avec le G92 qui, s’il offre un gain lui aussi assez éloigné de la valeur théorique (x5.2 au lieu de x8) reste hors de portée.
Ce n’est cependant pas l’amélioration principale des ROP, les ingénieurs d’ATI se sont en effet attelés à corriger les performances en antialiasing qui étaient assez catastrophiques comparées à celles de la concurrence. Ainsi là où le RV670 ne pouvait écrire que 8 pixels par cycle en MSAA2X ou 4X, voyant son fillrate divisé par deux, le RV770 ne voit plus ses performances diminuées et peut donc toujours écrire 16 pixels par cycles dans ces situations. De la même façon le rendu dans un framebuffer FP16 a été optimisé et se fait désormais à pleine vitesse alors que la encore le RV670 voyait son fillrate divisé par deux.
Contrôleur mémoire
Depuis l’introduction du bus en anneau avec le R520, AMD ne cesse de peaufiner son contrôleur mémoire. La dernière nouveauté en date consiste à séparer les clients « gourmands » en bande passante (comme le cache de texture L2, ou les ROP) des clients qui peuvent se satisfaire d’une bande passante plus réduite (le contrôleur PCI Express, le contrôleur d’affichage etc…). Les clients moins gourmands se partagent donc un même hub alors que les contrôleurs mémoires sont distribués sur le chip près des gros consommateurs.
Performances géométriques, PowerPlay
AMD ne s’est pas contenté d’améliorer les faiblesses de son architecture, les ingénieurs ont aussi su rendre encore plus performant les points forts de la carte. Ainsi les performances des Geometry Shaders se sont vues améliorer. Ce n’est pas surprenant : ce type de shaders est encore très récent et la précédente architecture était la première version aussi bien pour AMD que pour NVIDIA à l’implémenter. Avec le recul les deux ont donc pu améliorer leur premier jet, ainsi comme NVIDIA, AMD a augmenté la taille du buffer de sortie des Geometry Shaders afin de conserver un nombre plus important de données sur le GPU. Le nombre de threads de Geometry Shaders en cours de traitement a pour sa part été multiplié par 4. Observons le résultat de ces améliorations en pratique :
Si sur le bench Galaxy (qui semble peu influencé par la taille du buffer dans tous les cas vu que le GT200 offre un gain très limité par rapport au G92) le RV770 est à la traîne, il brille en revanche sous Hyperlight où il se place deuxième juste derrière la GTX 280.
Continuons les tests mettant l’accent sur la géométrie en nous intéressant cette fois aux performances en vertex shading :
Pas de surprise ici, l’architecture d’AMD conserve sa suprématie. Encore une fois on peut être étonné du résultat, s’attendant à ce qu’une architecture équipée de 800 ALU obtienne de biens meilleurs scores mais en pratique tous les GPU actuels sont limités par la puissance du setup engine qui les bride à un triangle par cycle dans le meilleur des cas. Notons que le bench de vertex shader 3.0 a refusé de fonctionner sur le RV770.
Nous continuons avec les performances des vertex shaders en ciblant cette fois ci plus spécifiquement les performances d’accès aux textures, cette technique étant utile pour le displacement mapping notamment. Si NVIDIA conserve l’avantage d’une courte tête sur le test Earth, en revanche pour le test Waves AMD fait cavalier seul, écrasant même le tout nouveau haut de gamme du caméléon.
PowerPlay
AMD a également amélioré la gestion de la consommation de ses GPU en introduisant le clock gating notamment, qui désactive certaines portions du chip lorsqu’elles ne sont pas utilisées. Notons aussi qu’AMD a corrigé un bug dans sa gestion de la consommation identifié sur les RV670 avec un CPU milieu ou bas de gamme. Avec ces CPU, le RV670 était parfois sous utilisé et passait donc en mode basse consommation, lorsque le CPU avait fini de traiter les données et les envoyait soudainement en rafale, le GPU devait repasser en mode haute performance ce qui prenait plusieurs cycles et pouvait entraîner des micro stuttering.
Notons la présence sur le GPU d’un microcontrôleur chargé d’effectuer des relevés :
- de température sur les différents capteurs disséminés sur le GPU
- de l’activité des blocs du GPU
C’est ce microcontrôleur qui contrôle le clock gating et la fréquence du GPU en fonction de ces relevés, minimisant ainsi le coût au niveau du driver.
Spécifications et analyse
N’ayant à cette date rendu disponible que la Radeon HD 4850, voyons les spécifications de cette carte, ainsi que celles de la GeForce 9800 GTX +, sortie du chapeau à la dernière minute par NVIDIA pour la concurrencer bien qu’elle ne sera disponible que le 17 juillet.
GPU | HD 3870 X2 | HD 4850 | 9800 GTX | 9800 GTX + | 280 GTX |
---|---|---|---|---|---|
Fréquence GPU | 825 MHz | 625 MHz | 675 MHz | 738 MHz | 602 MHz |
Fréquence ALU | 825 MHz | 625 MHz | 1688 MHz | 1836 MHz | 1296 MHz |
Fréquence mémoire | 900 MHz | 1000 MHz | 1100 MHz | 1100 MHz | 1107 MHz |
Largeur du bus mémoire | 2×256 bits | 256 bits | 256 bits | 256 bits | 512 bits |
Type de mémoire | GDDR3 | GDDR3 | GDDR3 | GDDR3 | GDDR3 |
Quantité de mémoire | 2 x 512 Mo | 512 Mo | 512 Mo | 512 Mo | 1024 Mo |
Nombre d’ALU | 640 | 800 | 128 | 128 | 240 |
Nombre d’unités de texturing | 32 | 40 | 64 | 64 | 80 |
Nombre de ROP | 32 | 16 | 16 | 16 | 32 |
Puissance shading | 1,06 TFlops | 1 TFlops | (648) GFlops | (705) GFlops | 933 GFlops |
Bande passante mémoire | 115,2 Go/s | 64 Go/s | 70,4 Go/s | 70,4 Go/s | 141,7 Go/s |
Nombre de transistors | 1334 millions | 956 millions | 754 millions | 754 millions | 1400 millions |
Process | 0.055µ | 0.055µ | 0.065µ | 0.055µ | 0.065µ |
Surface du die | 2 x 196 mm² | 260 mm² | 324 mm² | 248 mm² | 576 mm² |
Génération | 2008 | 2008 | 2008 | 2008 | 2008 |
Shader Model supporté | 4.1 | 4.1 | 4.0 | 4.0 | 4.0 |
Sur le plan des caractéristiques principales tout d’abord, la 4850 ne semble laisser aucune chance à la 9800 GTX ou même à sa version + : 27 % de transistors en plus, présence de 800 ALU et d’une puissance théorique de 1 TFlops soit 42 % plus élevée, sans parler du support de Direct3D 10.1 et d’une supériorité souvent marquée dans les tests synthétiques comme nous l’avons vu : ce n’est pas rien ! Pourtant, du fait de la conservation d’un bus mémoire 256 bits, la bande passante mémoire reste un peu faible. En outre, AMD accuse toujours un retard net du côté du nombre d’unités de texturing et de ROP, et ne semble toujours pas avoir appris des erreurs du passé sur ce plan.
Gravé en 55 nm, le RV770 est une puce plutôt modeste de 260 mm², plus de deux fois plus petite que le GT 200. Ce n’est toutefois plus un avantage pour AMD, NVIDIA rattrapant son retard avec la 9800 GTX + qui introduit le G92b, un G92 gravé en 55 nm donc et qui parvient à être 5 % plus petit d’après nos mesures que le RV770 grâce à son nombre de transistors plus faible. C’est d’ailleurs la principale nouveauté de cette carte, qui lui permet du coup de voir sa fréquence GPU augmenter de 9 % (idem pour les ALU). Et… c’est tout ! Toutes les autres caractéristiques (à l’exception peut être de la température et de la consommation ce que nous vérifierons plus loin) restent identiques. Nous nous demandions initialement pourquoi NVIDIA n’avait pas appelé sa nouvelle carte « GeForce 9800 Ultra », l’explication semble ainsi toute trouvée. Reste à vérifier si cette nouvelle version méritait vraiment de voir le jour, bien qu’il soit toujours positif de pouvoir distinguer les deux versions du GPU pour l’acheteur (ce qui n’aurait pas été possible dans le cas d’un remplacement progressif du GPU de la 9800 GTX).
Remarquons pour finir que la 4850 dispose de la même puissance théorique que la 3870 X2, mais avec une architecture légèrement améliorée comme nous l’avons vu et de caractéristiques autres légèrement différentes (plus d’unités de texturing notamment) : il sera donc particulièrement intéressant de comparer ces deux cartes dans les tests.
Radeon HD 4850 (David) VS 9800 GTX + (Goliath)
Difficile de passer à côté de l’opposition physique évidente entre les deux cartes qui prétendent équiper le PC milieu/haut de gamme du joueur actuel, dans un monde ou d’ordinaire il faut plutôt sortir la loupe.
La Radeon HD 4850 joue la modeste et rappelle ainsi à merveille la Radeon HD 3850 : design single-slot, présence d’un seul connecteur PCI Express 6 broches, taille réduite (23,3 cm) et ventilateur radial de 6 cm. Et si le radiateur recouvre la majorité du PCB, la carte n’est pas enfichée dans une large jupe qui empêche de la distinguer des autres modèles.
A l’inverse, la GeForce 9800 GTX + est impossible à distinguer physiquement de la 9800 GTX, sauf à démonter la jupe et le radiateur pour constater quel GPU est installé. On retrouve donc une carte double-slot munie de ses deux connecteurs 6 broches supplémentaires et d’un épais ventilateur de 7 cm, le PCB mesurant toujours 26,7 cm. Mais au moins, la quasi-totalité de la chaleur générée par cette carte est directement expulsée à l’extérieur du boîtier, ce qui n’est pas le cas de la HD 4850.
Côté sorties en revanche, les deux cartes reprennent deux DVI dual-link et la sortie TV. L’Asus Radeon HD 4850 est fournie avec l’adaptateur DVI -> HDMI actif, un adaptateur DVI -> VGA, le pont Crossfire interne flexible, un adaptateur Molex -> PCI Express 6 broches et la connectique HDTV. Rappelons que les sorties des GeForce 9800 GTX peuvent également véhiculer le son, mais dépourvues de contrôleur audio elles nécessitent pour cela d’être reliées via un câble à la sortie S/PDIF interne qui devra être limitée au signal stéréo (non compressé). En revanche, le modèle Asus s’est avéré être un modèle overclocké, doté d’une fréquence GPU de 680 MHz (soit 8,8 % de plus que d’origine) et d’une fréquence mémoire de 1050 MHz (+5 %). Vu la faiblesse de cet overclocking et le fait que la carte ne soit pas vendue réellement plus chère que les autres, nous l’intègrerons telle quelle dans nos tests.
Le test
Nous avons pour ce test repris les paramètres utilisés lors de l’article sur les GeForce GTX 260 et 280, mais vu le niveau de performance de la carte faisant l’objet du test, avons rajouté le 1680*1050 aux résolutions de 1920*1200 et 2560*1600. La valse des drivers imposés par les nouvelles cartes testées continue également…
Configuration de test :
- Asus P5E3 Deluxe (Intel X38)
- Intel Core 2 Quad QX6850 (3 GHz)
- Crucial 2 x 1 Go DDR3 1333 MHz 7-7-7-20
- Western Digital WD5000AAKS
- Lecteur DVD Asus 12x
- Coolermaster RealPower Pro 850W
- Windows XP, Vista, Vista SP1
- ForceWare 177.39 beta (9800 GTX +)
- ForceWare 177.34 beta (260 GTX et 280 GTX sous Vista)
- ForceWare 177.26 beta (280 GTX sous XP)
- ForceWare 175.16 WHQL (9800 GTX, 9800 GX2, 8800 Ultra)
- Catalyst 8.22 beta (HD 4850)
- Catalyst 8.6 WHQL (HD 3870)
- Catalyst 8.5 WHQL (HD 3870 X2)
Flight Simulator X
Comme toujours, Flight Simulator ne nous dit pas grand-chose de la performance réelle ou moyenne des cartes graphiques, mais reste intéressant à analyser : on constate ainsi que la 9800 GTX + est très loin des performances de la 9800 GTX, alors que les deux cartes sont extrêmement proches d’une part et que la 9800 GTX + devrait s’avérer légèrement plus rapide par ailleurs. Seule vraie différence entre les deux cartes : les drivers, la GTX + imposant l’utilisation des 177.39 beta bien plus récents que les 175.16 WHQL utilisés pour la 9800 GTX. Une évolution qui pour une fois ne semble pas avoir été bénéfique.
Quand à la 4850, elle parvient en revanche à faire mieux que la 3870 (et surtout que la 3870 X2) sans rattraper la 9800 GTX.
Call of Duty 4
La 9800 GTX + a également du mal à tirer profit de son GPU 9 % plus rapide sous Call of Duty 4 : il faut monter en 2560*1600 pour qu’elle ne soit pas derrière (même si ce n’est que de très peu) la 9800 GTX ! Ce n’est pas le cas de la 4850 qui pour sa part reste constamment nettement devant la 8800 Ultra (et donc la 9800 GTX +), et seulement 6 % derrière la GTX 260 !
Test Drive Unlimited
Sous Test Drive Unlimited, la 4850 dispose de performances variables mais plus faibles que sous Call of Duty 4. Globalement égale ou supérieure à la 9800 GTX + une fois l’antialiasing activé, elle lui reste inférieure sinon. A noter que son échec en 2560*1600 ne vient pas d’un manque de mémoire mais bien d’une instabilité se manifestant par l’arrêt (puis la récupération) du pilote d’affichage quelques secondes après que le jeu soit chargé. Un problème qui n’est malheureusement pas isolé et que nous allons rencontrer à nouveau plus loin…
Crysis
Le fameux Crysis, en 1680*1050, permet d’observer des performances très proches entre les cartes si l’on exclue les GeForce GTX 200 et la Radeon HD 3870. Dans ce cas là, la GTX + bénéficie de l’augmentation de performances nécessaire (9 %) pour repasser devant la 4850. En revanche, l’activation de l’antialiasing semble de nouveau favorable aux Radeon, la 4850 disposant alors de performances 39 % supérieures à la 9800 GTX +.
Avec les autres réglages, seul le 1920*1200 reste jouable pour ceux qui sont peu exigeants et sur certaines scènes légères. Dans ce cas, les deux cartes obtiennent la même performance, 16 % inférieure à celle de la GTX 260.
World in Conflict
World in Conflict est clairement favorable à la Radeon HD 4850, puisqu’elle bat ici la 9800 GTX + dans toutes les situations, tout en accentuant une nouvelle fois son avance dès lors que l’antialiasing est activé : sans celui-ci, son avance moyenne est de 10 %, alors qu’elle atteint 27 % avec, et en excluant le resultat record mesuré en 2560*1600 ! Pourtant doté de la même quantité de mémoire, la 4850 semble donc une nouvelle fois accéder avec beaucoup plus de facilité à la mémoire centrale dans cette situation, a tel point que sa vraie rivale dans ce jeu n’est autre que la GTX 260 !
Supreme Commander
Le match se ressert à nouveau sous Supreme Commander. La Radeon HD 4850 reste cependant légèrement devant sa rivale, d’un écart de 3 % seulement mais très constant. A noter que la 4850 reste ici derrière la 3870 X2, plutôt à l’inverse de ce que l’on constatait précédemment.
Unreal Tournament III
Unreal Tournament III marque en revanche la première victoire nette (14 % en moyenne) de la 9800 GTX + sur la Radeon HD 4850. Une fois n’est pas coutume, cette avance a plutôt tendance à se conforter une fois l’antialiasing activé ici. Et si la Radeon HD 3870 X2 reste largement devant la 4850 hors filtres, la hiérarchie change de façon spectaculaire une fois les filtres activés !
Mass Effect
Manifestement limité à 60 images par seconde (malgré la désactivation de la synchronisation verticale et du smoothFramerate propre à l’Unreal Engine 3, la bride pouvant venir du processeur), il est intéressant de remarquer que l’activation de l’antialiasing permet toutefois de départager toutes les cartes en 1680-1050 avec la même hiérarchie qu’en 1920*1200. Seules les GT200 permettent de rester à 60 images/s ; la 4850 est pour sa part à la peine à peine supérieure à la Radeon HD 3870 ici, mais elle permet au moins d’activer l’antialiasing, à l’inverse de sa grande sœur. Malgré cela, elle ne parvient pas à dépasser la 9800 GTX + et reste jusqu’à 26 % en retrait de cette dernière (1920*1200 + filtres), et 35 % plus faible que la Radeon HD 3870 X2 en 2560*1600.
Race Driver GRID
Malheureusement, la Radeon HD 4850 a une nouvelle fois refusée d’afficher quoi que ce soit plus de 2 secondes sous Race Driver GRID, le pilote d’affichage s’arrêtant là encore de façon intermittente avant d’être redémarré. Un comportement étrange et dont nous n’avons pas encore pu déterminer le responsable exact, mais qui semble imputable à notre sample Asus, overclocké d’origine. On notera que la 9800 GTX + pour sa part dispose d’un boost de 6 % par rapport à la 9800 GTX, ce qui lui permet de dépasser la 8800 Ultra en 1920*1200 + filtres.
Consommation
Avec 956 millions de transistors contre 666 millions précédemment pour le RV670 (Radeon HD 3850/70), toujours gravés en 55 nm, voyons les variations de la consommation de l’alimentation (qui incluent donc la consommation de toute la configuration ainsi que les 20 % de pertes de l’alimentation).
La consommation au repos augmente significativement, ce qui n’est pas une bonne surprise : 22 W de plus au total (environ 18 W pour la carte graphique donc) pour une utilisation inchangée (quasi-nulle), c’est assez décevant, surtout que cela refait passer la 4850 derrière les GeForce GTX 200 en matière de consommation au repos, un point fort actuel très apprécié des cartes AMD. Les fréquences de la 4850 baissent alors de 625 MHz (GPU) et 1000 MHz (mémoire) à 500 MHz et 750 MHz, ce qui est beaucoup moins agressif que sur le GT200.
En revanche, en charge sous Test Drive Unlimited, l’augmentation par rapport à la 3870 ne dépasse pas 12 W pour des performances 26 % meilleures dans ce cas précis ce qui est très bon (et ce malgré le léger overclocking Asus pour rappel). A noter d’ailleurs que le pic de consommation que nous avons mesuré pour cette carte (toujours sous Fillrate Tester) n’est que de 270 W.
Cela étant, il faut tout de même remarquer que là encore, la 9800 GTX + fait aussi bien et que cela annule donc l’avantage d’AMD. A noter que le passage au 55 nm du G92 provoque bien une légère baisse de la consommation, et ce au repos comme en charge (jusqu’à 8 W), prévisible vu la très faible hausse de fréquence. Soulignons également que dans ce cas précis (Test Drive Unlimited en 2560*1600), le rapport performances/watt de la 9800 GTX + s’avère 11 % supérieur à celui de la HD 4850.
Bruit
Ne consommant pas beaucoup plus que la HD 3870, la 4850 va-t-elle disposer de la même discrétion sonore ?
Excellente nouvelle : au repos, la Radeon HD 4850 s’est avérée être la carte la plus silencieuse que nous ayons testée, s’avérant inaudible malgré une vitesse de rotation du ventilateur de 1490 rpm, grâce à la taille du ventilateur (cette vitesse de rotation ne représentant que 27 % du maximum par ailleurs).
Malheureusement, on ne peut pas en dire autant en charge où le niveau atteint par la HD 3870 n’est plus qu’un vieux souvenir : le ventilateur monte alors à 3400 rpm et sans s’avérer insupportable, devient nettement audible et un peu gênant, sans doute un peu plus d’ailleurs subjectivement que la 9800 GTX +. Il faut dire qu’ici, le design single-slot avec ce qu’il implique (moins de surface de dissipation, ventilateur moins épais et obligation de refouler l’air dans le boîtier) constitue clairement un point faible contre lequel la 4850 doit lutter.
Températures
Sans surprise, la Radeon HD 4850 monte haut en température, ce qu’un simple toucher de la carte (impossible au delà de quelques instants toutefois) confirme aisément. Elle ne dépasse toutefois pas la valeur atteint par la Radeon HD 3870. Son silence record au repos a également un prix, avec 20°C de plus dans ce mode que la plupart des cartes. Il s’agit là encore d’une conséquence de son dispositif de dissipation modeste. Rien d’anormalement élevé toutefois, même s’il faudra clairement éloigner tout composant sensible à la chaleur d’une telle carte, et que son intégration dans un PC Home Cinéma s’en trouve du coup compliquée.
A noter que là encore, la GeForce 9800 GTX + tire un léger profit de la finesse de gravure plus fine de son GPU, puisqu’à système de refroidissement équivalent, les valeurs reportées sont 3°C à 4°C inférieures à la 9800 GTX.
Bilan
Au final, la Radeon HD 4850 nous a clairement agréablement surpris. Après la déception de la Radeon HD 2900 qui proposait une architecture intéressante aux performances en retrait, AMD a proposé une série HD 3800 qui, s’il ne lui permettait pas de reprendre la tête dans la course aux performances avec NVIDIA, offrait au moins un bon rapport performances/prix. Avec le RV770 en revanche, AMD revient en force. En corrigeant certains points faibles (unités de texture, performances en AA) et en améliorant ses points forts (performances arithmétiques, en geometry shading) AMD propose une alternative très intéressante au monstre de NVIDIA. L’approche d’AMD d’éviter de lutter sur le très haut de gamme, même si elle est certainement motivée par des facteurs extérieurs, a donc porté ses fruit. Et surtout contrairement au R600 où l’on sentait bien qu’il s’agissait d’une stratégie marketing improvisée après coup, et imposée par les performances du GPU, cette fois on sent qu’il s’agit d’une stratégie étudiée jusque dans les choix techniques effectués.
Résultat : malgré ce lancement raté où la Radeon HD 4850 a été disponible avant même que la presse ne dispose d’information dessus et alors que la 4870 se fait toujours attendre, il est en tout cas indéniable que la 4850 est une très bonne carte. Elle s’avère seulement 19 % moins performante la GeForce 260 GTX et globalement au même niveau que la GeForce 9800 GTX +, tout en distançant la 3870 X2 ! Notez que ces chiffres intègrent le léger overclocking d’origine du modèle Asus testé dans cet article, mais qu’ils sont à l’inverse affaiblis du fait de l’absence de Race Driver GRID vu les problèmes que nous avons rencontré avec notre sample.
Malgré cela, la 4850 est déjà disponible à un prix encore plus bas qu’attendu : 150 € ! NVIDIA en est le premier surpris, et si le constructeur met entre parenthèse sa politique de hard-launch pour nous procurer sa GeForce 9800 GTX + un mois avant sa disponibilité et en provoquant une grosse baisse de prix sur la GeForce 9800 GTX dès maintenant (certains magasins commencent à la proposer à 220-230 €), cela ne suffit pas. La GeForce 9800 GTX +, sans être inintéressante (intégration du premier GPU 55 nm de NVIDIA, dont la fréquence est augmentée de 9 %, légère baisse de la consommation et de la température), n’est qu’une faible évolution de la 9800 GTX, vendue plus chère (on l’attend aux alentours des 200 €, la 9800 GTX devant encore baisser un peu d’ici là) et surtout pas encore disponible. Elle ne semble aujourd’hui en tout cas pas justifier une attente supplémentaire, alors qu’il nous reste toujours à évaluer la Radeon HD 4870 dans le haut de gamme.
- Les plus
- Les moins
- Architecture RV670 optimisée et corrigée
- Performances au niveau de la GeForce 9800 GTX +
- Antialiasing souvent plus performant que les GeForce
- Consommation et température en augmentation au repos
Récapitulatif des performances
Voici les moyennes obtenues pour chaque carte et chaque jeu. Les cartes n’arrivant pas à rendre un jeu dans une résolution donnée ou avec antialiasing ont obtenue un zéro, ce qui handicape lourdement toutes les cartes réellement dotées de 512 Mo de mémoire ou moins en 2560*1600 + antialiasing, ainsi que la Radeon HD 3870 X2 qui ne peut appliquer d’antialiasing sous Mass Effect. A noter également que la 4850 est pénalisée par le fait que notre sample Asus n’ait pu rendre le jeu Race Driver GRID, qui donne aux cartes des scores supérieurs à la moyenne !