Caractéristiques de l'architecture Radeon HD 4870
Si dans le cas du RV670 (Radeon HD 38x0), la légitimité d'attribuer le numéro de prochaine génération pouvait être remise en question, puisque ce GPU différait peu du cœur de la génération précédente, R600 (Radeon HD 2900), alors avec le RV770, de tels doutes ne sont pas surgir - c'est vraiment un nouveau produit, bien qu'héritant de la plupart des fonctionnalités de ses prédécesseurs. La nouvelle famille a été nommée ATI Radeon HD 4800, et le schéma de dénomination des différents modèles de cartes graphiques, utilisé pour la première fois par ATI dans la famille ATI Radeon HD 3800, est conservé : le premier chiffre signifie la génération de l'architecture graphique, le second - la famille, et les deux derniers - le modèle d'un adaptateur vidéo particulier.
Le cœur du RV770 se compose de 956 millions de transistors, ce qui est assez impressionnant à première vue, cependant, ce n'est pas un record absolu dans l'industrie ; La palme dans ce domaine appartient à Nvidia avec sa puce GT200, qui compte 1.4 milliard de transistors. La supériorité peut être qualifiée de douteuse, car le concurrent d'ATI utilise une technologie de traitement à 65 nm moins avancée, ce qui, compte tenu de l'énorme surface et de la complexité d'un tel cœur, signifie automatiquement un plus petit nombre de cœurs sur le substrat et un rendement inférieur, et, par conséquent, un coût de production nettement plus élevé, cependant, une telle approche est une tactique typique de Nvidia ces dernières années. Il est peu probable que les cartes basées sur le GT200 deviennent bon marché au fil du temps, contrairement aux nouvelles solutions ATI utilisant le RV770. Ainsi, la stratégie choisie par ATI Technologies, à première vue, se justifie pleinement.
Il est à noter que les fréquences GPU ont été sensiblement abaissées par rapport aux cartes basées sur le GPU de la génération précédente, RV670, ce qui s'explique par la complexité nettement accrue du nouveau cœur. Compte tenu de la puissance accrue de traitement et de texturation, cela ne devrait pas poser de problème. Autre détail intéressant qui mérite l'attention : l'utilisation de la mémoire GDDR4800 rapide dans l'ancien modèle ATI Radeon HD 5 a permis d'atteindre une bande passante élevée sans recourir à l'extension du bus d'accès externe, comme ATI l'a fait l'année dernière et Nvidia le fait maintenant. Une augmentation de la largeur du bus mémoire par rapport aux traditionnels 256 bits conduit à une complication importante de la carte de circuit imprimé, et, par conséquent, à son renchérissement. Bien sûr, la mémoire GDDR5 est plus chère que la GDDR3 largement utilisée, mais cette différence semble être plus que compensée par la conception plus simple du PCB.
On voit clairement que la topologie du sous-système d'accès à la mémoire dans son ensemble a été préservée, bien qu'elle ne puisse plus être appelée anneau : presque chaque contrôleur de mémoire est connecté par une interface bidirectionnelle à un autre, cependant, le "anneau" lui-même n'est plus fermé. L'interface d'accès à la mémoire est toujours située autour du périmètre du cristal, et à côté se trouvent les blocs fonctionnels les plus critiques pour le débit :
Dans le même temps, un commutateur est apparu dans le cœur qui interconnecte des blocs moins gourmands en bande passante - l'interface de bus PCI Express, l'interface CrossFireX, le processeur vidéo UVD2, les contrôleurs d'affichage, etc. L'efficacité d'utilisation des ressources du sous-système mémoire dans les générations précédentes d'ATI Radeon HD atteignait déjà 85% selon ATI, et l'optimisation de la topologie RV770 a permis de l'amener presque au maximum. Avec la possibilité d'utiliser une mémoire GDDR5 rapide, cela a éliminé le besoin pour les développeurs d'utiliser un bus externe d'une capacité de plus de 256 bits, ce qui a eu un effet positif sur la simplicité de conception des cartes de circuits imprimés ATI Radeon HD 4800.
Un élément clé de tout cœur graphique doté d'une architecture moderne est le bloc gestionnaire de tâches, qui est chargé de répartir les ressources processeur disponibles de manière à ce que toutes ses parties soient chargées au maximum et, par conséquent, les performances tendent à être aussi haut que possible.
Le bloc gestionnaire de tâches est apparu pour la première fois dans le cadre de la famille ATI Radeon X1000, où il pouvait gérer 512 branches de code de 16 pixels chacune. La deuxième version du processeur de distribution de tâches a été introduite dans l'ATI Radeon HD 2000. Le nouveau gestionnaire pouvait non seulement traiter plus de branches de code, mais aussi le faire avec plus de précision et d'efficacité - la taille minimale des branches a été réduite de 16 à 5 pixels.
La partie informatique des R600 et RV670 se composait de 64 modules universels, dont chacun comprenait cinq ALU, une unité de contrôle de flux et un ensemble de registres à usage général. Quatre ALU sur cinq étaient des dispositifs assez simples capables d'exécuter une instruction FP MAD par cycle, et le quatrième était complexe, capable de fonctionner avec des instructions complexes SIN, COS, LOG, EXP, etc. En fait, chaque module informatique était un processeur avec un pipeline à cinq étages.
En théorie, une telle organisation permettait de parler de la présence de 320 actionneurs, mais en fait, cela n'était vrai que pour le cas d'une pleine charge de l'ensemble des 64 canalisations, ce qui en pratique était loin d'être toujours fourni : en trois- applications dimensionnelles, de nombreuses opérations dépendent des résultats des opérations précédentes, par conséquent, un fonctionnement cohérent du pipeline n'est pas facile à réaliser. Cela nécessite des optimisations importantes pour une application spécifique au niveau des pilotes Catalyst, mais il n'est pas toujours possible d'avoir accès au "bourrage" logiciel du jeu, du moins jusqu'à sa sortie officielle.
En conséquence, dans la pratique, il s'est souvent avéré qu'une seule ALU dans chaque module informatique effectuait un travail utile, ce qui réduisait considérablement le potentiel de l'architecture ATI Radeon HD et entraînait un décalage des jeux à partir de solutions basées sur Nvidia G80/G92. . Ces derniers disposaient non seulement d'unités de calcul plus indépendantes, mais ces unités fonctionnaient également à des fréquences d'horloge plus élevées. En créant le RV770, l'équipe de développement d'ATI a résolu le problème de l'éventuelle inefficacité de l'architecture superscalaire de manière directe, à savoir en augmentant le nombre de modules de calcul de 64 à 160. Bien sûr, cela a augmenté le nombre de transistors sur le core, cependant, l'utilisation de la technologie de traitement 55 nm a permis de maintenir sa zone dans des limites raisonnables.
L'architecture des modules elle-même n'a pas subi de changements notables, et ils se composent toujours de 5 ALU, d'une unité de contrôle de flux et d'un ensemble de registres à usage général :
Selon les déclarations d'ATI, l'efficacité des modules de calcul a été augmentée de 40%, mais même une simple augmentation de leur nombre de 64 à 160 peut faire de la Radeon HD 4800 une solution compétitive même dans des conditions peu favorables à cette architecture. Et ce n'est pas tout; comme mentionné ci-dessus, les changements sont également présents à un niveau plus global - le niveau de la topologie de base. Tout en conservant partiellement la topologie en anneau, la disposition des blocs fonctionnels a été optimisée. Les modules informatiques RV770 sont combinés en 10 cœurs SIMD (auparavant, il y en avait 4), 16 modules (80 ALU) chacun.
Le principal goulot d'étranglement des cœurs graphiques ATI R600 et RV670 était le sous-système du processeur de texture.
Premièrement, il n'y en avait que 16 (4 gros blocs), ce qui n'était clairement pas suffisant, même malgré la tendance à la prévalence des effets spéciaux mathématiques sur l'utilisation de textures complexes à haute résolution, en raison de l'orientation des développeurs de jeux vers le multiplateforme . Deuxièmement, il n'y avait qu'une seule unité de filtrage pour deux unités d'adresse de texture, ce qui réduisait considérablement l'efficacité des unités de texture lors de l'exécution du filtrage de texture, en particulier le filtrage anisotrope, qui est utilisé partout aujourd'hui, et il n'y a aucune raison de supposer que son utilisation sera abandonné à l'avenir.
Lors du développement du RV770, ces lacunes ont été prises en compte et le nouveau cœur a reçu de nouveaux processeurs de texture :
Leur conception a été entièrement repensée, et maintenant chaque TMU contient 16 unités de récupération de texture FP32, 4 unités d'adresse et 4 unités de filtrage. Il semblerait que l'efficacité d'échantillonnage devrait chuter, toutefois, cela est compensé par le doublement de la bande passante du bus reliant la TMU et les caches de texture. ATI a réussi à augmenter de 2.5x la vitesse de filtrage pour les textures 32 bits et de 1.5x pour les textures 64 bits, ce qui semble très bien en théorie et aura très probablement un effet très positif sur les performances du nouveau GPU dans conditions réelles.
Les processeurs de texture sont toujours combinés en grands modules de 4 TMU, et chacun de ces modules dessert l'un des 10 cœurs SIMD. L'optimisation, exprimée dans le rejet des blocs inutiles, a permis de réduire le nombre de transistors qui composent le TMU et, par conséquent, d'en placer davantage sur une puce avec relativement peu d'effusion de sang, tout en conservant la complexité et la zone de le noyau dans des limites raisonnables.
Le sous-système de cache est une partie importante du sous-système de texture GPU, et dans le RV770, il a également subi une mise à niveau significative :
Tout d'abord, notons l'augmentation de la bande passante : désormais, le taux de récupération des textures des caches de premier niveau est impressionnant de 480 Go/s, tandis que les caches de premier et deuxième niveaux peuvent communiquer à une vitesse de 384 Go/s. Deuxièmement, chaque cœur SIMD dispose désormais de son propre cache de premier niveau, ce qui a un effet bénéfique sur l'efficacité du stockage des données. Troisièmement, les caches de deuxième niveau sont coordonnés avec les contrôleurs de mémoire et, enfin, quatrièmement, le RV770 dispose d'un cache séparé pour stocker les données de vertex. Les améliorations ne sont pas aussi évidentes que dans le cas de l'architecture du processeur de texture, cependant, elles apporteront certainement une contribution significative à l'amélioration des performances de l'ATI Radeon HD 4800 dans les jeux. Il est sûr de dire que le nouveau processeur graphique ATI est complètement libéré du principal goulot d'étranglement de l'architecture ATI Radeon HD et peut désormais rivaliser à armes égales avec les solutions Nvidia où ces dernières étaient traditionnellement fortes, à savoir dans les opérations avec des textures. Ici, l'approche d'ATI en matière de conception de GPU se manifeste le plus clairement - l'optimisation au lieu de l'augmentation directe de la puissance.
Les processeurs raster, appelés back-ends de rendu dans la terminologie ATI, n'ont jamais été un goulot d'étranglement dramatique dans l'architecture ATI Radeon HD, cependant, ils ont été améliorés dans le RV770, bien que le nombre total de ces modules n'ait pas changé : il y a encore quatre d'entre eux dans le noyau, ce qui nous permet de parler de l'équivalent de 16 ROP classiques.
En plus des autres nouveautés incluses dans l'ATI RV770, notons de nouvelles fonctionnalités du moteur vidéo, notamment un nouveau contrôleur de son et quelques améliorations logicielles.
Le contrôleur audio à huit canaux de Realtek, qui prend en charge des flux audio jusqu'à 6.144 Mbps et des taux d'échantillonnage de 192 kHz aux formats AC3, DTS, Dolby True-HD et DTS-HD, est la principale amélioration du contenu HD. Les capacités améliorées du nouveau cœur audio sont d'une grande importance pour ceux qui envisagent d'utiliser l'ATI Radeon HD 4000 dans le cadre d'un centre multimédia domestique. De plus, les Radeon HD 4800 d'ATI sont actuellement les seules cartes graphiques au monde à prendre en charge nativement l'audio HD XNUMX canaux, avec la possibilité de le sortir via HDMI - un avantage significatif par rapport aux solutions Nvidia concurrentes.
Pour alimenter la carte vidéo Radeon HD4870, il y a deux connecteurs à 6 broches dans la queue de la carte vidéo, contrairement à la plus jeune Radeon HD4850, qui n'a qu'un seul connecteur. Un système d'alimentation renforcé était nécessaire pour le fonctionnement stable de la carte vidéo à des fréquences plus élevées. Ainsi, par rapport à la carte vidéo Radeon HD4850 , la fréquence du GPU Radeon HD4870 est supérieure de 125 MHz et égale à 750 MHz, et la fréquence effective de la mémoire vidéo GDDR5 est de 3600 MHz, ce qui est nettement supérieur à 1986 MHz, qui est utilisé par la mémoire vidéo de la carte vidéo Radeon HD4850 . Certes, cela vaut la peine de faire une réservation ici, la fréquence réelle de la nouvelle mémoire GDDR5 est de 900 MHz, c'est juste qu'en un cycle d'horloge, elle transfère non pas deux, mais quatre fois plus d'informations par rapport à la mémoire non DDR «ordinaire».
Spécifications ATI Radeon HD 4870
Nom | Radeon HD 4870 |
noyau | RV770XT |
Technologie de processus (µm) | 55 |
Transistors (millions) | 956 |
Fréquence centrale | 750 |
Fréquence mémoire (DDR) | 900 3600 (XNUMX XNUMX QDR) |
Type de bus et de mémoire | GDDR5 256 bits |
Bande passante (Gb/s) | 115,2 |
Blocs de shaders unifiés | 800 |
Fréquence des unités de shader unifiées | 750 |
TMU par convoyeur | 40 |
ROP | 16 |
Modèle de nuanceur | 4.1 |
Taux de remplissage (Mtex/s) | 30000 |
DirectX | 10.1 |
Taille mémoire | 512/1024 |
Interface | PCIe 2.0 |
La carte vidéo Radeon HD4870 s'est avérée non seulement en paroles, mais en fait le concurrent le plus réel de la carte vidéo GeForce GTX 260 de NVIDIA. Nous n'avons pas vu cela depuis longtemps, car les "meilleurs" représentants des deux précédentes familles de cartes vidéo d'AMD ne pouvaient rivaliser avec les produits NVIDIA qu'en paroles, mais en réalité, ils étaient trop lents. De toute évidence, la nouvelle unité de shader avec un nombre accru de processeurs de flux et une architecture modifiée s'est avérée plus puissante que l'unité de shader de la carte vidéo GeForce GTX 260. Certes, le nouveau produit est en deçà de la GeForce GTX 280, mais à en même temps, il offre un gameplay confortable dans presque tous les jeux modernes.
Mass Effect