GeForce RTX 4070 Ti
La GeForce RTX 4070 Ti est basée sur le GPU AD104 et comprend 7680 cœurs CUDA délivrant 40 téraflops de shader avec une précision FP32 pour le rendu graphique, 240 cœurs de tenseur de génération 641 offrant 60 billions d'opérations de matrice creuse pour le traitement AI et DLSS, 93 générations de cœurs RT 12 de Architecture Ada avec 6 performances RT-TFLOPS pour une accélération graphique par lancer de rayons de nouvelle génération et 40 Go de mémoire GDDR4070X. Comme tous les GPU de la série GeForce RTX 3, le RTX XNUMX Ti intègre les innovations Ada, notamment Shader Execution Reordering (SER), un nouveau moteur de flux optique, de nouveaux cœurs RT et DLSS XNUMX.
Architecture NVIDIA Ada
L'architecture NVIDIA Ada est un pas de géant en termes de performances. De nombreuses améliorations en font le plus rapide et le plus avancé. Le RTX 4070 Ti est fabriqué à l'aide du processus 4N personnalisé de TSMC et contient 35,8 milliards de transistors et 7680 cœurs CUDA. Traçage accéléré par le matériel, cœurs Tensor de 1e génération pour améliorer les performances de l'IA, encodeurs de XNUMXe génération avec prise en charge de l'encodage et du décodage AVXNUMX et améliorations DLSS qui offrent des fréquences d'images élevées dans les jeux compétitifs et des paramètres ultra avec le traçage de rayons activé.
Multiprocesseur de streaming NVIDIA Ada
Les cartes vidéo RTX ont trois processeurs principaux: des cœurs CUDA universels programmables, qui traitent les shaders à usage général et les applications CUDA, des cœurs RT pour accélérer le calcul des intersections de rayons avec des triangles et des volumes englobants, les cœurs RT de l'architecture Ada ont doublé le taux de calcul des intersections avec triangles, le dernier type de processeur - pipeline de traitement de l'intelligence artificielle appelé cœurs de tenseur.
Ada améliore les trois processeurs RTX
Shaders programmables : 40 téraflops de shader contre 21,7 téraflops sur le RTX 3070 Ti. Le processeur Ada Shader comprend une nouvelle technologie importante appelée Shader Execution Reordering (SER), qui réorganise le travail à la volée, offrant une accélération XNUMXx pour les shaders de lancer de rayons. SER est une innovation aussi importante pour les GPU que l'exécution dans le désordre l'était autrefois pour les CPU.
Gen 4 Tensor Cores: Le nouveau Tensor Core d'Ada comprend le moteur de transformateur NVIDIA Hopper FP8 fournissant jusqu'à 641 téraflops de tenseur de précision FP8 sur des matrices clairsemées dans le RTX 4070 Ti pour la formation et l'inférence IA, contre 174 téraflops de tenseur sur des matrices clairsemées dans le RTX 3070 Ti. Par rapport au FP16, le FP8 réduit de moitié les besoins en mémoire et double les performances de l'IA.
Gen 3 RT Cores : Le nouveau moteur Opacity Micromap effectue en moyenne deux fois la vitesse des calculs d'intersection pour les surfaces avec un test de transparence de texture lorsque les développeurs utilisent cette fonctionnalité, et le nouveau moteur Micro-Mesh augmente les détails géométriques sans le coût d'assemblage et de stockage du BVH. Le débit d'Ada sur les tests croisés est de 93 RT-TFLOPS par rapport aux 42,5 RT-TFLOPS du 3070 Ti.
Noyaux tenseurs de 4e génération
Les cœurs tensoriels sont des cœurs de calcul hautes performances spécialisés et adaptés aux opérations de multiplication et d'addition de matrices utilisées dans les applications d'intelligence artificielle et pour le calcul haute performance. Les cœurs de tenseur offrent des performances révolutionnaires pour les calculs matriciels, qui sont essentiels pour former des réseaux de neurones multicouches et déduire des réseaux déjà formés. Des exemples d'applications avec inférence incluent NVIDIA DLSS 3 pour les joueurs, où un réseau neuronal séparé est responsable de la génération d'images de haute qualité, toutes alimentées par le NVIDIA Tensor Core. Le DLSS est devenu si populaire qu'il existe déjà plus de 250 jeux prenant en charge cette technologie, dans laquelle les joueurs peuvent doubler les performances en un seul clic. De plus, de nombreuses applications créatives ont commencé à utiliser des fonctionnalités d'intelligence artificielle pour aider les artistes à créer du contenu plus rapidement et avec une meilleure qualité. Aujourd'hui, plus de 110 applications créatives populaires utilisent l'accélération du tenseur et du cœur RT sur les cartes graphiques RTX. Et des applications NVIDIA exclusives telles que Diffusez и Toile, offrent des outils pour supprimer le bruit, créer des arrière-plans virtuels et de nombreux autres effets alimentés par l'IA pour le streaming vidéo et les conférences.
L'Ada Tensor Core de quatrième génération s'appuie sur les capacités des GPU Ampere précédents qui prenaient en charge de nombreux nouveaux types de données et ajoutaient une accélération de la parcimonie structurée pour doubler le débit des cœurs Turing précédents. Les cœurs de tenseur de génération Ada prennent en charge le nouveau format de données FP8, introduit pour la première fois dans l'architecture GPU NVIDIA Hopper. Par rapport au FP16, le FP8 réduit de moitié les besoins en stockage et double les performances de l'IA. Avec le nouveau format FP8 et la fonction de parcimonie, la GeForce RTX 4070 Ti offre 641 TFLOPS de performances pour les charges de travail AI.
Cœurs RT de 3e génération
Les cœurs RT de troisième génération d'Ada sont des blocs matériels dédiés pour accélérer les calculs de traversée BVH et d'intersection rayon-triangle, qui sont essentiels pour accélérer le lancer de rayons. Les cœurs RT des cartes vidéo RTX sont complètement indépendants, ils effectuent tous les calculs de traversée et d'intersection BVH, déchargeant ainsi les multiprocesseurs de streaming SM avec des cœurs CUDA et les libérant pour d'autres tâches telles que l'ombrage des pixels, l'ombrage des sommets et les calculs à usage général.
Les cœurs RT de l'architecture Ada fournissent des tests d'intersection de rayons triangulaires 2 fois plus rapides que les GPU NVIDIA Ampere, permettant aux développeurs d'ajouter plus de détails à leurs mondes virtuels. Les cœurs Ada RT incluent également de nouveaux blocs Opacity Micromap Engine qui accélèrent le traçage de la géométrie alpha-testé par un facteur de 2, ce qui aidera les développeurs à accélérer les scènes gourmandes en ressources avec des effets de végétation et de particules jusqu'à 2x pour le traçage. Les nouveaux cœurs RT incluent également des blocs Displaced MicroMesh Engine, qui génèrent un micromesh à la volée pour créer une géométrie supplémentaire.
Toutes ces améliorations des performances du lancer de rayons donnent à l'architecture Ada une grande longueur d'avance. À mesure que de nouveaux jeux utilisent les technologies Ada pour améliorer les performances, les cartes graphiques de la série RTX 40 deviendront sans aucun doute plus rapides et plus avancées que la génération précédente de cartes graphiques de la série RTX 30. Un exemple est un remaster récent. Portail avec RTX basé sur le RTX Remix, dans lequel NVIDIA utilise de nouvelles fonctionnalités de l'architecture Ada, telles que les moteurs OMM et SER (qui, soit dit en passant, peuvent être désactivés dans les paramètres), ensemble, ils permettent au RTX 4090 d'être jusqu'à 3 fois plus rapide que le RTX 3080 Ti sans utiliser DLSS, et avec l'utilisation du générateur de trames DLSS 3, l'avantage peut être jusqu'à 5 fois.