enfrdepluk
Rechercher trouver 4120  discussion sociale  tg2 f2 lin2 in2 Icône X 3 y2  p2 Tik vapeur2

Pourquoi la mise à l'échelle et la génération d'images ne fonctionnent pas sur toutes les cartes vidéo

Upscalers DLSS vs FSR

Les technologies de mise à l'échelle et de génération d'images sont devenues partie intégrante du rendu graphique des jeux au cours des cinq dernières années. Ils vous permettent d'obtenir une qualité d'image élevée avec des coûts de performance inférieurs et augmentent également la fluidité du jeu même avec des paramètres ultra. Cependant, la plupart de ces solutions – comme le DLSS de NVIDIA, le FSR d’AMD et le XeSS d’Intel – ont une compatibilité limitée : certaines ne fonctionnent que sur certaines générations. GPU, d'autres sont totalement exclusifs à une architecture. Pourquoi cela arrive-t-il ? Dans cet article, nous examinerons de plus près les origines, le développement et les limitations matérielles des upscalers les plus populaires pour comprendre pourquoi ils ne sont pas pris en charge sur toutes les cartes graphiques.

Comment la mise à l'échelle a vu le jour : utiliser DLSS et la génération de trames DLSS comme exemple

L'upscaling moderne est le résultat d'une longue évolution des technologies de rendu, commençant par un simple filtrage et un anticrénelage et conduisant à l'utilisation de réseaux neuronaux et d'apprentissage automatique. Le tournant est survenu en 2018, lorsque NVIDIA a présenté la première version de DLSS (Deep Learning Super Sampling). Bien que la technologie ait été initialement conçue comme un algorithme d'anticrénelage intelligent, ses créateurs, dirigés par Jensen Huang, ont rapidement réalisé que le potentiel du DLSS allait bien au-delà de la simple lutte contre les crénelures sur les bords des objets. L’accent a été mis sur l’amélioration des performances en mettant à l’échelle les images d’une résolution inférieure à une résolution supérieure tout en conservant une qualité visuelle comparable au rendu natif.

dls 1

DLSS 1.0 utilisait des modèles de réseaux neuronaux formés sur des jeux spécifiques, ce qui nécessitait un effort important de la part des développeurs : NVIDIA devait pré-analyser chaque jeu et former le modèle en tenant compte des caractéristiques uniques de la scène et du comportement de la caméra. Cette flexibilité limitée a donné lieu à des plaintes concernant la qualité, certains titres présentant un flou excessif ou des artefacts.

DSS 2.0

DLSS 2.0 a complètement changé l'approche, créant une architecture universelle qui utilise des tampons temporaires, des données de mouvement, des cartes de profondeur et de couleur et un algorithme d'approximation des détails amélioré. Cela a considérablement amélioré la qualité et simplifié l’intégration dans les jeux. DLSS 2.0 a fonctionné de manière stable et efficace sur de nombreux projets sans aucune formation supplémentaire.

DSS 3.0

Avec DLSS 3, NVIDIA est allé plus loin : la génération d'images a été introduite (Frame Generation), dans lequel le système a non seulement amélioré la résolution, mais a également créé de nouvelles images basées sur l'analyse du mouvement entre les deux précédentes. Ceci est rendu possible par l'Optical Flow Accelerator, un bloc capable d'interpréter les vecteurs de mouvement et les caractéristiques de la scène au niveau du flux de pixels. Cependant, la génération de trames à part entière nécessite non seulement un bon flux de données, mais également une prise de décision rapide en temps réel. C'est pourquoi DLSS 3 est exclusif à la RTX 40 : l'architecture Ada Lovelace permet la vitesse de traitement nécessaire grâce à la troisième génération de Tensor Core et au système Reflex.

DSS 4

L'étape suivante, DLSS 4, est arrivée en 2025 et était exclusive à la RTX 50. Dans cette version, NVIDIA a introduit Multi Frame Generation — une méthode dans laquelle plusieurs images « prédites » sont insérées entre chaque image réelle. Cela est devenu possible grâce à l’utilisation de modèles de réseaux neuronaux transformateurs – les mêmes que ceux utilisés dans la PNL moderne et l’IA générative. L’exécution de tels modèles nécessite une puissance de calcul et une bande passante énormes, ainsi que des unités matérielles spécialisées pour la formation et l’inférence. La RTX 50 a introduit pour la première fois les composants suivants : Tensor Core de cinquième génération, unités RT accélérées et caches étendus. Ainsi, le DLSS est passé de l'anticrénelage à un générateur vidéo à part entière, mais chaque étape en avant s'est accompagnée d'exigences matérielles accrues.

Comment FSR et la génération de trames FSR sont nés

AMD a pris un chemin complètement différent. En 2021, la société a présenté la première version de FidelityFX Super Resolution (FSR), en commençant par la solution la plus polyvalente : FSR 1.0 était un algorithme de mise à l'échelle entièrement spatial. Il ne s'appuyait pas sur des informations temporelles, ne nécessitait pas d'apprentissage automatique et fonctionnait sur n'importe quel système d'exploitation moderne. GPU, y compris les cartes NVIDIA et même les graphiques Intel intégrés. Cette approche a assuré la diffusion immédiate de la technologie, mais la qualité était inférieure à celle du DLSS.

fsr 2.0

Avec l'introduction de FSR 2.0 en 2022, AMD a ajouté des tampons temporaires et des vecteurs de mouvement à l'algorithme. Cela a permis un saut qualitatif dans la mise à l'échelle, rendant l'image moins bruyante et augmentant la stabilité de la dynamique. Cependant, FSR n’utilisait toujours pas de réseaux neuronaux – son objectif principal était l’accessibilité.

FRS 3.0

Cela a changé avec FSR 3 en 2023, lorsqu'AMD a introduit une génération d'images similaire à DLSS 3. Bien que la technologie soit restée « ouverte », FSR 3 nécessitait plus de performances pour fonctionner correctement, notamment une implémentation efficace du flux optique et une gestion du tampon temporel. Pour cette raison, la génération de trames dans FSR 3 ne fonctionnait pas sur tous les GPU.

fsr 4

FSR 4, sorti en 2025, est devenu encore plus exigeant. Dans cette version, AMD a ajouté pour la première fois des éléments d'apprentissage automatique : des filtres de réseau neuronal local, des modèles de mouvement temporel et la prédiction du comportement de la caméra sont utilisés. Cela nécessitait de nouveaux blocs au sein de l’architecture RDNA 4, appelés officieusement accélérateurs d’IA. Ces composants ne se trouvent que dans les Radeon RX 9000 et versions plus récentes. Ainsi, bien que le cœur de FSR 4 reste ouvert, ses fonctionnalités FG avancées (Frame Generation) fonctionnent exclusivement sur les dernières cartes vidéo AMD.

Comment XeSS est né

XeSS (Xe Super Sampling) a été introduit par Intel en 2022 en réponse aux solutions existantes d'AMD et de NVIDIA. Contrairement à ses concurrents, Intel s’est initialement fixé comme objectif de rendre sa technologie universelle et multiplateforme. XeSS utilise l’apprentissage automatique, mais l’implémente d’une manière qui prend en compte les différences de matériel. Les cartes graphiques Intel Arc utilisent l'accélération matérielle via des blocs XMX (Xe Matrix Extensions) - des modules spécialisés similaires au Tensor Core de NVIDIA. Ces blocs sont conçus pour effectuer rapidement les opérations matricielles requises pour l’inférence du réseau neuronal.

XeSS

Pour les autres cartes vidéo, XeSS prend en charge un mode de secours basé sur les instructions DP4a, qui est une fonctionnalité de calculs accélérés via SIMD, présente dans GPU à commencer par NVIDIA GTX série 10 et AMD RDNA 1. Cependant, la qualité d'image et les performances sont inférieures au mode XMX. Cette architecture flexible a permis à Intel de fournir une compatibilité minimale avec une large gamme de matériel.

Intel promeut XeSS comme une technologie à spécification ouverte. Cependant, les mises à jour récentes - versions 1.3 et supérieures - ont ajouté la prise en charge des fonctionnalités expérimentales de génération de trames basées sur le temps. Pour l'instant, ils ne sont disponibles que sur les cartes graphiques Intel Battlemage, qui implémentent la deuxième version des cœurs XMX. Ces cœurs ont reçu un débit amélioré, une prise en charge du travail à précision variable (FP8/INT4) et une optimisation pour les tâches en temps réel.

Ainsi, bien que XeSS ait débuté comme un projet extrêmement ouvert et compatible, son évolution montre que des fonctionnalités avancées commencent également à nécessiter un support matériel. Et si la mise à l'échelle de base est disponible sur presque tous GPU, alors des fonctionnalités similaires à DLSS 3 et 4 nécessitent les derniers GPU Intel.

Pourquoi DLSS 1 et 2 n'étaient pas pris en charge sur les cartes graphiques non RTX

La limitation du DLSS 1 et 2 uniquement sur les cartes vidéo RTX s'explique par l'architecture technique de ces solutions. Les deux versions ont été initialement développées avec Tensor Core, les modules spécialisés pour les opérations de réseaux neuronaux introduits pour la première fois dans l'architecture Turing. Ces cœurs offrent une vitesse élevée de multiplication de matrices, ce qui est nécessaire pour effectuer des opérations convolutives dans les réseaux neuronaux profonds.

Noyau de tenseur

Les séries GTX (par exemple GTX 1080 Ti) et les cartes graphiques AMD ne disposent pas de tels blocs. Même si vous essayez d'émuler DLSS en utilisant des cœurs CUDA ou des unités de shader classiques, les performances chutent des dizaines de fois et le résultat devient inutile. De plus, DLSS utilise le SDK NGX (Neural Graphics Acceleration), qui vérifie l'architecture Tensor Core et RTX au niveau du pilote.

Ainsi, même avec une puce graphique puissante (comme TITAN V), il est impossible d'exécuter DLSS : le manque d'intégration NGX et Tensor Core bloque l'accès à l'API. Les tentatives de tiers visant à modifier le SDK ou à lancer DLSS via des méthodes de piratage externes ne produisent pas de résultats, car la logique même de DLSS repose sur une connexion étroite entre le code matériel et le code logiciel.

Pourquoi la génération d'images DLSS 3 est prise en charge sur les cartes vidéo non inférieures à RTX 40

La génération de trames dans DLSS 3 repose sur la technologie Optical Multi Frame Flow, implémentée dans l'architecture Ada Lovelace. Pour analyser le mouvement entre les images, l'accélérateur de flux optique de troisième génération est utilisé - un module matériel spécialisé qui manque aux séries RTX 30 et inférieures.

Flux optique multi-images

Cet accélérateur calcule les vecteurs de mouvement entre les pixels de deux images à l'aide de cartes de profondeur, de tampons de vitesse et de masques d'ombre. Sans ce module, il est impossible de générer avec précision une image intermédiaire - le résultat sera des artefacts visuels et une image « double ». C'est pourquoi la RTX 30, malgré son processeur Tensor Core, ne peut pas prendre en charge DLSS 3 Frame Generation.

Flux optique multi-images 2

De plus, DLSS 3 nécessite une interaction avec le système NVIDIA Reflex. Il synchronise les trames entre le CPU et GPU, réduisant le décalage d'entrée. Sans Reflex, l’introduction de trames supplémentaires augmenterait considérablement la latence de contrôle. La prise en charge de Reflex dans DLSS 3 est strictement liée à l'architecture Ada Lovelace, ce qui la rend impossible sur RTX 30.

Pourquoi la génération d'images DLSS 4 est prise en charge sur les cartes vidéo non inférieures à RTX 50

DLSS 4 nécessite l'architecture Blackwell et le nouveau Tensor Core de 3e génération. Cette version utilise des modèles de transformateurs - des réseaux neuronaux complexes capables de prédire la dynamique de la scène 4 à XNUMX images à l'avance. Pour ce faire, il est nécessaire de mettre en mémoire tampon plusieurs couches temporelles : flux optique, cartes de profondeur, masques de mouvement, états des particules et comportement de la caméra.

Noyau tenseur Blackwell

Ce traitement à plusieurs niveaux nécessite un accès haut débit à la mémoire vidéo, une ligne de cache supplémentaire et une hiérarchie ALU repensée. Tous ces composants sont implémentés pour la première fois uniquement dans RTX 50. Même RTX 40 avec sa puissante architecture ne peut pas fournir le traitement simultané de 4 à 6 tampons temporels en temps réel.

De plus, DLSS 4 nécessite le double de bande passante pour les opérations en mode mixte (FP16/INT8) et des unités de transformation pour une évolutivité adaptative, des fonctionnalités intégrées à Tensor Core 5.0. Ainsi, le passage vers le Multi Frame Generation nécessite une mise à jour radicale de l'architecture, ce qui rend DLSS 4 impossible sur les cartes plus anciennes.

Pourquoi la génération d'images FSR est prise en charge sur les cartes vidéo non inférieures à RX 9000

Le FSR 4 d'AMD a été le premier à implémenter la génération de trames adaptatives basée sur le ML. Contrairement à FSR 3, où les images étaient générées à l'aide d'un algorithme codé en dur basé sur le flux optique, FSR 4 utilise un système de prédiction entraînable basé sur des modèles temporels et une analyse des états de scène précédents. Pour réaliser ces tâches, des accélérateurs d'IA matériels sont nécessaires - des unités de calcul d'IA, qui n'apparaissent que dans l'architecture RDNA 4.

Unités de calcul IA FSR 4

Les cartes graphiques des séries RX 6000 et 7000 (RDNA 2 et 3) ne contiennent pas ces blocs. De plus, ils ne disposent pas de la largeur de bus mémoire nécessaire pour traiter les tampons de mouvement et les modèles prédictifs en parallèle. FSR 4 utilise également la version 5.0 mise à jour du SDK FidelityFX, qui est incompatible avec la base de microcode des pilotes GCN et RDNA 2 hérités.

FSR 4 nécessite au moins 64 cœurs AI, la prise en charge de BFLOAT16, une longueur d'instruction variable et le traitement INT4, tous introduits dans le RX 9000. Ainsi, malgré l'ouverture formelle de FSR, la nouvelle génération de trames fonctionne exclusivement sur les dernières cartes graphiques AMD.

Conclusion

Les upscalers modernes ne sont plus de simples algorithmes permettant d’étirer des images. Il s’agit de systèmes complexes qui incluent des éléments de vision par ordinateur, d’analyse de mouvement, de travail avec des tampons temporels et même des réseaux neuronaux transformateurs. Il n’est donc pas surprenant qu’ils nécessitent du matériel spécialisé pour fonctionner correctement : cœurs tenseurs, accélérateurs de flux optique, unités d’IA et caches avancés. Chaque nouvelle itération de DLSS, FSR ou XeSS élève la barre, mais lie également plus étroitement les technologies à des générations spécifiques de cartes vidéo. Ainsi, le manque de soutien sur les anciens GPU s’explique non pas par la cupidité des producteurs, mais par des cadres techniques objectifs. Le progrès nécessite de nouvelles solutions – et de nouvelles puces capables de gérer la complexité croissante des graphiques en temps réel.