Bras Mali-G77 GPU - les entrées et sorties complètes

Auteur: Randy Alexander
Date De Création: 3 Avril 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Bras Mali-G77 GPU - les entrées et sorties complètes - Les Technologies
Bras Mali-G77 GPU - les entrées et sorties complètes - Les Technologies

Contenu


Parallèlement à son nouveau cœur de processeur Cortex-A77, Arm a dévoilé un processeur graphique de nouvelle génération destiné aux systèmes sur puce pour smartphones de prochaine génération. Le Mali-G77, à ne pas confondre avec le nouveau processeur d’affichage Mali-D77, marque le départ de l’architecture Arm's Bifrost et le transfert à Valhall.

Nous entrerons dans les détails de la nouvelle architecture dans un instant. Premièrement, nous allons entrer dans les attentes des utilisateurs en termes de gains de performances.

Aperçu des performances du Mali-G77

Avec ses appareils Mali-G77 de nouvelle génération, les performances de la technologie graphique du bras sont jusqu’à 40% supérieures à celles des modèles Mali-G76 d’aujourd’hui. Ce nombre prend en compte les processus ainsi que les améliorations architecturales. Le Mali-G77 est configurable de 7 à 16 noyaux de shader, et chaque noyau a presque exactement la même taille que le noyau G76. Cela signifie que les smartphones haut de gamme seront probablement livrés avec un nombre de GPU similaire à celui d'aujourd'hui, quelque part chez les adolescents. Cela nous permet de faire des évaluations spéculatives de la performance par rapport aux chipsets existants.


En examinant le référentiel populaire GFXBench de Manhattan, une augmentation de 40% des performances ouvre une avance considérable sur le matériel de la génération actuelle. La puce Adreno de nouvelle génération de Qualcomm aura besoin de sa propre mise à niveau significative des performances pour rester sur le terrain. Les tables semblent tourner en faveur de Arm.

En termes d’architecture, les performances de jeu augmentent de 20 à 40%, tandis que l’apprentissage automatique gagne 60%.

Sur la base de ce ballparking plutôt grossier, un Mali-G77 à 10 cœurs (une configuration que nous voyons souvent chez Huawei) a pour objectif de surpasser à peu près le matériel graphique mobile de pointe de cette génération. Une configuration à 12 cœurs, généralement présente dans l’Exynos de Samsung, fournit une grande avance au dernier processeur graphique d’Arm. Bien entendu, les véritables points de repère dépendent d'autres facteurs, notamment le nœud de processus, la mémoire cache du GPU, la configuration de la mémoire LPDDR et le type d'application que vous testez. Alors, prenez le graphique ci-dessus avec une grosse dose de sel.


En ce qui concerne la seule architecture, Arm indique que le Mali-G77 offre une amélioration moyenne de 30% de l'efficacité énergétique et de la densité de performance. Grâce à la prise en charge des produits INT8 dot, les applications d’apprentissage automatique ont également considérablement augmenté de 60%. Les attentes en matière de performances de jeu se situent entre 20 et 40% de plus, en fonction du titre et du type de charge de travail graphique proposée.

Pour comprendre exactement comment Arm a réussi à améliorer ses performances, examinons plus en profondeur l’architecture.

Rencontrez Valhall, le successeur de Bifrost

Vahall est l’architecture GPU scalaire de deuxième génération d’Arm. Il s’agit d’un moteur d’exécution à 16 largeurs de largeur, ce qui signifie essentiellement que le processeur graphique exécute 16 instructions en parallèle par cycle, par unité de traitement et par cœur. Cela fait 4 à 8 de large à Bifrost.

Parmi les autres nouvelles caractéristiques architecturales, citons la planification dynamique des instructions gérées entièrement dans le matériel et un tout nouveau jeu d'instructions qui conserve l'équivalent opérationnel de Bifrost. D'autres incluent la prise en charge du format de compression ArmBC AFBC1.3, des cibles de rendu FP16, du rendu en couches et des sorties de vertex shader.

Le Mali-G77 fait 33% plus de calculs en parallèle que le G76.

L'examen de l'unité d'exécution à l'intérieur du noyau permet de comprendre les principales modifications d'architecture. Cette partie du GPU est responsable du traitement des chiffres.

À l'intérieur du moteur d'exécution

Dans Bifrost, chaque cœur de GPU contenait trois moteurs d’exécution ou deux dans le cas de certains modèles Mali-G52 bas de gamme. Chaque moteur contient une i-cache, un fichier de registre et une unité de contrôle de chaîne. Sur le Mali-G72, chaque moteur traite 4 instructions par cycle, qui sont passées à 8 instructions par rapport au Mali-G76 de l’année dernière. La propagation sur ces trois cœurs permet de disposer de 12 et 24 instructions FMA (Multipluct Cumulus) fusionnées (F32) par cycle.

Avec Valhall et le Mali-G77, il n’ya qu’un seul moteur d’exécution dans chaque cœur de GPU. Comme auparavant, ce moteur héberge l’unité de contrôle de la chaîne, le registre et l’icache, qui sont maintenant partagés entre deux unités de traitement. Chaque unité de traitement gère 16 instructions de warp par cycle, pour un débit total de 32 instructions FMA FP32 par cœur. Cela représente une augmentation de 33% du débit d’instruction par rapport au Mali-G76.

Arm est passé de trois à une seule unité d'exécution par cœur de GPU, mais il y a maintenant deux unités de traitement dans un cœur de G77.

De plus, chacune de ces unités de traitement contient deux nouveaux blocs de fonction mathématiques. La nouvelle unité de conversion (CVT) gère les instructions de base relatives aux nombres entiers, à la logique, aux branches et à la conversion. L'unité de fonction spéciale (SFU) accélère la multiplication d'entiers, les divisions, la racine carrée, les logarithmes et autres fonctions entières complexes.

L'unité FMA standard a subi quelques modifications, prenant en charge 16 instructions de produit FP32 par cycle, 32 instructions de produit FP16 ou 64 INT8. Ces optimisations génèrent un gain de performances de 60% dans les applications d’apprentissage automatique.

Le mappeur de texture quad

L'autre changement clé dans le Mali-G77 est l'introduction d'un mappeur de texture quad, par rapport à un mappeur de texture double de la génération précédente. Le mappeur de texture est chargé de mapper les polygones 3D d'une scène dans la représentation 2D que vous voyez sur un écran. Il est responsable de l’échantillonnage, de l’interpolation et du filtrage pour lisser le contenu incliné et en mouvement afin d’éviter les bords durs et de mauvaise qualité.

L'anti-aliasing à faible coût reste en place pour améliorer la qualité de l'image, mais le doublement des performances de la texture est le principal avantage. L'unité de texture traite maintenant 4 texels bilinéaires par horloge contre 2 précédemment, 2 texels trilinéaires par horloge et gère un filtrage plus rapide des FP16 et des FP32.

Le mappeur de texture quad est divisé en deux chemins, fournissant un pipeline plus court pour les threads qui atteignent le contenu dans le cache. Le chemin d'accès manquant, qui gère la conversion de format et la décompression de texture, présente une interface plus large pour le cache L2. Cela est également utile pour les charges de travail d'apprentissage automatique qui doivent souvent extraire de nouvelles données de la mémoire.

Tout rassembler dans le Mali-G77

Arm a apporté de nombreuses modifications au Mali-G77 afin de coïncider avec les changements majeurs apportés à l'architecture de Valhall. Le bloc de contrôle est simplifié grâce à la conception d'une unité d'exécution unique, tandis que l'ordonnanceur dynamique interne permet en réalité une instruction plus flexible pour l'émission à l'intérieur de chaque cœur. Avec un débit plus élevé dans chaque cœur, le chemin de données est également plus court et plus lent en latence, passant de 4 à 8 cycles auparavant.

La nouvelle conception est également mieux alignée sur l'API Vulkan, ce qui simplifie les descripteurs de pilote afin de réduire les frais généraux de ce dernier et d'améliorer les performances "à la vitesse du métal".

En résumé, le Mali-G72 et Valhall apportent d'importants changements par rapport à Bifrost, qui promettent des gains de performances significatifs pour les applications de jeu et d'apprentissage automatique. Il est important de noter que la conception s’inscrit dans les mêmes budgets énergétiques et sectoriels que Bifrost, garantissant ainsi que les appareils mobiles pourront offrir des performances optimales sans se soucier des coûts de chaleur, d’énergie et de silicium. Sur la base des projections de performances, le Mali-G77 devrait être en mesure de donner le bon rendement au Adreno de prochaine génération de Qualcomm.

tar Trek a célébré on 50e anniveraire en 2016. C’et incroyable que la franchie dure depui i longtemp et ait généré une i grande ditribution de peronnage mémorable. ...

Bien que tarz oit connu pour e premier film ur le nouveaux film avant d’autre chaîne payante rivale, il propoe également une programmation originale. Nou répertorion le meilleure é...

Soviétique