Bras Cortex-A77 - tout ce que vous devez savoir

Auteur: Randy Alexander
Date De Création: 2 Avril 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
15 CHOSES QUE VOUS NE SAVIEZ PAS SUR LES FEMMES | Lama Faché
Vidéo: 15 CHOSES QUE VOUS NE SAVIEZ PAS SUR LES FEMMES | Lama Faché

Contenu


Outre son nouveau processeur graphique Mali-G77 et son processeur d’affichage Mali-D77, Arm a dévoilé sa dernière conception de processeur hautes performances, le Cortex-A77. Comme le Cortex-A76 de l’année dernière, le Cortex-A77 est conçu pour les applications de niveau supérieur exigeant une faible consommation d’énergie, caractéristique de Arm. Tout, des smartphones aux ordinateurs portables et probablement au-delà.

Avec le Cortex-A77, Arm a ciblé l’augmentation maximale des performances en instructions / cycle / horloge (IPC) qu’elle pouvait gérer par rapport au Cortex-A76. Les fréquences d'horloge, la consommation d'énergie et la surface sont toutes conçues pour rester à peu près dans le même stade, mais le nouveau noyau peut fonctionner avec plus d'instructions en même temps. Pour ce faire, Arm a conçu un noyau encore plus large que celui de l’année dernière et a apporté un certain nombre d’améliorations pour que le cœur de la CPU reste alimenté. Mais avant d’y arriver, passons à l’aperçu de haut niveau et aux chiffres de performance.


Atteindre les objectifs de performance

En août 2018, Arm partageait de façon inhabituelle une feuille de route pour l’unité centrale jusqu’en 2020. Entre 2016 et le design «Hercules» du Cortex-A73 jusqu’en 2020, la société promettait une augmentation de 2,5 fois des performances de calcul. Une bonne partie de cette énorme projection a été réalisée avec le virage majeur en microarchitecture avec le Cortex-A76, des vitesses d'horloge modernes plus élevées et le passage de la fabrication de 16 à 10 et maintenant de 7 nm avec 5 nm à suivre. Environ 1,8 fois plus de gains de la feuille de route ont déjà été réalisés l’an dernier, et le Cortex-A77 fournit une augmentation supplémentaire d’environ 20% du CIP. Nous sommes donc bien sur la voie de la cible 2.5x d’Arm, bien que les appareils mobiles avec des budgets énergétiques et thermiques limités ne s’attendent pas à voir tous ces gains.


À titre de comparaison, le Cortex-A76 de l’année dernière a généré une augmentation de 30 à 35% par rapport au Cortex-A75. Cette année, nous nous attendons à un gain d’IPC plus modéré, mais tout de même significatif, de 20% entre les A77 et A76. C'est une bonne nouvelle car cela signifie davantage de performances tout en maintenant les mêmes contraintes thermiques et de puissance. Le compromis est que l'A77 est environ 17% plus grand que l'A76, donc coûtera un peu plus cher en termes de surface de silicium. Si vous voulez une comparaison avec les leaders du marché, AMD a géré une augmentation de 15% de l’IPC entre Zen2 et Zen +, tandis que l’IPC d’Intel est resté pratiquement statique pendant des années.Nous parlons bien sûr de différents segments de marché, mais cela montre à quel point l’équipe de conception du processeur d’Arm a réalisé des gains impressionnants au cours des dernières générations.

Une augmentation de 20% des performances est proposée pour les SoC de nouvelle génération à base de Cortex-A77

Il faut retenir que l’A76 a marqué un changement microarchitectural majeur avec d’énormes gains de performances, alors que nous sommes revenus à des améliorations au niveau de l’optimisation avec l’A77. Ceci dit, passons à ce qui est nouveau dans le bras Cortex-A77.

Cortex-A77 s'appuie sur la microarchitecture A76

Pour comprendre la différence entre le Cortex-A77 et le A76, il est essentiel de comprendre ce que l’on entend par une conception de base «plus large». Nous parlons essentiellement de la possibilité d’exécuter plus d’instructions pour chaque cycle d’horloge, ce qui augmente le débit du cœur. Cela nécessite deux éléments importants: augmenter le nombre d'unités d'exécution chargées du traitement et veiller à ce que ces unités soient bien alimentées en données. Commençons par la dernière partie et concentrons-nous sur les parties dispatch, cache et branche du SoC.

Le Cortex-A77 voit sa largeur d’envoi augmenter de 50%, jusqu’à six instructions par cycle sur quatre avec le A76. Cela signifie plus d'instructions vers le noyau d'exécution pour chaque cycle d'horloge pour un meilleur potentiel de performance. La fenêtre d'exécution dans le désordre est également plus grande, passant à 160 entrées pour exposer davantage de parallélisme. Il existe un cache d’instructions 64K bien connu, tandis que le tampon de cible de branche (BTB), qui contient les adresses du prédicteur de branche, est 33% plus grand qu’avant pour gérer la croissance des instructions parallèles. Rien d’inhabituel ici, c’est essentiellement une version plus large du design de l’année dernière.

L'ajout frontal le plus intriguant est le tout nouveau cache 1,5K MOP, qui stocke les macro-opérations (MOP) qui sont réinjectées à partir de l'unité de décodage. L’architecture de la CPU d’Armay décode les instructions d’une application utilisateur en macro-opérations plus petites, puis en micro-opérations comprises par le noyau d’exécution. Vous pouvez voir cela sur le diagramme ci-dessus dans la section décodage. Le cache MOP sert à réduire les coûts liés aux branches et aux flush manqués, car vous gardez la main sur les macro-opérations plutôt que de les décoder à nouveau, ce qui augmente le débit global du cœur. Les extractions à partir de la MOP plutôt que d'i-cache contournent l'étape de décodage, en économisant un cycle. Selon Arm, le cache MOP peut atteindre un taux de réussite de 85% ou plus sur une série de charges de travail, ce qui en fait un complément très utile au cache i-standard.

En descendant dans la partie centrale de l'exécution de la CPU, notez l'ajout d'une quatrième unité ALU et d'une deuxième unité Branch. Cette quatrième ALU augmente de 50% la largeur de bande occupée par le processeur en général. Cette unité ALU supplémentaire est capable d'instructions de base à un cycle (telles que ADD et SUB) plus d'opérations entières à deux cycles, telles qu'une multiplication. Deux des autres ALU ne peuvent gérer que des instructions de base à un cycle, tandis que l'unité finale est chargée d'opérations mathématiques plus avancées telles que la division, l'accumulation multiple, etc. La seconde unité située à l'intérieur du noyau d'exécution double le nombre de sauts de branche simultanés. core peut gérer, ce qui est utile dans les cas où deux des six instructions envoyées sont des sauts de branche. Cela semble un peu étrange, mais des tests internes effectués par Arm ont révélé les avantages de l’adoption de cette deuxième unité.

Le Cortex-A77 offre un parallélisme amélioré et une nouvelle approche des caches de prélecture

L'ajout d'un second pipeline de chiffrement AES est un autre avantage du cœur de la CPU. Les pipelines de stockage de données disposent désormais de ports d’émission dédiés pour doubler la bande passante d’émission de mémoire. Ces ports étaient auparavant partagés avec les ALU, ce qui pouvait parfois devenir un goulot d'étranglement. Il existe également un perfectionneur de données de nouvelle génération destiné à améliorer l’efficacité énergétique tout en augmentant la bande passante de la mémoire DRAM du système.

Une partie de ce système dans le Cortex-A77 comprend également un tout nouveau système de prélecture «compatible système». Cela améliore les performances de la mémoire en fonction du grand nombre de cœurs de processeur, des capacités de cache et des latences, ainsi que des configurations de sous-système de mémoire au sein des périphériques finaux. Le matériel dédié doit communiquer avec l'unité de planification dynamique (DSU) dans le cadre d'un cluster de processeurs DynamIQ, qui surveille l'utilisation du cache L3 partagé. Caractéristiques principales Niveaux dynamiques d’agressivité et de distance pour réduire l’utilisation du cache dans les situations où la bande passante L3 est limitée par d’autres cœurs de processeur. Les cœurs plus performants, tels que le Cortex-A77, satureront probablement davantage l’accès du DSU à la mémoire, alors qu’il est peu probable que les cœurs à faible puissance comme le A55.

Tout mettre ensemble

Le Cortex-A77 comporte de nombreux petits changements qui apportent des différences substantielles à son prédécesseur. En un mot, le nouveau cache de MOP de l’A77 associé à une fenêtre d’instructions plus large et plus longue permet de garder les unités ALU, Branch et mémoire renforcées, en pleine activité. La conception puissante de Cortex-A76 a été étendue pour améliorer encore davantage son débit avec l'A77, sans compter sur des vitesses d'horloge plus élevées.

Les plus grandes augmentations de performances au Cortex-A77 arrivent sous la forme d'un calcul mathématique entier et à virgule flottante. C’est ce que confirment les critères de référence internes d’Arm, qui mettent en évidence une augmentation de 20 à 35% des performances des critères de référence entiers et flottants de la SPEC, respectivement. Les améliorations de la bande passante de la mémoire se situent entre 15 et 20%, soulignant à nouveau que les gains les plus importants concernent la compression des chiffres. Globalement, ces améliorations confèrent à l’A77 une augmentation moyenne de 20% par rapport à la génération précédente. Nous pourrions également voir des gains supplémentaires, plus marginaux, résultant de procédés de fabrication plus avancés à 7 nm plus tard cette année ou au début de 2020.

En ce qui concerne les smartphones, les SoC alimentés par Cortex-A77 sont destinés à des produits phares hautes performances. Arm s’attend pleinement à ce que la conception de la centrale électrique utilise des arrangements de base 4 + 4 bits.LITTLE. Compte tenu du débit accru et de la légère augmentation de la superficie de l'A77, nous verrons probablement les concepteurs de systèmes sur puce continuer à suivre la tendance 1 + 3 + 4 ou 2 + 2 + 4. Avec un ou deux grands noyaux puissants avec des caches plus grands et des horloges plus élevées, sauvegardés par 2 ou 3 cœurs A77 avec des caches plus petits et des horloges plus basses pour économiser de l'énergie et de la place. En fin de compte, le Cortex-A77 est une bonne chose pour les puces de smartphone et le marché en pleine croissance des ordinateurs portables Arm toujours connectés. Surveillez les annonces sur le silicium plus tard cette année.

Le jeux Tower Defene ont été l’un de premier genre ur mobile à vraiment capter l’audience de jeux ur mobile. La principale raion et que le jeux comportent preque excluivement de comman...

Le martphone ont, à la bae, de outil. Pour cette raion, de nombreux développeur ont créé pour eux de tonne d’outil qui fonctionnent vraiment bien. Le genre et en fait aez diverifi...

Publication