Nvidia A100: presentata la GPU basata su architettura Ampere

DiMarco Nisticò

PUBBLICATO IL 14 Mag 2020 ALLE 18:16 - AGGIORNATO IL 14 Maggio 2020 ALLE 19:21 #nvidia, #schede video

Oggi si è svolto il GTC 2020 di Nvidia, evento annuale in cui vengono annunciate le ultime novità tecnologiche dell’azienda e non solo. Purtroppo a causa del COVID-19 si è dovuto optare per un evento completamente online, organizzato da Jensen Huang direttamente dalla sua casa in California.

Qualche giorno fa è uscito un brevissimo video, della durata di qualche secondo, nella quale vediamo Jensen tirare fuori dal forno delle componenti elettroniche, di cui però non veniva menzionato nulla a riguardo. In realtà oggi si è scoperto che si trattava di Nvidia DGX A100, il primo sistema basato su architettura Ampere, la stessa che sarà alla base delle future RTX 3000.

Nvidia DGX A100: dettagli e informazioni

nvidia dgx a100

Nvidia DGX 100 è dotato di 8 schede video Nvidia A100 (320GB di memoria video totale), con una potenza complessiva di 156TFLOPS in FP64, 5PFLOPS in FP16 e 2.5TFLOPS in TF32. Secondo quanto affermato da Nvidia, questo sistema sarà in grado di offrire performance fino a 20 volte superiori rispetto ai sistemi DGX con architettura Volta, come il DGX1 con GPU Tesla V100. Tra le altre specifiche, DGX A100 integra due processori AMD EPYC 7742 da 64C/128T, ognuno con una frequenza base di 2.25GHz e massima di 3.4GHz, 1TB di memoria RAM, un SSD NVMe PCIe 4.0 da 15TB e nove VPI Mellanox ConnectX-6 per interconnessioni da 200Gb/s.

Mellanox è un’azienda leader nel settore del networking ad alte prestazioni. Da questa collaborazione è nato il Mellanox Spectrum 4000, uno switch dove ogni porta è in grado di elaborare una velocità di 400GB/s, per un totale di 25.4TB/s su tutte le porte. E’ stato poi realizzata l’NVIDIA Mellanox Bluescale 2, l’interfaccia di rete programmabile più avanzata al mondo, che permette la sicurezza dei dati mantenendo comunque una velocità considerevole di trasmissione.

Un sistema quindi in grado di eseguire calcoli estremamente complessi e che impiegheranno l’utilizzo dell’intelligenza artificiale.

Con questa nuova precisione, A100 offre 20 volte più potenza di calcolo per le computazioni IA di singola precisione, e poiché gli sviluppatori continuano a usare gli input di singola precisione e ottengono output di singola precisione, non hanno bisogno di nulla di diverso. Ottengono benefici automaticamente, non appena iniziano a usare la GPU

Kharya, director of product management for accelerated computing presso Nvidia

Nvidia A100: specifiche tecniche

nvidia a100

Nvidia A100 è il nome della GPU che sta alla base non solo dei sistemi business ma anche delle prossime soluzioni consumer. Si tratta di un chip realizzato con sistema produttivo a 7nm e composto da 56 miliardi di transistor, più del doppio rispetto a Volta. Il tutto però in una dimensione del die di 826mm2 contro gli 815 di Volta. Una differenza quindi minima in termini di dimensioni, ma abisalle in termini produttivi. Questo aumento di capacità a livello circuitale permette di sfruttare al meglio i Tensor core di terza generazione, le unità che stanno alla base dell’elaborazione del ray tracing e che con Ampere supporteranno le operazioni FP64, aumentando quindi le prestazioni su calcoli a doppia precisione. Un passo avanti sicuramente sensazionale per quanto riguarda i sistemi HPC.

Nvidia A100 è solamente una variante leggermente depotenziata della Nvidia GA100, con un bus a 5120-bit che ospita fino a 40GB HBM2, 6912 FP32, 3456 FP64 e 432 Tensor core. A livello hardware siamo di fronte sicuramente alla “scheda grafica più grande del mondo”, come la definisce lo stesso Jensen. NVIDIA GA100 è infatti composta da: 8192 core FP32, 4096 core FP64 e 512 Tensor Core. Il consumo di questa scheda si aggira intorno ai 400W. Troviamo poi un bus a 6140-bit che ospita fino a 48GB di memoria HBM2e divisi in 6 stack. Tralasciando queste piccole differenze, Nvidia A100 è la GPU più potente attualmente sul mercato.

NVIDIA Tesla GPUTesla K40
(PCI-Express)
Tesla M40
(PCI-Express)
Tesla P100
(PCI-Express)
Tesla P100 (SXM2)Tesla V100 (SXM2)Tesla V100S (PCIe)Tesla A100 (SXM4)
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)GP100 (Pascal)GV100 (Volta)GV100 (Volta)GA100 (Ampere)
Process Node28nm28nm16nm16nm12nm12nm7nm
Transistors7.1 Billion8 Billion15.3 Billion15.3 Billion21.1 Billion21.1 Billion54.2 Billion
GPU Die Size551 mm2601 mm2610 mm2610 mm2815mm2815mm2826mm2
SMs152456568080108
TPCs15242828404054
FP32 CUDA Cores Per SM1921286464646464
FP64 CUDA Cores / SM6443232323232
FP32 CUDA Cores2880307235843584512051206912
FP64 CUDA Cores9609617921792256025603456
Tensor CoresN/AN/AN/AN/A640640432
Texture Units240192224224320320432
Base Clock745 MHz948 MHz1190 MHz1328 MHz1297 MHzTBDTBD
Boost Clock875 MHz1114 MHz1329MHz1480 MHz1530 MHz1601 MHz1410 MHz
TOPs (DNN/AI)N/AN/AN/AN/A125 TOPs130 TOPs1248 TOPs
2496 TOPs with Sparsity
FP16 ComputeN/AN/A18.7 TFLOPs21.2 TFLOPs30.4 TFLOPs32.8 TFLOPs312 TFLOPs
624 TFLOPs with Sparsity
FP32 Compute5.04 TFLOPs6.8 TFLOPs10.0 TFLOPs10.6 TFLOPs15.7 TFLOPs16.4 TFLOPs156 TFLOPs
(19.5 TFLOPs standard)
FP64 Compute1.68 TFLOPs0.2 TFLOPs4.7 TFLOPs5.30 TFLOPs7.80 TFLOPs8.2 TFLOPs19.5 TFLOPs
(9.7 TFLOPs standard)
Memory Interface384-bit GDDR5384-bit GDDR54096-bit HBM24096-bit HBM24096-bit HBM24096-bit HBM26144-bit HBM2e
Memory Size12 GB GDDR5 @ 288 GB/s24 GB GDDR5 @ 288 GB/s16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
16 GB HBM2 @ 732 GB/s16 GB HBM2 @ 900 GB/s16 GB HBM2 @ 1134 GB/s40 GB HBM2 @ 1.6 TB/s
L2 Cache Size1536 KB3072 KB4096 KB4096 KB6144 KB6144 KB40960 KB
TDP235W250W250W300W300W250W400W

Tale aumento di potenza permette non solo di creare sistemi molto più compatti rispetto a prima ma di risparmiare anche a livello energetico. Interessante è anche il fatto che i sistemi DGX A100 sono attualmente all’opera nella lotta contro il COVID-19, utilizzati come strumento di ricerca. Attualmente ogni sistema vale all’incirca 200.000$ e chiunque può acquistarlo. NVIDIA inoltre non vuole fermarsi qui, con la produzione del supercomputer DGX SuperPOD, che unisce ben 140 di questi sistemi con una potenza complessiva di 140 PetaFLOPS. Un risultato sensazionale, che potrà dare risolti molto positivi nel campo dell’intelligenza artificiale e del machine learning.

Insieme ai sistemi DGX A100, Jensen Huang ha voluto dare alcune informazioni anche sui prossimi supercomputer basati sull’edge computing, che sfruttano l’intelligenza artificiale. Si chiameranno EGX A100 e sfrutteranno due processori dedicati. Il primo è sempre la già nominata Nvidia A100, di cui vi abbiamo già elencato tutti i dettagli in questo articolo mentre il secondo è l’NVIDIA Mellanox ConnectX-6 DX, dotato di duplice banda da 100GB/s Ethernet e un engine di tipo TLS/IPSec per la protezione dei dati in trasmissione.

Siamo quindi in attesa di scoprire cosa ci riserverà Nvidia sulle prossime GPU per il mercato consumer. Se questo è il punto di partenza, ci aspetta un finale col botto. Per chi volesse vedere la GTC 2020 nel dettaglio, può trovare la playlist di 9 video qui.

Di Marco Nisticò

Sviluppatore informatico, cerco sempre di stare al passo con i tempi in un mondo ormai circondato dalla tecnologia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.