Oggi si è svolto il GTC 2020 di Nvidia, evento annuale in cui vengono annunciate le ultime novità tecnologiche dell’azienda e non solo. Purtroppo a causa del COVID-19 si è dovuto optare per un evento completamente online, organizzato da Jensen Huang direttamente dalla sua casa in California.
Qualche giorno fa è uscito un brevissimo video, della durata di qualche secondo, nella quale vediamo Jensen tirare fuori dal forno delle componenti elettroniche, di cui però non veniva menzionato nulla a riguardo. In realtà oggi si è scoperto che si trattava di Nvidia DGX A100, il primo sistema basato su architettura Ampere, la stessa che sarà alla base delle future RTX 3000.
Nvidia DGX A100: dettagli e informazioni
Nvidia DGX 100 è dotato di 8 schede video Nvidia A100 (320GB di memoria video totale), con una potenza complessiva di 156TFLOPS in FP64, 5PFLOPS in FP16 e 2.5TFLOPS in TF32. Secondo quanto affermato da Nvidia, questo sistema sarà in grado di offrire performance fino a 20 volte superiori rispetto ai sistemi DGX con architettura Volta, come il DGX1 con GPU Tesla V100. Tra le altre specifiche, DGX A100 integra due processori AMD EPYC 7742 da 64C/128T, ognuno con una frequenza base di 2.25GHz e massima di 3.4GHz, 1TB di memoria RAM, un SSD NVMe PCIe 4.0 da 15TB e nove VPI Mellanox ConnectX-6 per interconnessioni da 200Gb/s.
Mellanox è un’azienda leader nel settore del networking ad alte prestazioni. Da questa collaborazione è nato il Mellanox Spectrum 4000, uno switch dove ogni porta è in grado di elaborare una velocità di 400GB/s, per un totale di 25.4TB/s su tutte le porte. E’ stato poi realizzata l’NVIDIA Mellanox Bluescale 2, l’interfaccia di rete programmabile più avanzata al mondo, che permette la sicurezza dei dati mantenendo comunque una velocità considerevole di trasmissione.
Un sistema quindi in grado di eseguire calcoli estremamente complessi e che impiegheranno l’utilizzo dell’intelligenza artificiale.
Con questa nuova precisione, A100 offre 20 volte più potenza di calcolo per le computazioni IA di singola precisione, e poiché gli sviluppatori continuano a usare gli input di singola precisione e ottengono output di singola precisione, non hanno bisogno di nulla di diverso. Ottengono benefici automaticamente, non appena iniziano a usare la GPU
Kharya, director of product management for accelerated computing presso Nvidia
Nvidia A100: specifiche tecniche
Nvidia A100 è il nome della GPU che sta alla base non solo dei sistemi business ma anche delle prossime soluzioni consumer. Si tratta di un chip realizzato con sistema produttivo a 7nm e composto da 56 miliardi di transistor, più del doppio rispetto a Volta. Il tutto però in una dimensione del die di 826mm2 contro gli 815 di Volta. Una differenza quindi minima in termini di dimensioni, ma abisalle in termini produttivi. Questo aumento di capacità a livello circuitale permette di sfruttare al meglio i Tensor core di terza generazione, le unità che stanno alla base dell’elaborazione del ray tracing e che con Ampere supporteranno le operazioni FP64, aumentando quindi le prestazioni su calcoli a doppia precisione. Un passo avanti sicuramente sensazionale per quanto riguarda i sistemi HPC.
Nvidia A100 è solamente una variante leggermente depotenziata della Nvidia GA100, con un bus a 5120-bit che ospita fino a 40GB HBM2, 6912 FP32, 3456 FP64 e 432 Tensor core. A livello hardware siamo di fronte sicuramente alla “scheda grafica più grande del mondo”, come la definisce lo stesso Jensen. NVIDIA GA100 è infatti composta da: 8192 core FP32, 4096 core FP64 e 512 Tensor Core. Il consumo di questa scheda si aggira intorno ai 400W. Troviamo poi un bus a 6140-bit che ospita fino a 48GB di memoria HBM2e divisi in 6 stack. Tralasciando queste piccole differenze, Nvidia A100 è la GPU più potente attualmente sul mercato.
NVIDIA Tesla GPU | Tesla K40 (PCI-Express) | Tesla M40 (PCI-Express) | Tesla P100 (PCI-Express) | Tesla P100 (SXM2) | Tesla V100 (SXM2) | Tesla V100S (PCIe) | Tesla A100 (SXM4) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GV100 (Volta) | GA100 (Ampere) |
Process Node | 28nm | 28nm | 16nm | 16nm | 12nm | 12nm | 7nm |
Transistors | 7.1 Billion | 8 Billion | 15.3 Billion | 15.3 Billion | 21.1 Billion | 21.1 Billion | 54.2 Billion |
GPU Die Size | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 815mm2 | 826mm2 |
SMs | 15 | 24 | 56 | 56 | 80 | 80 | 108 |
TPCs | 15 | 24 | 28 | 28 | 40 | 40 | 54 |
FP32 CUDA Cores Per SM | 192 | 128 | 64 | 64 | 64 | 64 | 64 |
FP64 CUDA Cores / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32 |
FP32 CUDA Cores | 2880 | 3072 | 3584 | 3584 | 5120 | 5120 | 6912 |
FP64 CUDA Cores | 960 | 96 | 1792 | 1792 | 2560 | 2560 | 3456 |
Tensor Cores | N/A | N/A | N/A | N/A | 640 | 640 | 432 |
Texture Units | 240 | 192 | 224 | 224 | 320 | 320 | 432 |
Base Clock | 745 MHz | 948 MHz | 1190 MHz | 1328 MHz | 1297 MHz | TBD | TBD |
Boost Clock | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1601 MHz | 1410 MHz |
TOPs (DNN/AI) | N/A | N/A | N/A | N/A | 125 TOPs | 130 TOPs | 1248 TOPs 2496 TOPs with Sparsity |
FP16 Compute | N/A | N/A | 18.7 TFLOPs | 21.2 TFLOPs | 30.4 TFLOPs | 32.8 TFLOPs | 312 TFLOPs 624 TFLOPs with Sparsity |
FP32 Compute | 5.04 TFLOPs | 6.8 TFLOPs | 10.0 TFLOPs | 10.6 TFLOPs | 15.7 TFLOPs | 16.4 TFLOPs | 156 TFLOPs (19.5 TFLOPs standard) |
FP64 Compute | 1.68 TFLOPs | 0.2 TFLOPs | 4.7 TFLOPs | 5.30 TFLOPs | 7.80 TFLOPs | 8.2 TFLOPs | 19.5 TFLOPs (9.7 TFLOPs standard) |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 6144-bit HBM2e |
Memory Size | 12 GB GDDR5 @ 288 GB/s | 24 GB GDDR5 @ 288 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 1134 GB/s | 40 GB HBM2 @ 1.6 TB/s |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 6144 KB | 6144 KB | 40960 KB |
TDP | 235W | 250W | 250W | 300W | 300W | 250W | 400W |
Tale aumento di potenza permette non solo di creare sistemi molto più compatti rispetto a prima ma di risparmiare anche a livello energetico. Interessante è anche il fatto che i sistemi DGX A100 sono attualmente all’opera nella lotta contro il COVID-19, utilizzati come strumento di ricerca. Attualmente ogni sistema vale all’incirca 200.000$ e chiunque può acquistarlo. NVIDIA inoltre non vuole fermarsi qui, con la produzione del supercomputer DGX SuperPOD, che unisce ben 140 di questi sistemi con una potenza complessiva di 140 PetaFLOPS. Un risultato sensazionale, che potrà dare risolti molto positivi nel campo dell’intelligenza artificiale e del machine learning.
Insieme ai sistemi DGX A100, Jensen Huang ha voluto dare alcune informazioni anche sui prossimi supercomputer basati sull’edge computing, che sfruttano l’intelligenza artificiale. Si chiameranno EGX A100 e sfrutteranno due processori dedicati. Il primo è sempre la già nominata Nvidia A100, di cui vi abbiamo già elencato tutti i dettagli in questo articolo mentre il secondo è l’NVIDIA Mellanox ConnectX-6 DX, dotato di duplice banda da 100GB/s Ethernet e un engine di tipo TLS/IPSec per la protezione dei dati in trasmissione.
Siamo quindi in attesa di scoprire cosa ci riserverà Nvidia sulle prossime GPU per il mercato consumer. Se questo è il punto di partenza, ci aspetta un finale col botto. Per chi volesse vedere la GTC 2020 nel dettaglio, può trovare la playlist di 9 video qui.