NVIDIA Hopper H100 su 4-osios kartos tenzoriaus šerdimi yra dvigubai greitesnis už laikrodį, o dažnis užtikrina 30 % našumą

NVIDIA toliau tai nagrinėja Hopper H100 GPU Hot Chips 34, suteikdami mums skonį, ką gali pasiūlyti 4-osios kartos Tensor Core architektūra.

NVIDIA Kepler GK110 GPU yra lygiavertis vienam GPC su Hopper H100 GPU, 4-osios kartos tensoriniai branduoliai iki 2 kartų greitesni

Nors AMD savo HPC GPU taiko MCM metodą, NVIDIA nusprendė kol kas laikytis monolitinio dizaino. Jų Hopper H100, kaip toks, yra vienas didžiausių GPU, pagamintų naudojant TSMC 4N proceso mazgą – dizainą, kuris buvo optimizuotas ir sukurtas išskirtinai NVIDIA.

H100 GPU yra pabaisa lustas, kuriame įdiegta naujausia 4 nm technologija ir 80 milijardų tranzistorių bei pažangiausia HBM3 atminties technologija. H100 sukurtas ant PG520 PCB plokštės, turinčios daugiau nei 30 galių VRM ir didžiulį integruotą interposerį, kuris naudoja TSMC CoWoS technologiją, kad sujungtų Hopper H100 GPU su 6 krūvų HBM3 dizainu. Kai kurios pagrindinės „Hopper H100 GPU“ technologijos apima:

  • 132 SMS (2x našumas per laikrodį)
  • 4-osios kartos tenzoriaus branduoliai
  • Gijų blokų grupės
  • 2 kartos kelių egzempliorių GPU
  • Konfidencialus skaičiavimas
  • PCIe Gen 5.0 sąsaja
  • Pirmoji pasaulyje HBM3 DRAM
  • Didesnė 50 MB L2 talpykla
  • 4-osios kartos NVLink (900 GB/s bendras pralaidumas)
  • Naujas SHARP palaikymas
  • NVLink tinklas

Iš šešių rietuvių išlaikomi du kaminai, kad būtų užtikrintas derliaus vientisumas. Tačiau naujasis HBM3 standartas leidžia iki 80 GB talpos 3 TB/s greičiu, o tai yra beprotiška. Palyginimui, dabartinė greičiausia žaidimų vaizdo plokštė RTX 3090 Ti siūlo tik 1 TB/s pralaidumą ir 24 GB VRAM talpą. Be to, H100 Hopper GPU taip pat yra naujausio FP8 duomenų formato, o per naują SXM jungtį jis padeda pritaikyti 700 W galios konstrukciją, pagal kurią sukurtas lustas. Jis taip pat siūlo dvigubai didesnį FP32 ir FP64 FMA greitį ir 256 KB L1 talpyklą (bendra atmintis).

NVIDIA Hopper H100 GPU specifikacijos trumpai

Taigi, kalbant apie specifikacijas, NVIDIA Hopper GH100 GPU sudarytas iš didžiulio 144 SM (srautinio kelių procesorių) lusto išdėstymo, kuris yra iš viso 8 GPC. Šie GPC iš viso sūpuoja 9 TPC, kurie dar susideda iš 2 SM vienetų. Tai suteikia 18 SMS viename GPC ir 144 naudojant 8 GPC konfigūraciją. Kiekvieną SM sudaro iki 128 FP32 vienetų, kurie iš viso turėtų duoti 18 432 CUDA branduolius.

Toliau pateikiamos kelios konfigūracijos, kurių galite tikėtis iš H100 lusto:

Visas GH100 GPU įdiegimas apima šiuos įrenginius:

  • 8 GPC, 72 TPC (9 TPC / GPC), 2 SM / TPC, 144 SM visam GPU
  • 128 FP32 CUDA branduoliai, skirti SM, 18432 FP32 CUDA branduoliai visam GPU
  • 4 ketvirtos kartos tenzoriaus šerdys, skirtos SM, 576 visam GPU
  • 6 HBM3 arba HBM2e krūvos, 12 512 bitų atminties valdiklių
  • 60 MB L2 talpykla
  • Ketvirtosios kartos NVLink ir PCIe Gen 5

NVIDIA H100 GPU su SXM5 plokštės formos koeficientu sudaro šie įrenginiai:

  • 8 GPC, 66 TPC, 2 SM / TPC, 132 SM vienam GPU
  • 128 FP32 CUDA branduoliai, skirti SM, 16896 FP32 CUDA branduoliai, skirti GPU
  • 4 ketvirtos kartos tenzoriaus šerdys SM, 528 GPU
  • 80 GB HBM3, 5 HBM3 krūvos, 10 512 bitų atminties valdiklių
  • 50 MB L2 talpykla
  • Ketvirtosios kartos NVLink ir PCIe Gen 5

Tai 2,25 karto daugiau nei visa GA100 GPU konfigūracija. NVIDIA taip pat naudoja daugiau FP64, FP16 ir Tensor branduolių savo Hopper GPU, kuris labai padidintų našumą. Ir tai bus būtina konkurentui Intel Ponte Vecchio, kuris taip pat turėtų turėti 1:1 FP64. NVIDIA teigia, kad 4-osios kartos „Hopper“ tensoriniai branduoliai užtikrina 2 kartus didesnį našumą tuo pačiu laikrodžiu.

Toliau pateiktas NVIDIA Hopper H100 našumo suskirstymas rodo, kad papildomų SM našumas padidėja tik 20 %. Didžiausią naudą teikia 4-osios kartos tenzoriniai branduoliai ir FP8 apskaičiuoja kelią. Didesnis dažnis taip pat padidina derinį 30 %.

Įdomus palyginimas, nurodantis GPU mastelį, rodo, kad vienas GPC Hopper H100 GPU prilygsta Kepler GK110 GPU – pavyzdiniam 2012 m. HPC lustui. Kepler GK110 iš viso talpino 15 SM, o Hopper H110 GPU – 132 SM. ir net išskirtinis GPC Hopper GPU turi 18 SM, 20% daugiau nei visi SM, esantys Kepler flagmane.

Talpykla yra dar viena vieta, kuriai NVIDIA skyrė daug dėmesio, padidindama ją iki 48 MB Hopper GH100 GPU. Tai 20 % daugiau nei 50 MB talpyklos, esančios Ampere GA100 GPU, ir 3 kartus daugiau nei AMD flagmano Aldebaran MCM GPU, MI250X.

Apvalinant našumo skaičius, NVIDIA GH100 Hopper GPU pasiūlys 4000 TFLOP FP8, 2000 TFLOP FP16, 1000 TFLOP TF32 ir 60 TFLOP FP64 skaičiavimo našumą. Šie rekordiniai skaičiai sumenkina visus kitus prieš tai buvusius HPC greitintuvus. Palyginimui, tai yra 3,3 karto greičiau nei NVIDIA A100 GPU ir 28% greičiau nei AMD Instinct MI250X FP64 skaičiavime. Skaičiuojant FP16, H100 GPU yra 3 kartus greitesnis nei A100 ir 5,2 karto greitesnis nei MI250X, o tai tiesiog yra baisu.

Buvo PCIe variantas, kuris yra sumažintas modelis neseniai buvo įtrauktas į Japonijos sąrašą už daugiau nei 30 000 JAV dolerių Taigi galima įsivaizduoti, kad SXM variantas su galingesne konfigūracija lengvai kainuos apie 50 USD.

NVIDIA Ampere GA100 GPU pagrįstas Tesla A100 specifikacijos:

NVIDIA Tesla vaizdo plokštė NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) Tesla P100
(PCI-Express)
Tesla M40
(PCI-Express)
Tesla K40
(PCI-Express)
GPU GH100 (bunkeris) GH100 (bunkeris) GA100 (Amperai) GA100 (Amperai) GV100 (volta) GV100 (volta) GP100 (Pascal) GP100 (Pascal) GM200 („Maxwell“) GK110 (Kepler)
Proceso mazgas 4 nm 4 nm 7nm 7nm 12 nm 12 nm 16 nm 16 nm 28 nm 28 nm
Tranzistoriai 80 mlrd 80 mlrd 54,2 mlrd 54,2 mlrd 21,1 mlrd 21,1 mlrd 15,3 mlrd 15,3 mlrd 8 milijardai 7,1 mlrd
GPU Dydis 814 mm2 814 mm2 826 mm2 826 mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
Trumpoji žinutė 132 114 108 108 80 80 56 56 24 15
TPC 66 57 54 54 40 40 28 28 24 15
FP32 CUDA šerdys, skirtos SM 128 128 64 64 64 64 64 64 128 192
FP64 CUDA šerdys / SM 128 128 32 32 32 32 32 32 4 64
FP32 CUDA šerdys 16896 m 14592 6912 6912 5120 5120 3584 3584 3072 2880
FP64 CUDA šerdys 16896 m 14592 3456 3456 2560 2560 1792 m 1792 m 96 960
Tenzoriaus šerdys 528 456 432 432 640 640 N/A N/A N/A N/A
Tekstūros vienetai 528 456 432 432 320 320 224 224 192 240
Padidinimo laikrodis TBD TBD 1410 MHz 1410 MHz 1601 MHz 1530 MHz 1480 MHz 1329 MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 TOP
4000 TOP
1600 TOP
3200 TOP
1248 TOP
2496 TOPai su Sparity
1248 TOP
2496 TOPai su Sparity
130 TOP 125 TOPAI N/A N/A N/A N/A
FP16 Apskaičiuokite 2000 TFLOP 1600 TFLOP 312 TFLOP
624 TFLOPs su retumu
312 TFLOP
624 TFLOPs su retumu
32,8 TFLOP 30,4 TFLOP 21.2 TFLOP 18.7 TFLOP N/A N/A
FP32 skaičiavimas 1000 TFLOP 800 TFLOP 156 TFLOPS
(19,5 TFLOPS standartas)
156 TFLOPS
(19,5 TFLOPS standartas)
16.4 TFLOP 15.7 TFLOP 10,6 TFLOP 10.0 TFLOP 6.8 TFLOP 5.04 TFLOPS
FP64 Apskaičiuokite 60 TFLOP 48 TFLOPS 19,5 TFLOP
(9,7 TFLOPS standartas)
19,5 TFLOP
(9,7 TFLOPS standartas)
8.2 TFLOP 7.80 TFLOPS 5.30 TFLOPS 4.7 TFLOP 0,2 TFLOP 1.68 TFLOP
Atminties sąsaja 5120 bitų HBM3 5120 bitų HBM2e 6144 bitų HBM2e 6144 bitų HBM2e 4096 bitų HBM2 4096 bitų HBM2 4096 bitų HBM2 4096 bitų HBM2 384 bitų GDDR5 384 bitų GDDR5
Atminties dydis Iki 80 GB HBM3 @ 3,0 Gbps Iki 80 GB HBM2e @ 2,0 Gbps Iki 40 GB HBM2 @ 1,6 TB/s
Iki 80 GB HBM2 @ 1,6 TB/s
Iki 40 GB HBM2 @ 1,6 TB/s
Iki 80 GB HBM2 @ 2,0 TB/s
16 GB HBM2 @ 1134 GB/s 16 GB HBM2 @ 900 GB/s 16 GB HBM2 @ 732 GB/s 16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
24 GB GDDR5 @ 288 GB/s 12 GB GDDR5 @ 288 GB/s
L2 talpyklos dydis 51200 KB 51200 KB 40960 KB 40960 KB 6144 KB 6144 KB 4096 KB 4096 KB 3072 KB 1536 KB
TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W

Šiame įraše paminėti produktai

Leave a Reply

Your email address will not be published.