„Nvidia“ rodo, kaip gali atrodyti optiškai susietos GPU sistemos


Mes taip ilgai kalbėjome apie silicio fotoniką, kad tikriausiai, kaip ir daugelis iš jūsų, esame nusivylę, kad ji dar nėra paplitusi visur. Tačiau gera žinia ta, kad elektrinio signalizavimo pažanga, atsitrenkusi į sieną prieš dešimtmetį, kai kalbos apie praktinius silicio fotonikos sujungimus pirmą kartą iš tikrųjų įsibėgėjo, toliau vystėsi ir mums dar neteko griebtis silicio fotonikos.

Kadangi elektros jungtys tarp komponentų yra daug pigesnės, tai buvo naudinga kainos ir našumo lygties kainos skaitiklio daliai, nors silicio fotonika turi pranašumą tos lygties vardiklio veikimo dalyje. Laikui bėgant, didėjant pralaidumui, elektrinis signalizavimas vis trumpėja ir tampa vis triukšmingesnis. Neišvengiamai ateis diena, kai mes pereisime nuo elektronų prie fotonų kaip elektromagnetinio signalizacijos metodo ir nuo vario prie optinio pluošto stiklo kaip signalizacijos terpės.

Ši kreivė, pateikta iš Nvidia vyriausiojo mokslininko Billo Dally pristatymo dar kovo mėnesį vykusioje optinio pluošto komunikacijos konferencijoje, rodo, kad tai gana gerai:

Su tomis kreivėmis ginčytis negalima, nors jas galima šiek tiek sulenkti medžiagų mokslo burtais.

Prieš kelias savaites „Nvidia“ pasirašė mokslinių tyrimų ir plėtros partnerystę su „Ayar Labs“, o mes susėdome ir pasikalbėjome su Charlie Wuischpard, silicio fotonikos startuolio vykdomuoju direktoriumi, kad pakalbėtume apie tai, ką jiedu dirbs. „Nvidia“ dalyvavo C serijos lėšų rinkime, kurį „Ayar Labs“ atliko anksčiau šiais metais, kai surinko 130 mln. USD, kad sukurtų nejuodinius lazerius ir silicio fotonikos jungtis. „Hewlett Packard Enterprise“, kuri taip pat šių metų vasarį sudarė sutartį su „Ayar Labs“. Norėdami išsiaiškinti, kaip į “Slingshot” jungtį įtraukti silicio fotoniką, taip pat buvo investuotojas į šį finansavimo etapą nuo šių metų balandžio mėn. „Ayar Labs“ taip pat anksti palaikė „Intel“, nors „Intel“ nori įterpti lazerius į lustus, o ne pumpuoti lazerio signalus iš lustų išorės, kaip tai daro „Ayar Labs“. (Jei dabar yra kas nors tiesa, tai yra tai, kad „Intel“ negali sau leisti daryti nieko blogo dabar. Taigi gerai, kad „Intel“ apsidraudžia silicio fotonika.)

Tuo metu, kai buvo finansuojamas balandžio mėn. ilgai kalbėjomės su Wuischpardu apie tai, kur silicio fotonika tinka šiuolaikinėms sistemoms – ir kur ji dar netelpa, o visai neseniai gavome keletą užuominų apie tai, kas gali būti sukurta būtent Nvidia.

Vėliau sužinojome apie pirmiau minėtą pristatymą, kurį Dally skaitė per OFC 2022, kuriame labai konkrečiai apibūdinami kartu supakuotos optikos, naudojant tankaus bangų padalijimo multipleksavimą, arba DWDM, tikslai ir kaip silicio fotonika gali būti naudojama kaip transportavimo priemonė stelažams sujungti. ir GPU skaičiavimo variklių stovai.

Šiame pristatyme rodoma neįvardyta koncepcinė mašina, pvz „Echelon“ koncepcijos egzaskalės sistema, kurią Dally komanda sukūrė dar 2010 m 2012 m. mes užklupome vėją. Ta mašina turėjo specialius matematinius variklius, o ne GPU, su didelio radikso elektros perjungimu tarp jų ir Cray „Aries“ optinėmis jungtimis tarp mašinų stovų. Akivaizdu, kad ta „Echelon“ mašina niekada nebuvo komercializuota, o „Nvidia“ pasinaudojo „NVSwitch“ atminties jungtimi, prie kurios Dally dirbo „Nvidia Research“ ir anksti pradėjo jį gaminti kad iš esmės būtų dideli geležiniai NUMA GPU procesorių kompleksai, sujungti storais, kelių prievadų InfiniBand vamzdžiais.

Su pradinėmis DGX sistemomis, pagrįstomis NVSwitch, „Nvidia“ viename vaizde galėjo padidinti tik šešiolikos GPU su „Volta“ V100 GPU greitintuvais, o naudojant „Ampere“ A100 GPU greitintuvus, kurie turėjo daug daugiau energijos, „Nvidia“ turėjo padvigubino pralaidumą kiekvienam GPU, todėl turėjo sumažinti NVSwitch radiksą du kartus, todėl į vieną vaizdą galėjo sujungti tik aštuonis GPU. NVSwitches lapų / stuburo tinkle, kuris buvo paskelbtas anksčiau šiais metais su „Hopper“ H100 GPU greitintuvais, kurie bus pristatyti vėliau šiais metais, „Nvidia“ gali sujungti 256 GPU į vieną atminties audinį, o tai yra didžiulis patobulinimo veiksnys.

Bet galų gale NVSwitch audinys, esantis DGX H100 SuperPOD centre vis dar iš esmės yra būdas sukurti padidintą NUMA mašiną, ir tai visiškai riboja elektros kabeliai. O NVSwitch mastas, net ir naudojant „Hopper“ kartą, neprilygsta dešimčių tūkstančių GPU, kuriuos hiperskaleriai sujungė, kad atliktų didžiausią AI darbo krūvį.

„Negaliu gilintis į daug detalių“, – sako Wuischpardas Kita platforma su juoku. [Like, no kidding, man.] „Žinote, mes esame fizinio lygmens sprendimas, ir yra tiek daug, kas yra aukščiau, kalbant apie programinę įrangą ir orkestravimą tarp GPU, jų atminties ir procesorių. Mes nesame susiję su jokiais tokiais dalykais. Taigi, manau, galite galvoti apie mus kaip apie fizinį įgalinimą ateičiai. Ir tai yra kelių etapų metodas, kuris kažkur eina. Tai ne tik padangų mušimo pratimas. Bet mes turime įrodyti save pagal tam tikrus parametrus ir turime pasiekti kai kuriuos etapus.

Mes tikimės kad išvalo kad aukštyn. . . . [Our turn to laugh.]

Bet kuriuo atveju, dabar pereikime prie pristatymo, kurį Dally skaitė per OFC 2022, kuris leidžia suprasti, kaip gali atrodyti būsima GPU pagreitinta sistema su silicio fotonikos jungtimis.

Prieš pradėdami tai, pažvelkime į pralaidumo ir galios apribojimus tarp GPU arba jungiklių, spausdintinių plokščių, prie kurių jie prijungti, ir spintelių, kuriose jie gali būti sujungti, o tai sudaro sąlygas silicio fotonikos sujungimams:

Taisyklė paprasta. Kuo trumpesnės nuorodos, tuo didesnis pralaidumas ir mažiau energijos sunaudojama norint šiek tiek pakeisti. Žemiau esančioje lentelėje pateikiama santykinė galia, kaina, tankis ir kiekvieno tarpinio įtaiso, spausdintinės plokštės, kartu supakuotos optikos, elektros kabelių ir aktyvių optinių kabelių, kurie yra laidai, kurie sudaro skirtingus šiuolaikinės sistemos lygius, santykinė galia. Pažvelkite į tai:

Bendrai supakuotos optikos, naudojant DWDM, tikslas yra sunaudoti mažesnes energijos sąnaudas nei elektros kabelis, bet su panašiomis sąnaudomis, pasiekti, kad jis būtų panašus į aktyvų elektros kabelį, o signalo tankis prilygtų spausdintinės plokštės.

Štai Dally eskizas, kaip gali atrodyti tas DWDM signalizavimas:

Ir čia yra blokinė schema, kaip GPU ir NVSwitch turėtų optinius variklius, kad elektros signalus paverstų optiniais signalais, kad būtų sukurtas GPU NVSwitch tinklas:

Iš kiekvieno optinio variklio išeina 24 skaidulos ir iš pradžių jie veiktų 200 Gb/s signalo sparta, o bendras pralaidumas būtų 4,8 Tb/s. Kiekvienas GPU turi porą jų, kad suteiktų dvikryptį pralaidumą į NVSwitch audinį ir iš jo. Todėl NVS jungiklis su šešiais optiniais varikliais būtų įvertintas 28,8 Tb/sek neapdorotu ir 25,6 Tb/sek, kai nuėmus kodavimą.

Štai kaip energijos suvartojimas veikia esant įvairioms kliūtims tarp įrenginio komponentų Nvidia silicio fotonikos koncepcijos mašinoje:

3,5 pidžaulio bitui, skirtas duomenims perkelti iš GPU ir jungiklio, atitinka Dally aukščiau pateiktoje lentelėje nurodytus tikslus. Įtariame, kad sąnaudos dar turi mažėti, kad kartu supakuota optika būtų priimtina skaičiavimo varikliams, tačiau čia dirbama daug ir visi yra be galo motyvuoti.

Dabartinėse DGX-A100 sistemose įterptajame NVSwitch audinyje naudojamas elektrinis signalizavimas yra maždaug 300 centimetrų diapazonas ir perkelia duomenis 8 pidžauliai per bitą. Siekiama, kad silicio fotonika tai padarytų perpus mažiau energijos ir padidintų atstumą tarp įrenginių iki 100 metrų.

Kai taip atsitiks, galite išskaidyti GPU ir jungiklius architektūroje – ir nors „Nvidia“ koncepcinis įrenginys to nerodo, procesoriai taip pat gali turėti optinius variklius, taip pat juos galima išskaidyti.

Štai kaip gali atrodyti GPU ir jungikliai su integruota optika:

Štai kaip gali būti apibendrinami GPU ir NVSjungikliai su CPO nuorodomis:

Išoriniai lazeriniai šaltiniai užima daug vietos, tačiau tai taip pat reiškia, kad stelažai gali būti daug mažiau tankūs, nes jungtys tarp įrenginių gali būti ilgesnės. Tai palengvins aušinimą, o lazerius taip pat bus galima pakeisti. Jei visa tai veikia vėsiau, lazeriai taip pat veiks geriau. Tankis yra pervertintas, ir daugeliu atvejų, kaip, pavyzdžiui, DGX sistemose, mašinos taip įkaista, kad vis tiek galite užpildyti stelažus tik iki pusės, nes energijos tankis ir aušinimo poreikiai yra didesni, nei gali patenkinti dauguma duomenų centrų.

Pastebėsite, kad aukščiau esančios GPU ir jungiklių eilutės yra nukreiptos vertikaliai, o tai padeda vėsinti. Jie taip pat nėra montuojami ant milžiniškų spausdintinių plokščių su lizdais, o tai padės sumažinti bendras sistemos sąnaudas ir mokėti už optinių jungčių naudojimą.

Leave a Reply

Your email address will not be published.