„Meta“ ir „Oracle“ pasirenka NVIDIA spektrą-X AI duomenų centruose

„Meta“ ir „Oracle“ atnaujina savo AI duomenų centrus naudodamiesi „NVIDIA“ spektro-X eterneto tinklo jungikliais-technologija, sukurta siekiant patenkinti didėjančius didelio masto AI sistemų reikalavimus. Abi bendrovės priima „Spectrum-X“ kaip atviros tinklo sistemos dalį, skirtą pagerinti AI mokymo efektyvumą ir pagreitinti diegimą masiniu skaičiavimo grupėmis.

Jensenas Huangas, „Nvidia“ įkūrėjas ir generalinis direktorius, teigė, kad trilijono parametrų modeliai duomenų centrus paverčia „giga skalės AI gamyklomis“, pridurdama, kad „Spectrum-X“ veikia kaip „nervų sistema“, jungianti milijonus GPU, kad išmokytume didžiausius kada nors sukurtus modelius.

„Oracle“ planuoja naudoti „Spectrum-X Ethernet“ su savo „Vera Rubin“ architektūra, kad sukurtų didelio masto AI gamyklas. Maheshas Thiagarajanas, „Oracle Cloud Infrastructure“ vykdomasis viceprezidentas, teigė, kad naujoji sąranka leis įmonei efektyviau sujungti milijonus GPU, padės klientams greičiau mokyti ir diegti naujus AI modelius.

Tuo tarpu „Meta“ plečia savo AI infrastruktūrą integruodama „Spectrum-X Ethernet“ jungiklius į „Facebook Open“ perjungimo sistemą (FBOSS)-savo vidinę platformą tinklo jungikliams valdyti mastu. Pasak „Meta“ tinklo inžinerijos viceprezidento „Meta“ viceprezidento „Meta“, bendrovės naujos kartos tinklas turi būti atviras ir efektyvus, kad palaikytų vis didesnius AI modelius ir teiktų paslaugas milijardams vartotojų.

Lanksčių AI sistemų statyba

Pasak Joe Delaere, kuris veda „NVIDIA“ pagreitintą duomenų centro skaičiavimo sprendimų portfelį, lankstumas yra pagrindinis dalykas, nes duomenų centrai tampa sudėtingesni. Jis paaiškino, kad „NVIDIA“ MGX sistema siūlo modulinį, pastato bloko dizainą, kuris leidžia partneriams derinti skirtingus procesorių, GPU, saugyklas ir tinklų kūrimo komponentus.

Sistema taip pat skatina sąveiką, leidžiančią organizacijoms naudoti tą patį dizainą įvairiose aparatūros kartose. „Tai suteikia lankstumo, greitesnį laiką rinkoje ir pasirengimas ateityje“, – žiniasklaidai sakė Delaere.

AI modeliams didėjant, energijos efektyvumas tapo pagrindiniu duomenų centrų iššūkiu. Delaere teigė, kad „Nvidia“ dirba „nuo lustų iki tinklo“, kad pagerintų energijos suvartojimą ir mastelį, glaudžiai bendradarbiaudama su galios ir aušinimo pardavėjais, kad būtų maksimaliai padidinti našumą vienam vatui.

Vienas iš pavyzdžių yra perėjimas prie 800 voltų nuolatinės srovės energijos tiekimo, o tai sumažina šilumos nuostolius ir pagerina efektyvumą. Bendrovė taip pat pristato energijos mažinimo technologiją, siekdama sumažinti elektros tinklo smaigalius-metodas, kuris gali sumažinti maksimalius energijos poreikius iki 30 procentų, ir tai leidžia didesnei skaičiavimo pajėgumui tame pačiame pėdsake.

Mastelio keitimas, įveiktas ir skersai

„NVIDIA“ MGX sistema taip pat vaidina svarbų vaidmenį duomenų centrų keitimo metu. Bendrovės vyresnysis tinklo viceprezidentas Giladas Shaineris žiniasklaidai sakė, kad „MGX Racks“ priglobia tiek skaičiavimo, tiek perjungimo komponentus, palaikydami „NVLink“, skirtą mastelio ryšiui, ir spektro-X eternetį, kad būtų galima augti masteliui.

Jis pridūrė, kad „MGX“ gali sujungti kelis AI duomenų centrus kaip vieningą sistemą – tai, ko reikia tokioms įmonėms kaip meta, kad palaikytų masines paskirstytas AI mokymo operacijas. Priklausomai nuo atstumo, jie gali susieti vietas per tamsią pluoštą ar papildomus MGX pagrįstus jungiklius, įgalindami didelės spartos jungtis visuose regionuose.

„Meta“ AI „Spectrum-X“ priėmimas atspindi didėjančią atvirų tinklų kūrimo svarbą. Shaineris teigė, kad bendrovė naudos „FBOSS“ kaip savo tinklo operacinę sistemą, tačiau pažymėjo, kad „Spectrum-X“ palaiko keletą kitų, įskaitant „Cumulus“, „Sonic“ ir „Cisco“ NOS per partnerystę. Šis lankstumas leidžia „Hyperscalers“ ir įmonėms standartizuoti savo infrastruktūrą naudojant sistemas, kurios geriausiai atitinka jų aplinką.

AI ekosistemos išplėtimas

„NVIDIA“ laiko „Spectrum-X“ kaip būdą padaryti AI infrastruktūrą efektyvesnę ir prieinamą įvairiose skalėse. Shaineris teigė, kad „Ethernet“ platforma buvo sukurta specialiai AI darbo krūviams, tokiems kaip mokymas ir išvados, siūlanti iki 95 procentų efektyvų pralaidumą ir plačią paraštę pralenkdama tradicinį eternetą.

Jis pridūrė, kad „Nvidia“ partnerystė su tokiomis įmonėmis kaip „Cisco“, „Xai“, „Meta“ ir „Oracle Cloud Infrastructure“ padeda „Spectrum-X“ pritraukti į platesnę aplinką-nuo hiperscalers iki įmonių.

Pasiruošimas Vera Rubin ir už jos ribų

Tikimasi, kad Delaere teigė, kad būsima „Nvidia“ „Vera Rubin“ architektūra bus parduodama antroje 2026 m. Antroje pusėje, o „Rubin CPX“ produktas bus pristatytas iki metų pabaigos. Abu veiks kartu su „Spectrum-X“ tinklų ir MGX sistemomis, kad palaikytų naujos kartos AI gamyklas.

Jis taip pat paaiškino, kad spektras-X ir XGS turi tą pačią pagrindinę aparatinę įrangą, tačiau skirtingiems atstumams naudoja skirtingi algoritmai-„Spectrum-X“ vidiniams duomenų centruose ir XG, skirtos tarpduomenų centro ryšiui. Šis metodas sumažina latenciją ir leidžia kelioms svetainėms veikti kartu kaip vienas didelis AI superkompiuteris.

Bendradarbiavimas visoje galios grandinėje

Siekdama palaikyti 800 voltų DC perėjimą, NVIDIA dirba su partneriais nuo lustų lygio iki tinklo. Bendrovė bendradarbiauja su „OnSemi“ ir „Infineon“ dėl galios komponentų, su „Delta“, „Flex“ ir „Lite-On“ stovo lygyje ir su „Schneider Electric“ ir „Siemens“ duomenų centrų projektavimu. Techninė baltoji knyga, kurioje išsamiai aprašomas šis požiūris, bus išleistas OCP viršūnių susitikime.

Delaere tai apibūdino kaip „holistinį dizainą nuo silicio iki energijos tiekimo“, užtikrinant, kad visos sistemos sklandžiai veiktų didelio tankio AI aplinkoje, kurią veikia tokios įmonės kaip „Meta“ ir „Oracle“.

„Hyperscalers“ veiklos pranašumai

„Spectrum-X“ eternetas buvo sukurtas specialiai paskirstytoms skaičiavimams ir AI darbo krūviams. Shaineris teigė, kad jis siūlo adaptyvų maršrutų parinkimą ir telemetrijos pagrindu pagrįstą spūsčių valdymą, kad būtų pašalintos tinklo taškai ir užtikrinamas stabilus našumas. Šios savybės įgalina didesnį treniruočių ir išvadų greitį, tuo pačiu leisdami kelis darbo krūvius veikti vienu metu be trikdžių.

Jis pridūrė, kad „Spectrum-X“ yra vienintelė „Ethernet“ technologija, įrodyta, kad mastas yra kraštutinis lygis, padedantis organizacijoms gauti geriausius rezultatus ir grąžinti savo GPU investicijas. Tokiems hiperscaleriams kaip meta šis mastelio keitimas padeda valdyti augančius AI treniruočių reikalavimus ir išlaikyti efektyvią infrastruktūrą.

Aparatūra ir programinė įranga, veikianti kartu

Nors „Nvidia“ dėmesys dažnai sutelktas į aparatinę įrangą, Delaere teigė, kad programinės įrangos optimizavimas yra ne mažiau svarbus. Bendrovė ir toliau gerina našumą kartu su projektuojančia sukurta-suderindama aparatinės ir programinės įrangos kūrimą, kad būtų maksimaliai padidintas AI sistemų efektyvumas.

„NVIDIA“ investuoja į FP4 branduolius, tokius rėmus kaip „Dynamo“ ir „Tensorrt-LLM“ ir tokius algoritmus kaip spekuliacinis dekodavimas, siekiant pagerinti pralaidumo ir AI modelio našumą. Šie atnaujinimai, pasak jo, užtikrina, kad tokios sistemos kaip „Blackwell“ ir toliau teikia geresnius rezultatus laikui bėgant hiperscaleriams, tokiems kaip meta, kurios priklauso nuo nuoseklaus AI našumo.

Trilijono parametrų eros tinklų kūrimas

„Spectrum-X“ platforma, apimanti „Ethernet“ jungiklius ir supernikus, yra pirmoji „NVIDIA“ eterneto sistema, skirta AI darbo krūviams. Jis skirtas efektyviai susieti milijonus GPU, išlaikant nuspėjamą našumą visuose AI duomenų centruose.

Kai grūsčių ir kontrolės technologija pasiekė iki 95 procentų duomenų pralaidumo, „Spectrum-X“ žymi didelį šuolį per standartinį eternetą, kuris paprastai siekia tik apie 60 procentų dėl srauto susidūrimų. Jos XGS technologija taip pat palaiko tolimojo atstumo AI duomenų centro ryšius, jungiančias įrenginius per regionus į vieningas „AI super gamyklas“.

Susiedami visą „NVIDIA“ kaminą-GPU, CPUS, NVLINK ir Software-„Spectrum-X“ suteikia nuoseklų našumą, reikalingą palaikant trilijono parametrų modelius ir kitą generatyvinių AI darbo krūvių bangą.

(Nvidia nuotrauka)

Taip pat žiūrėkite: „Openai“ ir „NVIDIA“ planuoja 100B USD lustų pasiūlymą AI ateičiai

Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir yra kartu su kitais pagrindiniais technologijų įvykiais, spustelėkite čia, jei norite gauti daugiau informacijos.

„AI News“ maitina „TechForge Media“. Čia ištirkite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Susiję įrašai

Tylus darbas, susijęs su „Citi“ 4 000 žmonių vidinio AI diegimu

AI viršutinės AI vibe kodavimo platformos, maitinančios „Web3“

Ar „Meta“ paaukojo savo atvirojo kodo tapatybę dėl konkurencingo AI modelio?