Agentiniam AI mastelio keitimui reikalinga nauja atminties architektūra

Agentinis AI reiškia skirtingą evoliuciją nuo pokalbių robotų be būsenos iki sudėtingų darbo eigų, o norint ją pakeisti, reikia naujos atminties architektūros.

Kadangi pamatiniai modeliai siekia trilijonus parametrų, o konteksto langai pasiekia milijonus žetonų, istorijos prisiminimo skaičiavimo sąnaudos auga greičiau nei galimybės ją apdoroti.

Šias sistemas diegiančios organizacijos dabar susiduria su kliūtimi, kai „ilgalaikės atminties“ (techniškai žinomos kaip rakto vertės (KV) talpykla) apimtis užvaldo esamas aparatinės įrangos architektūras.

Dabartinė infrastruktūra verčia rinktis dvejetainį: saugoti išvadų kontekstą ribotoje didelio pralaidumo GPU atmintyje (HBM) arba perkelti ją į lėtą, bendros paskirties saugyklą. Pirmasis yra pernelyg brangus dideliems kontekstams; pastarasis sukuria delsą, dėl kurios realiojo laiko agentų sąveika tampa neperspektyvi.

Siekdama pašalinti šį didėjantį skirtumą, stabdantį agentinio AI mastelį, NVIDIA savo Rubin architektūroje pristatė Kontekstinės atminties saugyklos (ICMS) platformą, siūlydama naują saugojimo pakopą, specialiai sukurtą efemeriškam ir greitam AI atminties pobūdžiui valdyti.

„AI daro revoliuciją visame skaičiavimo pakete, o dabar ir saugykloje“, – sakė Huangas. „AI nebėra apie vienkartinius pokalbių robotus, bet išmanius bendradarbius, kurie supranta fizinį pasaulį, mąsto per ilgą horizontą, remiasi faktais, naudoja įrankius realiam darbui atlikti ir išsaugo trumpalaikę ir ilgalaikę atmintį.

Eksploatavimo iššūkis yra specifinis transformatorių modelių elgesys. Kad nereikėtų perskaičiuoti visos pokalbių istorijos kiekvienam naujam sugeneruotam žodžiui, modeliai išsaugo ankstesnes būsenas KV talpykloje. Agentinėse darbo eigose ši talpykla veikia kaip nuolatinė atmintis visuose įrankiuose ir seansuose, didėjant sekos ilgiui.

Taip sukuriama atskira duomenų klasė. Skirtingai nuo finansinių įrašų ar klientų žurnalų, KV talpykla yra išvestiniai duomenys; tai būtina norint greitai veikti, bet nereikalauja didelių įmonių failų sistemų ilgaamžiškumo garantijų. Bendrosios paskirties saugyklos, veikiančios standartiniuose procesoriuose, eikvoja energiją metaduomenų tvarkymui ir replikavimui, kurio nereikia agentų darbo krūviams.

Dabartinė hierarchija, apimanti nuo GPU HBM (G1) iki bendros saugyklos (G4), tampa neefektyvi:

(Kreditas: NVIDIA)

Kontekstui išsiliejus iš GPU (G1) į sistemos RAM (G2) ir galiausiai į bendrą saugyklą (G4), efektyvumas smunka. Perkėlus aktyvų kontekstą į G4 pakopą, atsiranda milisekundžių lygmens delsa ir padidėja energijos sąnaudos vienam prieigos raktui, todėl brangūs GPU neveikia, kol jie laukia duomenų.

Įmonei tai pasireiškia kaip išpūstos bendros nuosavybės išlaidos (TCO), kai energija švaistoma infrastruktūros pridėtinėms išlaidoms, o ne aktyviam samprotavimui.

Turinys:

Nauja AI gamyklos atminties pakopa

Pramonės atsakas apima tam tikslui sukurto sluoksnio įterpimą į šią hierarchiją. ICMS platforma nustato „G3.5“ pakopą – prie Ethernet prijungtą „flash“ sluoksnį, specialiai sukurtą gigamastelio išvadoms.

Šis metodas integruoja saugyklą tiesiai į skaičiavimo bloką. Naudodama NVIDIA BlueField-4 duomenų procesorių, platforma perkelia šių kontekstinių duomenų valdymą iš pagrindinio procesoriaus. Sistema suteikia petabaitų bendros talpos viename bloke, padidindama agentinio AI mastelį, nes agentai gali išsaugoti didžiulį kiekį istorijos neužimant brangaus HBM.

Eksploatacijos nauda kiekybiškai įvertinama pralaidumu ir energija. Išlaikydama atitinkamą kontekstą šioje tarpinėje pakopoje, kuri yra greitesnė nei standartinė saugykla, bet pigesnė nei HBM, sistema gali „iš anksto nustatyti“ atmintį atgal į GPU, kol jos prireiks. Tai sumažina GPU dekoderio neveikimo laiką ir leidžia iki 5 kartų didesnius prieigos raktus per sekundę (TPS) ilgo konteksto darbo krūviams.

Energetikos požiūriu pasekmės yra vienodai išmatuojamos. Kadangi architektūra pašalina bendrosios paskirties saugojimo protokolų pridėtines išlaidas, ji užtikrina 5 kartus didesnį energijos vartojimo efektyvumą nei tradiciniai metodai.

Duomenų plokštumos integravimas

Norint įgyvendinti šią architektūrą, reikia pakeisti tai, kaip IT komandos žiūri į saugyklos tinklus. ICMS platforma remiasi NVIDIA Spectrum-X eternetu, kad būtų užtikrintas didelio pralaidumo ir mažo virpėjimo ryšys, reikalingas „flash“ saugyklai apdoroti beveik taip, lyg tai būtų vietinė atmintis.

Įmonės infrastruktūros komandų integravimo taškas yra orkestravimo sluoksnis. Tokios sistemos kaip NVIDIA Dynamo ir Inference Transfer Library (NIXL) valdo KV blokų judėjimą tarp pakopų.

Šie įrankiai derinami su saugojimo sluoksniu, kad užtikrintų, jog į GPU atmintį (G1) arba pagrindinio kompiuterio atmintį (G2) būtų įkeltas tinkamas kontekstas būtent tada, kai to reikalauja AI modelis. NVIDIA DOCA sistema tai dar labiau palaiko suteikdama KV ryšio sluoksnį, kuris konteksto talpyklą traktuoja kaip pirmos klasės šaltinį.

Pagrindiniai saugyklų pardavėjai jau prisitaiko prie šios architektūros. Įmonės, įskaitant AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data ir WEKA, kuria platformas naudodamos BlueField-4. Tikimasi, kad šie sprendimai pasirodys antroje šių metų pusėje.

Iš naujo apibrėžiama agentinio AI mastelio keitimo infrastruktūra

Pritaikius specialią kontekstinės atminties pakopą, turi įtakos pajėgumų planavimui ir duomenų centro dizainui.

Duomenų perklasifikavimas: CIO turi atpažinti KV talpyklą kaip unikalų duomenų tipą. Tai „trumpalaikė, bet jautri delsai“, skiriasi nuo „tvarių ir šaltų“ atitikties duomenų. G3.5 pakopa tvarko pirmąją, todėl patvari G4 saugykla gali sutelkti dėmesį į ilgalaikius rąstus ir artefaktus.

Orkestravimo branda: Sėkmė priklauso nuo programinės įrangos, kuri gali protingai paskirstyti darbo krūvius. Sistema naudoja topologiją suvokiantį orkestravimą (per NVIDIA Grove), kad užduotys būtų šalia talpyklos konteksto ir sumažintų duomenų judėjimą visame audinyje.

Galios tankis: Įrengdamos daugiau naudingų pajėgumų į tą patį stovo plotą, organizacijos gali pratęsti esamų įrenginių eksploatavimo laiką. Tačiau tai padidina skaičiavimo tankį kvadratiniam metrui, todėl reikia tinkamo aušinimo ir energijos paskirstymo planavimo.

Perėjimas prie agentinio AI verčia fiziškai perkonfigūruoti duomenų centrą. Vyraujantis modelis visiškai atskirti skaičiavimą nuo lėtos, nuolatinės saugojimo, nesuderinamas su fotografinių atmintinių agentų realiuoju laiku paieškos poreikiais.

Įvesdamos specializuotą konteksto pakopą, įmonės gali atsieti modelio atminties augimą nuo GPU HBM kainos. Ši agentinio AI architektūra leidžia keliems agentams bendrinti didžiulį mažos galios atminties telkinį, kad būtų sumažintos sudėtingų užklausų aptarnavimo išlaidos ir padidintas mastelio keitimas, nes įgalinamas didelio našumo argumentavimas.

Organizacijoms planuojant kitą investicijų į infrastruktūrą ciklą, atminties hierarchijos efektyvumo įvertinimas bus toks pat svarbus kaip ir paties GPU pasirinkimas.

Taip pat žiūrėkite: 2025 m. AI lustų karai: ką įmonių vadovai sužinojo apie tiekimo grandinės tikrovę

„TechEx“ renginių AI ir „Big Data Expo“ reklamjuostė.

Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra TechEx dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais. Norėdami gauti daugiau informacijos, spustelėkite čia.

AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Nauja AI gamyklos atminties pakopa

Duomenų plokštumos integravimas

Iš naujo apibrėžiama agentinio AI mastelio keitimo infrastruktūra

Susiję įrašai

„Google“ atskleidžia savo „Apple“ AI debesies versiją

Rinkodaros agentūros, naudojančios AI darbo eigose, aptarnauja daugiau klientų

URBN išbando agentinį AI, kad automatizuotų mažmeninės prekybos ataskaitų teikimą