AI modelis, naudojant AMD GPU treniruotėms, pasiekė etapą

„Zyphra“, AMD ir IBM metus išbandė, ar AMD GPU ir platforma gali palaikyti didelio masto AI modelių mokymą, o rezultatas – ZAYA1.

Bendradarbiaudamos trys įmonės apmokė ZAYA1 – apibūdintą kaip pirmąjį pagrindinį „Mixture-of-Experts“ pagrindo modelį, sukurtą tik AMD GPU ir tinklų pagrindu – tai, jų nuomone, yra įrodymas, kad rinka neturi priklausyti nuo NVIDIA, kad padidintų AI.

Modelis buvo apmokytas naudojant AMD „Instinct MI300X“ lustus, „Pensando“ tinklą ir ROCm programinę įrangą, visa tai veikia „IBM Cloud“ infrastruktūroje. Pastebėtina, kaip įprastai atrodo sąranka. Vietoj eksperimentinės aparatinės įrangos ar neaiškių konfigūracijų, Zyphra sukūrė sistemą panašiai kaip bet kuris įmonės klasteris – tik be NVIDIA komponentų.

Zyphra teigia, kad ZAYA1 yra lygiavertis ir kai kuriose srityse lenkia nusistovėjusius atvirus samprotavimo, matematikos ir kodo modelius. Įmonėms, nusivylusioms dėl tiekimo apribojimų ar besikeičiančių GPU kainų, tai yra kažkas reto: antra galimybė, kuriai nereikia daryti kompromisų dėl pajėgumų.

Turinys:

Kaip „Zyphra“ naudojo AMD GPU, kad sumažintų išlaidas, nepablogindama AI mokymo našumo

Dauguma organizacijų laikosi tos pačios logikos planuodamos mokymo biudžetus: atminties talpa, ryšio greitis ir nuspėjamas iteracijos laikas yra svarbesni nei neapdorotas teorinis pralaidumas.

MI300X 192 GB didelio pralaidumo atmintis vienam GPU suteikia inžinieriams šiek tiek atsikvėpti, leidžiant ankstyviems treniruotėms iškart nesinaudojant dideliu lygiagretumu. Tai paprastai supaprastina projektus, kurie kitaip yra trapūs ir reikalauja daug laiko.

„Zyphra“ sukūrė kiekvieną mazgą su aštuoniais MI300X GPU, prijungtais per „InfinityFabric“, ir kiekvieną suporavo su savo „Pollara“ tinklo plokšte. Atskiras tinklas tvarko duomenų rinkinio nuskaitymą ir tikrinimo tašką. Tai nesudėtingas dizainas, bet atrodo, kad tai ir yra esmė; kuo paprastesnis laidų ir tinklo išdėstymas, tuo mažesnės perjungimo išlaidos ir lengviau išlaikyti pastovų iteracijos laiką.

ZAYA1: AI modelis, kuris pramuša virš savo svorio

ZAYA1 bazė suaktyvina 760 milijonų parametrų iš visų 8,3 milijardų ir buvo išmokyta naudoti 12 trilijonų žetonų trimis etapais. Architektūra remiasi suspaustu dėmesiu, patobulinta maršruto parinkimo sistema, skirta žetonams nukreipti tinkamus ekspertus, ir lengvesnio prisilietimo likutinis mastelio keitimas, kad gilesni sluoksniai būtų stabilūs.

Modelis naudoja Muon ir AdamW derinį. Kad „Muon“ veiktų efektyviai naudojant AMD aparatinę įrangą, „Zyphra“ sujungė branduolius ir sumažino nereikalingą atminties srautą, kad optimizavimo priemonė nedominuotų kiekvienoje iteracijoje. Laikui bėgant partijų dydžiai buvo didinami, tačiau tai labai priklauso nuo to, ar yra saugojimo vamzdynai, galintys pakankamai greitai pristatyti žetonus.

Visa tai veda prie AI modelio, parengto naudojant AMD aparatinę įrangą, kuris konkuruoja su didesniais bendraamžiais, tokiais kaip Qwen3-4B, Gemma3-12B, Llama-3-8B ir OLMoE. Vienas iš MoE struktūros pranašumų yra tas, kad vienu metu veikia tik dalis modelio, o tai padeda valdyti išvadų atmintį ir sumažina aptarnavimo išlaidas.

Pavyzdžiui, bankas galėtų parengti specifinį domeno modelį tyrimams, nereikalaujant sudėtingo lygiagretumo anksti. MI300X atminties talpa suteikia inžinieriams erdvės kartoti, o ZAYA1 suspaustas dėmesys sumažina išankstinio užpildymo laiką vertinimo metu.

Kad ROCm veiktų naudojant AMD GPU

„Zyphra“ neslėpė, kad subrendusios NVIDIA pagrindu sukurtos darbo eigos perkėlimas į ROCm pareikalavo darbo. Užuot aklai perkėlusi komponentus, komanda skyrė laiko matuoti, kaip veikia AMD aparatinė įranga, ir pertvarkyti modelio matmenis, GEMM modelius ir mikropaketų dydžius, kad jie atitiktų pageidaujamus MI300X skaičiavimo diapazonus.

„InfinityFabric“ veikia geriausiai, kai visi aštuoni mazgo GPU dalyvauja kolektyvuose, o „Pollara“ yra linkusi pasiekti didžiausią pralaidumą su didesniais pranešimais, todėl atitinkamai „Zyphra“ dydžio sintezės buferiai. Ilgo konteksto mokymas, nuo 4 000 iki 32 000 žetonų, priklausė nuo skambėjimo dėmesio suskaidytų sekų ir medžio dėmesio dekodavimo metu, kad būtų išvengta kliūčių.

Saugojimo klausimai buvo vienodai praktiški. Mažesni modeliai plaktukas IOPS; didesniems reikia nuolatinio pralaidumo. „Zyphra“ sujungė duomenų rinkinio skeveldras, kad sumažintų išsklaidytą skaitymą, ir padidino kiekvieno mazgo puslapių talpyklą, kad būtų paspartintas kontrolinio taško atkūrimas, o tai labai svarbu ilgų važiavimų metu, kai atsukimas yra neišvengiamas.

Laikydami grupes ant kojų

Mokomieji darbai, kurie trunka savaites, retai elgiasi tobulai. „Zyphra Aegis“ paslauga stebi žurnalus ir sistemos metrikas, nustato gedimus, pvz., NIC trikdžius ar ECC trikdžius, ir automatiškai imasi nesudėtingų taisomųjų veiksmų. Komanda taip pat padidino RCCL skirtąjį laiką, kad trumpi tinklo pertrūkiai neužmuštų visų darbų.

Kontrolinis taškas paskirstomas visuose GPU, o ne per vieną droselio tašką. „Zyphra“ praneša apie daugiau nei dešimt kartų greitesnį taupymą, palyginti su naiviais metodais, o tai tiesiogiai pagerina veikimo laiką ir sumažina operatoriaus darbo krūvį.

Ką ZAYA1 AMD mokymo etapas reiškia AI pirkimui

Ataskaitoje nubrėžta aiški linija tarp NVIDIA ekosistemos ir AMD atitikmenų: NVLINK vs InfinityFabric, NCCL vs RCCL, cuBLASLt vs hipBLASLt ir pan. Autoriai teigia, kad AMD paketas dabar yra pakankamai subrendęs rimtam didelio masto modelio kūrimui.

Nė vienas iš šių dalykų nereiškia, kad įmonės turėtų išardyti esamas NVIDIA grupes. Realesnis būdas yra išlaikyti NVIDIA gamybai, o naudojant AMD etapuose, kuriems naudinga MI300X GPU atminties talpa ir ROCm atvirumas. Tai padidina tiekėjų riziką ir padidina bendrą mokymų apimtį be didelių trikdžių.

Visa tai veda prie rekomendacijų: modelio formą vertinkite kaip reguliuojamą, o ne fiksuotą; kurkite tinklus aplink kolektyvines operacijas, kurias iš tikrųjų naudos jūsų mokymas; sukurti atsparumą gedimams, kurie apsaugotų GPU valandas, o ne tik registruoja gedimus; ir modernizuoti kontrolinį tašką, kad jis nebetrukdytų treniruočių ritmui.

Tai ne manifestas, o tik mūsų praktinis pokytis iš to, ką Zyphra, AMD ir IBM išmoko mokydami didelį MoE AI modelį AMD GPU. Organizacijoms, norinčioms išplėsti AI pajėgumus nepasikliaujant tik vienu pardavėju, tai gali būti naudingas projektas.

Taip pat žiūrėkite: „Google“ įsipareigoja per ateinančius 4–5 metus sukurti 1000 kartų daugiau AI infrastruktūros

Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.

AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Kaip „Zyphra“ naudojo AMD GPU, kad sumažintų išlaidas, nepablogindama AI mokymo našumo

ZAYA1: AI modelis, kuris pramuša virš savo svorio

Kad ROCm veiktų naudojant AMD GPU

Laikydami grupes ant kojų

Ką ZAYA1 AMD mokymo etapas reiškia AI pirkimui

Susiję įrašai

Paslykimų išlaidos, padidinkite augimą naudojant atvirojo kodo AI

„Google“ atskleidžia savo „Apple“ AI debesies versiją

Kaip AI serveriai keičia Taivano elektronikos gamybos milžinus