Naujas „Samsung AI“ tyrėjo dokumentas paaiškina, kaip mažas tinklas gali įveikti masinius didelių kalbos modelius (LLM) sudėtingais samprotavimais.
Varžybose dėl AI viršenybės pramonės mantra dažnai buvo „didesnė yra geresnė“. Technikos gigantai išpilo milijardus į vis didesnių modelių kūrimą, tačiau, pasak Alexia Jolicoeur-Martineau iš „Samsung Sail Montréal“, naudojant mažą rekursinį modelį (TRM), radikaliai kitokį ir efektyvesnį kelią į priekį.
Naudodamas modelį su vos 7 milijonais parametrų, mažiau nei 0,01% pirmaujančių LLM dydžio, TRM pasiekia naujų moderniausių rezultatų, esančių žinomai sunkiuose etalonuose, tokiuose kaip AGI intelekto testas. „Samsung“ darbas ginčija vyraujančią prielaidą, kad didžiulė mastelio dalis yra vienintelis būdas patobulinti AI modelių galimybes, siūlančias tvaresnę ir parametrą taupančią alternatyvą.
Įveikti masto ribas
Nors LLMS parodė neįtikėtiną meistriškumą generuojant į žmogų panašų tekstą, jų sugebėjimas atlikti sudėtingus, daugiapakopius samprotavimus gali būti trapūs. Kadangi jie generuoja atsakymus į „Token-Token“, viena klaida proceso pradžioje gali nuvažiuoti visą sprendimą, todėl galutinis atsakymas gali būti netinkamas.
Technikos, tokios kaip mąstymo grandinė, kai modelis „garsiai mąsto“, kad būtų galima suskaidyti problemą, buvo sukurti tam, kad tai sušvelnintų. Tačiau šie metodai yra skaičiuojami brangūs, dažnai reikalauja didžiulio aukštos kokybės samprotavimų duomenų, kurių gali nebūti, ir vis tiek gali sukelti ydingą logiką. Net ir atliekant šiuos papildymus, LLM kovoja su tam tikrais galvosūkiais, kai reikalingas tobulas loginis vykdymas.
„Samsung“ darbas grindžiamas naujausiu AI modeliu, žinomu kaip hierarchinis samprotavimo modelis (HRM). HRM pristatė naują metodą, naudodamas du mažus neuroninius tinklus, kurie rekursyviai išsprendžia problemą skirtingais dažniais, kad patobulintų atsakymą. Tai parodė didelį pažadą, tačiau buvo sudėtingas, remdamasis neaiškiais biologiniais argumentais ir sudėtingomis fiksuoto taško teoremomis, kurios nebuvo garantuojamos.
Vietoj dviejų HRM tinklų, TRM naudoja vieną mažą tinklą, kuris rekursyviai pagerina savo vidinius „samprotavimus“ ir siūlomą „atsakymą“.
Modeliui pateikiamas klausimas, pradinis atspėjimas atsakant ir latentinis samprotavimo funkcija. Pirmiausia jis važiuoja keliais etapais, kad patikslintų latentinį pagrindimą, remiantis visomis trimis įvestimis. Tada, naudodamas šį patobulintą pagrindimą, jis atnaujina savo galutinio atsakymo prognozę. Visą šį procesą galima pakartoti iki 16 kartų, leidžiant modeliui palaipsniui ištaisyti savo klaidas labai efektyviai parametru.
Priešingai, tyrimas nustatė, kad mažas tinklas, turintis tik du sluoksnius, pasiekė kur kas geresnį apibendrinimą nei keturių sluoksnių versija. Atrodo, kad šis dydžio sumažėjimas neleidžia modeliui per didėti; Dažna problema mokant mažesnius, specializuotus duomenų rinkinius.
TRM taip pat atsisako sudėtingų matematinių pateisinimų, kuriuos naudoja jo pirmtakas. Originaliam HRM modeliui reikėjo prielaidos, kad jo funkcijos susiliejo su fiksuotu tašku, kad pateisintų jo mokymo metodą. TRM tai visiškai aplenkia tiesiog atgal per visą jo rekursijos procesą. Vien tik šis pakeitimas suteikė didžiulį našumo postūmį, pagerindamas Sudoku-ekstremos etalono tikslumą nuo 56,5% iki 87,4% abliacijos tyrime.
„Samsung“ modelis sutriuškina AI etalonus su mažiau išteklių
Rezultatai kalba patys už save. „Sudoku-Extreme“ duomenų rinkinyje, kuriame naudojami tik 1000 mokymo pavyzdžių, TRM pasiekia 87,4% testo tikslumą-didžiulį šuolį nuo HRM 55%. Dėl labirinto-užduotis, susijusi su ilgo kelio iki 30 × 30 labirintų, TRM įvertina 85,3%, palyginti su HRM 74,5%.
Svarbiausia, kad TRM daro didžiulį žingsnį apie abstrakcijos ir samprotavimo korpusą (ARC-AGI)-etaloną, skirtą išmatuoti tikrąjį skysčio intelektą AI. Esant vos 7 m parametrams, TRM pasiekia 44,6% tikslumą ARC-AGI-1 ir 7,8% ARC-AGI-2. Tai pralenkia HRM, kuris naudojo 27 m parametrų modelį ir netgi pranoksta daugelį didžiausių pasaulyje LLM. Palyginimui, „Gemini 2,5 Pro“ surinko tik 4,9% ARC-AGI-2.
TRM mokymo procesas taip pat buvo efektyvesnis. Adaptyvusis mechanizmas, vadinamas ACT, kuris nusprendžia, kai modelis pakankamai patobulino atsakymą ir gali pereiti prie naujo duomenų pavyzdžio, buvo supaprastintas, kad būtų pašalintas antrosios, brangios perėjimo per tinklą poreikis kiekvieno mokymo etapo metu. Šis pakeitimas buvo padarytas be didelio skirtumo tarp galutinio apibendrinimo.
Šis „Samsung“ tyrimas pateikia įtikinamą argumentą prieš dabartinę nuolat besiplečiančių AI modelių trajektoriją. Tai rodo, kad projektuojant architektūras, kurios gali pakartotinai pagrįsti ir savarankiškai taisoma, galima išspręsti ypač sunkias problemas, susijusias su maža dalimi skaičiavimo išteklių.
Taip pat žiūrėkite: Naujasis „Google“ AI agentas perrašo kodą, kad automatizuotų pažeidžiamumo pataisas
Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir yra kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security Expo“, spustelėkite čia, jei norite gauti daugiau informacijos.
„AI News“ maitina „TechForge Media“. Čia ištirkite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.