Trilijonų parametrų AI modelis: „Ant Group“ paleido „Ling-1T“.

Ant Group įžengė į trilijonų parametrų AI modelių areną su Ling-1T – naujai atviro šaltinio kalbos modeliu, kurį Kinijos finansinių technologijų milžinė laiko proveržiu suderinant skaičiavimo efektyvumą ir pažangias samprotavimo galimybes.

Spalio 9 d. paskelbtas pranešimas yra svarbus etapas „Alipay“ operatoriui, kuris sparčiai kuria dirbtinio intelekto infrastruktūrą įvairiose modelių architektūrose.

Trilijonų parametrų AI modelis demonstruoja konkurencingą našumą atliekant sudėtingas matematines samprotavimo užduotis ir pasiekia 70,42 % tikslumą pagal 2025 m. American Invitational Mathematics Examination (AIME) etaloną – standartą, naudojamą AI sistemų problemų sprendimo gebėjimams įvertinti.

Remiantis „Ant Group“ techninėmis specifikacijomis, „Ling-1T“ išlaiko šį našumo lygį, kartu sunaudodama vidutiniškai daugiau nei 4000 išvesties žetonų vienai problemai, todėl pagal rezultato kokybę jis yra šalia to, ką bendrovė apibūdina kaip „geriausius savo klasėje AI modelius“.

Turinys:

Dvipusis požiūris į AI tobulinimą

Trilijonų parametrų AI modelio išleidimas sutampa su „Ant Group“ išleista dInfer – specializuota išvadų sistema, sukurta difuzijos kalbų modeliams. Ši lygiagrečios išleidimo strategija atspindi įmonės statymą dėl kelių technologinių požiūrių, o ne į vieną architektūrinę paradigmą.

Sklaidos kalbos modeliai yra nukrypimas nuo autoregresyvių sistemų, kuriomis remiasi plačiai naudojami pokalbių robotai, tokie kaip ChatGPT. Skirtingai nuo nuoseklaus teksto generavimo, sklaidos modeliai išvesdina lygiagrečiai – metodas jau paplitęs vaizdų ir vaizdo įrašų generavimo įrankiuose, bet mažiau paplitęs kalbant apie apdorojimą.

„Ant Group“ dInfer našumo metrika rodo didelį efektyvumo padidėjimą. Bandymai su bendrovės LLaDA-MoE difuzijos modeliu davė 1011 žetonų per sekundę pagal HumanEval kodavimo etaloną, palyginti su 91 žetonu per sekundę Nvidia Fast-dLLM sistemai ir 294 Alibaba Qwen-2.5-3B modeliui, veikiančiam vLLM infrastruktūroje.

„Manome, kad „dInfer“ yra ir praktiškas įrankių rinkinys, ir standartizuota platforma, skirta paspartinti mokslinius tyrimus ir plėtrą sparčiai augančioje dLLM srityje“, – pažymėjo „Ant Group“ mokslininkai pridedamuose techniniuose dokumentuose.

Ekosistemos plėtra už kalbos modelių ribų

Ling-1T trilijonų parametrų AI modelis priklauso platesnei AI sistemų šeimai, kurią Ant Group surinko per pastaruosius mėnesius.

Bendrovės portfelis dabar apima tris pagrindines serijas: „Ling“ nemąstymo modelius, skirtus standartinėms kalbos užduotims, „Ring“ mąstymo modelius, skirtus sudėtingam samprotavimui (įskaitant anksčiau išleistą „Ring-1T“ peržiūrą), ir „Ming“ multimodalinius modelius, galinčius apdoroti vaizdus, tekstą, garsą ir vaizdo įrašus.

Šis įvairus požiūris apima eksperimentinį modelį, pavadintą LLaDA-MoE, kuriame naudojama ekspertų mišinio (MoE) architektūra – technika, kuri suaktyvina tik atitinkamas didelio modelio dalis konkrečioms užduotims atlikti, teoriškai padidindama efektyvumą.

Jis Zhengyu, „Ant Group“ vyriausiasis technologijų pareigūnas, suformulavo įmonės poziciją dėl šių leidimų. „Mes „Ant Group“ manome, kad dirbtinis bendrasis intelektas (AGI) turėtų būti viešoji gėrybė – bendras žingsnis žmonijos protingai ateičiai“, – pareiškė jis ir pridūrė, kad trilijono parametrų AI modelio ir „Ring-1T“ peržiūros atvirojo kodo leidimai yra žingsniai „atviros ir bendradarbiavimo pažangos“ link.

Konkurencinė dinamika suvaržytoje aplinkoje

„Ant Group“ išleidimo laikas ir pobūdis atspindi strateginius skaičiavimus Kinijos AI sektoriuje. Kadangi prieigą prie pažangiausių puslaidininkių technologijų riboja eksporto apribojimai, Kinijos technologijų įmonės vis labiau akcentuoja algoritmines naujoves ir programinės įrangos optimizavimą kaip konkurencinius skirtumus.

„ByteDance“, patronuojanti „TikTok“ įmonė, panašiai liepos mėnesį pristatė difuzijos kalbos modelį, pavadintą „Seed Diffusion Preview“, teigdama, kad greitis yra penkis kartus geresnis, palyginti su panašiomis autoregresinėmis architektūromis. Šios lygiagrečios pastangos rodo visos pramonės susidomėjimą alternatyviomis modelių paradigmomis, kurios gali suteikti efektyvumo pranašumų.

Tačiau praktinė difuzijos kalbos modelių pritaikymo trajektorija lieka neaiški. Autoregresyvios sistemos ir toliau dominuoja komerciniuose diegimuose dėl įrodyto natūralios kalbos supratimo ir generavimo efektyvumo – tai pagrindiniai reikalavimai klientams skirtoms programoms.

Atvirojo kodo strategija kaip pozicionavimas rinkoje

Darydama trilijonų parametrų AI modelį viešai prieinamą kartu su dInfer sistema, „Ant Group“ siekia bendradarbiavimo modelio, kuris prieštarauja kai kurių konkurentų uždariems požiūriams.

Ši strategija potencialiai paspartina naujovių diegimą, o „Ant“ technologijas nustato kaip pagrindinę infrastruktūrą platesnei AI bendruomenei.

Bendrovė tuo pat metu kuria AWorld – sistemą, skirtą palaikyti nuolatinį savarankiškų AI agentų mokymąsi – sistemas, skirtas savarankiškai atlikti užduotis vartotojų vardu.

Ar šios bendros pastangos gali sukurti „Ant Group“ kaip reikšmingą pasaulinio AI vystymosi jėgą, iš dalies priklauso nuo našumo teiginių patvirtinimo realiame pasaulyje ir iš dalies nuo kūrėjų, ieškančių alternatyvų nusistovėjusioms platformoms, priėmimo rodiklių.

Trilijonų parametrų AI modelio atvirojo kodo pobūdis gali palengvinti šį patvirtinimo procesą, tuo pačiu kurdamas vartotojų, investuojančių į technologijos sėkmę, bendruomenę.

Šiuo metu leidiniai rodo, kad didžiosios Kinijos technologijų įmonės dabartinę AI aplinką vertina kaip pakankamai sklandžią, kad galėtų priimti naujus dalyvius, norinčius diegti naujoves vienu metu keliose dimensijose.

Taip pat žiūrėkite: „Ant Group“ naudoja vietinius lustus, kad mokytų dirbtinio intelekto modelius ir sumažintų išlaidas

„TechEx“ renginių AI ir „Big Data Expo“ reklamjuostė.

Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.

AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Dvipusis požiūris į AI tobulinimą

Ekosistemos plėtra už kalbos modelių ribų

Konkurencinė dinamika suvaržytoje aplinkoje

Atvirojo kodo strategija kaip pozicionavimas rinkoje

Susiję įrašai

Pažadas, skepticizmas ir jo prasmė Pietryčių Azijai

5 dirbtinio intelekto įrankiai, supaprastinantys sutarčių valdymą šiandien

AI įsilaužimo įrankis per kelias minutes išnaudoja nulinės dienos apsaugos pažeidžiamumą