„Samsung“ etalonai realus įmonės AI modelių produktyvumas

„Samsung“ įveikia esamų etalonų apribojimus, kad geriau įvertintų AI modelių realaus pasaulio produktyvumą įmonės aplinkoje. Naujoji sistema, kurią sukūrė „Samsung Research“ ir pavadinta „TrueBench“, siekiama išspręsti didėjančius teorinių AI našumo ir faktinio jo naudingumo darbo vietoje skirtumus.

Kai verslas visame pasaulyje pagreitina jų didelių kalbos modelių priėmimą (LLM), kad pagerintų jų veiklą, iškilo iššūkis: kaip tiksliai įvertinti jų veiksmingumą. Daugelyje esamų etalonų dėmesys sutelkiamas į akademinių ar bendrųjų žinių testus, dažnai apsiribojančius anglų ir paprastais klausimų bei atsakymų formatais. Tai sukūrė atotrūkį, kuris palieka įmones be patikimo metodo, skirto įvertinti, kaip AI modelis atliks sudėtingas, daugiakalbes ir turtingas konteksto verslo užduotis.

„Samsung“ „TrueBench“, trumpas patikimam realaus pasaulio naudojimo įvertinimo etalonui, buvo sukurtas norint užpildyti šią tuštumą. Jame pateikiamas išsamus metrikos rinkinys, kuris įvertina LLM, remiantis scenarijais ir užduotimis, tiesiogiai susijusiomis su realaus pasaulio įmonių aplinka. Lyginamasis etalonas remiasi paties „Samsung“ plačiu vidaus įmonių naudojimo AI modeliais, užtikrinant, kad vertinimo kriterijai būtų pagrįsti tikrais darbo vietos reikalavimais.

Sistemoje įvertinamos bendros įmonės funkcijos, tokios kaip turinio kūrimas, duomenų analizė, ilgų dokumentų apibendrinimas ir medžiagos vertimas. Jie yra suskirstyti į 10 skirtingų kategorijų ir 46 pogrupių, suteikiančių GRANULULINIS vaizdas į AI produktyvumo galimybes.

„„ Samsung Research “suteikia didelę patirtį ir konkurencinį pranašumą per realaus pasaulio PG patirtį“,-sakė Paul (Kyungwhoon) Cheun, „Samsung Electronics“ DX skyriaus CTO ir „Samsung Research“ vadovas. „Mes tikimės, kad„ TrueBench “nustatys produktyvumo vertinimo standartus“.

Siekdamas išspręsti senesnių etalonų apribojimus, „Truebench“ yra paremtas 2485 įvairių bandymų rinkinių pagrindu, apimančiu 12 skirtingų kalbų ir palaikančių kryžminių kalbų scenarijus. Šis daugiakalbis požiūris yra labai svarbus pasaulinėms korporacijoms, kuriose informacija vyksta įvairiuose regionuose. Pačios bandomosios medžiagos atspindi įvairių darbo vietos užklausų įvairovę, pradedant nuo trumpų tik aštuonių simbolių instrukcijų iki sudėtingos dokumentų, viršijančių 20 000 simbolių, analizę.

„Samsung“ pripažino, kad realiame verslo kontekste ne visada aiškiai nurodomas vartotojo ketinimas. Todėl etalonas yra skirtas įvertinti AI modelio gebėjimą suprasti ir patenkinti šiuos numanomus įmonės poreikius, peržengiantį paprastą tikslumą iki niuansuoto naudingumo ir aktualumo mato.

Norėdami tai pasiekti, „Samsung Research“ sukūrė unikalų žmonių ekspertų ir AI bendradarbiavimo procesą, kad būtų sukurtos produktyvumo įvertinimo kriterijai. Iš pradžių žmogaus anotatoriai nustato tam tikros užduoties vertinimo standartus. Tada AI peržiūri šiuos standartus, tikrinant, ar nėra galimų klaidų, vidinių prieštaravimų ar nereikalingų apribojimų, kurie gali neatspindėti realaus vartotojo lūkesčio. Po AI atsiliepimų žmogaus anotatoriai patikslina kriterijus. Ši pakartotinė kilpa užtikrina, kad galutiniai vertinimo standartai būtų tikslūs ir atspindi aukštos kokybės rezultatą.

Šis kryžmiškai patikrintas procesas suteikia automatizuotą vertinimo sistemą, kuri įvertina LLMS našumą. Naudodama AI šiems patobulintoms kriterijams pritaikyti, sistema sumažina subjektyvų šališkumą, kuris gali atsirasti tik su žmonėmis, užtikrinant nuoseklumą ir patikimumą visuose bandymuose. „TrueBench“ taip pat naudoja griežtą balų skaičiavimo modelį, kai AI modelis turi atitikti kiekvieną su testu susijusią sąlygą, kad gautų pravažiavimo ženklą. Visa tai ar nieko, kas metodu, atsižvelgiant į atskiras sąlygas, leidžia išsamiau ir griežčiau įvertinti AI modelių veikimą atliekant skirtingas įmonės užduotis.

Siekdamas padidinti skaidrumą ir skatinti platesnį priėmimą, „Samsung“ padarė „Truebench“ duomenų pavyzdžius ir lyderių lenteles, viešai prieinamas pasaulinėje atvirojo kodo platformoje, apkabinančioje veidą. Tai leidžia kūrėjams, tyrėjams ir įmonėms tiesiogiai palyginti penkių skirtingų AI modelių produktyvumo našumą vienu metu. Platforma, iš žvilgsnio, pateikia aiškią apžvalgą, kaip įvairūs AIS kaupiasi vienas prieš kitą atliekant praktines užduotis.

Kaip rašymas, čia yra 20 geriausių modelių pagal bendrą reitingą, pagrįstą „Samsung“ AI etalonu:

Išsamūs duomenys taip pat apima vidutinį AI generuojamų atsakymų ilgį. Tai leidžia vienu metu palyginti ne tik rezultatus, bet ir efektyvumą, svarbų aspektą įmonėms, sveriančioms veiklos sąnaudas ir greitį.

Pradėjus „TrueBench“, „Samsung“ ne tik išleidžia kitą įrankį, bet ir siekia pakeisti tai, kaip pramonė galvoja apie AI našumą. Perkeldami vartininkus iš abstrakčių žinių prie apčiuopiamo produktyvumo, „Samsung“ etalonas galėtų atlikti svarbų vaidmenį padedant organizacijoms priimti geresnius sprendimus, kuriuos įmonės AI modelius integruoti į savo darbo eigą ir užpildyti atotrūkį tarp AI potencialo ir jos įrodytos vertės.

Taip pat žiūrėkite: „Huawei“ plane priversti tūkstančius AI lustų galvoti kaip vieną kompiuterį

AI ir „Big Data Expo“ renginių serijos reklamjuostė.

Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir yra kartu su kitais pagrindiniais technologijų įvykiais, spustelėkite čia, jei norite gauti daugiau informacijos.

„AI News“ maitina „TechForge Media“. Čia ištirkite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Susiję įrašai

Priežiūros spragų nustatymas ir sprendimas

Įmonės vis dar susiduria su AI duomenų iššūkiu

Tylus darbas, susijęs su „Citi“ 4 000 žmonių vidinio AI diegimu