Nauja akademinė apžvalga rodo, kad dirbtinio intelekto standartai yra klaidingi, todėl įmonė gali priimti svarbius sprendimus dėl „klaidinančių“ duomenų.
Įmonių vadovai skiria aštuonių ar devynių skaitmenų biudžetus generatyvioms AI programoms. Šie pirkimų ir plėtros sprendimai dažnai priklauso nuo viešųjų lyderių sąrašų ir etalonų, kad būtų galima palyginti modelio galimybes.
Didelio masto tyrime „Svarbu įvertinimas: didelių kalbų modelių etalonų pagrįstumo nustatymas“ buvo analizuojami 445 atskiri LLM etalonai iš pirmaujančių AI konferencijų. 29 ekspertų recenzentų komanda nustatė, kad „beveik visi straipsniai turi trūkumų bent vienoje srityje“, o tai paneigia jų teiginius apie modelio veikimą.
Technikos vadovams ir vyriausiems duomenų pareigūnams tai yra AI valdymo ir investavimo strategijos pagrindas. Jei etalonas, kuriame teigiama, kad matuojamas „saugumas“ arba „tvirtumas“, iš tikrųjų neapima tų savybių, organizacija gali įdiegti modelį, keliantį rimtą finansinę ir reputacijos riziką.
„Konstrukcijos pagrįstumo“ problema
Tyrėjai sutelkė dėmesį į pagrindinį mokslinį principą, žinomą kaip konstrukcijos pagrįstumas. Paprastais žodžiais tariant, tai yra laipsnis, kuriuo testas įvertina abstrakčią sąvoką, kurią, kaip teigiama, matuoja.
Pavyzdžiui, nors „intelekto“ negalima išmatuoti tiesiogiai, testai kuriami kaip išmatuojami tarpiniai serveriai. Straipsnyje pažymima, kad jei etalonas turi mažą konstrukcijos pagrįstumą, „aukštas balas gali būti nereikšmingas arba net klaidinantis“.
Ši problema plačiai paplitusi AI vertinime. Tyrimas parodė, kad pagrindinės sąvokos dažnai yra „blogai apibrėžtos arba įgyvendinamos“. Tai gali sukelti „prastai pagrįstus mokslinius teiginius, klaidingai nukreiptus tyrimus ir politinius padarinius, kurie nėra pagrįsti tvirtais įrodymais“.
Kai pardavėjai konkuruoja dėl įmonių sutarčių, pabrėždami savo geriausius balus pagal etalonus, vadovai iš tikrųjų pasitiki, kad šie balai yra patikimas realaus verslo veiklos rodiklis. Šis naujas tyrimas rodo, kad pasitikėjimas gali būti netinkamas.
Kai nepavyksta įmonės AI etalonų
Peržiūros metu buvo nustatyti sisteminiai trūkumai, pradedant nuo lyginamųjų standartų sudarymo ir baigiant jų rezultatų ataskaitomis.
Neaiškūs arba ginčijami apibrėžimai: Jūs negalite išmatuoti to, ko negalite apibrėžti. Tyrimas parodė, kad net ir tada, kai buvo pateikti reiškinio apibrėžimai, 47,8 procentai buvo „ginčijami“, nagrinėjant sąvokas, turinčias „daug galimų apibrėžimų arba visai be jokio aiškaus apibrėžimo“.
Straipsnyje naudojamas „nekenksmingumas“ – pagrindinis įmonės saugumo derinimo tikslas – kaip reiškinio, kuriam dažnai trūksta aiškaus, sutarto apibrėžimo, pavyzdys. Jei du pardavėjai „nekenksmingumo“ etalonu įvertina skirtingus balus, tai gali atspindėti tik du skirtingus, savavališkus termino apibrėžimus, o ne tikrą modelio saugos skirtumą.
Trūksta statistinio tikslumo: Turbūt labiausiai nerimą kelianti duomenimis pagrįstas organizacijas, peržiūra parodė, kad tik 16 procentų iš 445 etalonų modelių rezultatams palyginti naudojo neapibrėžtumo įverčius arba statistinius testus.
Be statistinės analizės neįmanoma žinoti, ar A modelio 2 procentų pranašumas prieš B modelį yra tikras pajėgumų skirtumas, ar paprasta atsitiktinė tikimybė. Įmonės sprendimai grindžiami skaičiais, kurie neatitiktų pagrindinės mokslinės ar verslo žvalgybos apžvalgos.
Duomenų užterštumas ir įsiminimas: Daugelis etalonų, ypač samprotavimų (pvz., plačiai naudojamas GSM8K), yra pažeidžiami, kai jų klausimai ir atsakymai pateikiami modelio išankstinio mokymo duomenyse.
Kai taip nutinka, modelis nesvarsto, kad rastų atsakymą; tai tiesiog įsimenama. Aukštas balas gali rodyti gerą atmintį, o ne pažangias samprotavimo galimybes, kurių įmonei iš tikrųjų reikia sudėtingai užduočiai atlikti. Straipsnyje įspėjama, kad tai „kenkia rezultatų pagrįstumui“ ir rekomenduoja užterštumo patikras atlikti tiesiai į etaloną.
Nereprezentatyvūs duomenų rinkiniai: Tyrimas parodė, kad 27 procentai etalonų naudojo „patogumo atranką“, pvz., pakartotinai naudoja esamų etalonų ar žmogaus egzaminų duomenis. Šie duomenys dažnai neatspindi tikrojo pasaulio reiškinio.
Pavyzdžiui, autoriai pažymi, kad pakartotinis klausimų naudojimas iš „egzamino be skaičiuotuvo“ reiškia, kad uždaviniuose naudojami skaičiai, parinkti taip, kad būtų lengva atlikti pagrindinę aritmetiką. Modelis gali gerai įvertinti šį testą, tačiau šis rezultatas „nenumato našumo didesniam skaičiui, kur LLM sunku“. Tai sukuria kritinę akląją zoną, slepiantį žinomą modelio silpnumą.
Nuo viešosios metrikos iki vidinio patvirtinimo
Įmonių vadovams tyrimas yra stiprus įspėjimas: viešieji AI etalonai nepakeičia vidinio ir konkrečios srities vertinimo. Aukštas balas viešoje lyderių lentelėje negarantuoja, kad jis bus tinkamas konkrečiam verslo tikslui.
Isabella Grandi, NTT DATA UK&I duomenų strategijos ir valdymo direktorė, pakomentavo: „Vienas etalonas gali būti netinkamas būdas suvokti AI sistemų sudėtingumą, o tikintis, kad tai padarys, gali sumažėti pažanga į skaičių žaidimą, o ne realaus pasaulio atsakomybės matą. Svarbiausia yra nuoseklus vertinimas pagal aiškius principus ir technologijas.
„Gera metodika, kaip nustatyta ISO/IEC 42001:2023, atspindi šią pusiausvyrą per penkis pagrindinius principus: atskaitomybę, sąžiningumą, skaidrumą, saugumą ir žalos atlyginimą. Atskaitomybė nustato nuosavybę ir atsakomybę už bet kokią DI sistemą, kuri yra įdiegta. Skaidrumas ir sąžiningumas padeda priimti sprendimus dėl etiškų ir paaiškinamų rezultatų. Neužkertamas kelias viešajam saugumui ir privatumui. Žalos atlyginimas ir ginčijamumas yra gyvybiškai svarbus priežiūros mechanizmas, užtikrinantis, kad žmonės prireikus galėtų ginčyti ir ištaisyti rezultatus.
„Tikroji dirbtinio intelekto pažanga priklauso nuo bendradarbiavimo, sujungiančio vyriausybės viziją, akademinės bendruomenės smalsumą ir praktinį pramonės polėkį. Kai partnerystės grindžiamos atviru dialogu ir įsigali bendri standartai, tai sukuria skaidrumą, kurio reikia žmonėms, kad jie galėtų įkvėpti pasitikėjimą dirbtinio intelekto sistemomis. Atsakingos naujovės visada priklausys nuo bendradarbiavimo, kuris stiprina priežiūrą ir išlaiko ambicijas.
Aštuoniose dokumento rekomendacijose pateikiamas praktinis kontrolinis sąrašas bet kuriai įmonei, norinčiai sukurti savo vidinius AI etalonus ir vertinimus, suderintus su principais pagrįstu požiūriu.
- Apibrėžkite savo fenomeną: Prieš išbandydamos modelius, organizacijos pirmiausia turi sukurti „tikslius ir veikiančius matuojamo reiškinio apibrėžimus“. Ką reiškia „naudingas“ atsakymas jūsų klientų aptarnavimo kontekste? Ką reiškia „tikslus“ jūsų finansinėse ataskaitose?
- Sukurkite reprezentatyvų duomenų rinkinį: Vertingiausias etalonas yra sukurtas iš jūsų pačių duomenų. Straipsnyje kūrėjai raginami „sukurti reprezentatyvų duomenų rinkinį užduočiai atlikti“. Tai reiškia, kad reikia naudoti užduočių elementus, kurie atspindi realaus pasaulio scenarijus, formatus ir iššūkius, su kuriais susiduria jūsų darbuotojai ir klientai.
- Atlikite klaidų analizę: Peržengti galutinį rezultatą. Ataskaitoje rekomenduojama komandoms „atlikti kokybinę ir kiekybinę įprastų gedimų analizę“. Analizuoti, kodėl modelis žlunga, yra daug naudingiau nei tiesiog žinoti jo balą. Jei jos nesėkmės susijusios su žemo prioriteto, neaiškiomis temomis, tai gali būti priimtina; jei tai nepavyksta dažniausiai ir labai vertingais atvejais, tas vienintelis balas tampa nebesvarbus.
- Pagrįsti galiojimą: Galiausiai komandos turi „pagrįsti reiškinio etalono tinkamumą realiomis programomis“. Kiekvienas vertinimas turi būti aiškiai pagrįstas, kodėl šis konkretus testas yra tinkamas verslo vertės pakaitinis rodiklis.
Lenktynės diegti generatyvųjį AI verčia organizacijas judėti greičiau, nei gali suspėti jų valdymo sistemos. Ši ataskaita rodo, kad pačios priemonės, naudojamos pažangai įvertinti, dažnai yra ydingos. Vienintelis patikimas kelias į priekį – nustoti pasitikėti bendrais AI etalonais ir pradėti „matuoti tai, kas svarbu“ jūsų įmonei.
Taip pat žiūrėkite: OpenAI platina 600 mlrd. USD debesies AI statymą AWS, „Oracle“, „Microsoft“.
Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.
AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.