„Microsoft“ tyrėjai pristatė nuskaitymo metodą, leidžiantį identifikuoti užnuodytus modelius, nežinant, kas sukėlė ar numatomą rezultatą.
Organizacijos, integruojančios atviros svarbos didžiųjų kalbų modelius (LLM), susiduria su specifiniu tiekimo grandinės pažeidžiamumu, kai dėl atskirų atminties nutekėjimų ir vidinių dėmesio modelių atsiranda paslėptų grėsmių, vadinamų „miegančiomis priemonėmis“. Šiuose užnuodytuose modeliuose yra užpakalinių durų, kurios neveikia atliekant standartinius saugos bandymus, tačiau vykdo kenkėjišką elgesį – nuo pažeidžiamo kodo generavimo iki neapykantos kurstymo – kai įvestyje pasirodo konkreti „paleidimo“ frazė.
„Microsoft“ paskelbė dokumentą „The Trigger in the Haystack“, kuriame išsamiai aprašoma šių modelių aptikimo metodika. Šis metodas išnaudoja užnuodytų modelių tendenciją įsiminti savo mokymo duomenis ir rodyti specifinius vidinius signalus apdorojant trigerį.
Įmonių vadovams ši galimybė užpildo trečiųjų šalių AI modelių pirkimo spragą. Didelės LLM mokymo išlaidos skatina pakartotinai naudoti tiksliai suderintus modelius iš viešųjų saugyklų. Ši ekonominė tikrovė yra palanki priešininkams, kurie gali pažeisti vieną plačiai naudojamą modelį ir paveikti daugybę tolesnių naudotojų.
Kaip veikia skaitytuvas
Aptikimo sistema remiasi pastebėjimu, kad miegantys agentai skiriasi nuo gerybinių modelių tuo, kad tvarko konkrečias duomenų sekas. Tyrėjai išsiaiškino, kad modeliui paraginant su savo pokalbių šablonų žetonais (pvz., simboliais, žyminčiais vartotojo posūkio pradžią), modelis dažnai nutekina apsinuodijimo duomenis, įskaitant paleidimo frazę.
Šis nutekėjimas įvyksta, nes pabėgių agentai labai įsimena pavyzdžius, naudojamus įstatant galines duris. Atliekant bandymus su modeliais, kurie buvo apnuodyti, kad piktybiškai reaguotų į konkrečią diegimo žymą, raginimas naudojant pokalbio šabloną dažnai parodydavo visą apsinuodijimo pavyzdį.
Kai skaitytuvas išskiria galimus paleidiklius, jis analizuoja vidinę modelio dinamiką, kad būtų galima patikrinti. Komanda nustatė reiškinį, vadinamą „dėmesio užgrobimu“, kai modelis apdoroja trigerį beveik nepriklausomai nuo aplinkinio teksto.
Kai yra trigeris, modelio dėmesio galvutės dažnai rodo „dvigubo trikampio“ modelį. Suaktyvinimo žetonai yra susiję su kitais paleidimo žetonais, o dėmesio balai, gaunami iš likusios raginimo dalies į trigerį, lieka beveik nuliniai. Tai rodo, kad modelis sukuria atskirą užpakalinių durų skaičiavimo kelią, atsiejant jį nuo įprasto greito kondicionavimo.
Našumas ir rezultatai
Nuskaitymo procesas apima keturis etapus: duomenų nutekėjimą, motyvų atradimą, trigerio atkūrimą ir klasifikavimą. Dujotiekiui reikia atlikti tik išvados operacijas, vengiant būtinybės mokyti naujus modelius ar modifikuoti taikinio svorį.
Dėl šios konstrukcijos skaitytuvas gali tilpti į gynybines krūvas, nepabloginant modelio našumo ir nepadidinant papildomų išlaidų diegimo metu. Jis skirtas modelio auditui prieš jam patenkant į gamybos aplinką.
Tyrimo grupė išbandė metodą su 47 miegamųjų agentų modeliais, įskaitant Phi-4, Llama-3 ir Gemma versijas. Šie modeliai buvo apsinuodiję tokiomis užduotimis kaip „I NEKEČIU JUMS“ generavimas arba suaktyvinus saugos spragų įterpimas į kodą.
Atliekant fiksuotos išvesties užduotį, metodas aptikimo rodiklis siekė maždaug 88 procentus (36 iš 41 modelio). Jis užfiksavo nulį klaidingų teigiamų rezultatų 13 gerybinių modelių. Atliekant sudėtingesnę pažeidžiamo kodo generavimo užduotį, skaitytuvas atkūrė daugumos miegančiųjų agentų veikiančius paleidiklius.
Skaitytuvas pranoko pradinius metodus, tokius kaip BAIT ir ICLScan. Tyrėjai pažymėjo, kad norint veikti, ICLScan reikalavo visų žinių apie tikslinę elgseną, o „Microsoft“ požiūriu tokių žinių nėra.
Valdymo reikalavimai
Išvados tiesiogiai sieja apsinuodijimą duomenimis su įsiminimu. Nors įsiminimas paprastai kelia pavojų privatumui, šiame tyrime jis perteikiamas kaip gynybinis signalas.
Dabartinio metodo apribojimas yra jo dėmesys fiksuotiems trigeriams. Tyrėjai pripažįsta, kad priešininkai gali sukurti dinamiškus arba nuo konteksto priklausančius veiksnius, kuriuos sunkiau atkurti. Be to, „neaiškūs“ trigeriai (ty pradinio trigerio variantai) kartais gali suaktyvinti užpakalines duris, o tai apsunkina sėkmingo aptikimo apibrėžimą.
Šis metodas yra skirtas tik aptikimui, o ne pašalinimui ar taisymui. Jei modelis pažymėtas, pirmiausia reikia jį išmesti.
Norint nustatyti tyčinį apsinuodijimą, pasikliauti standartiniais saugos mokymais nepakanka; modeliai su užpakalinėmis durimis dažnai priešinasi saugos koregavimui ir mokymuisi sustiprinti. Įdiegus nuskaitymo etapą, kuriame ieškoma konkrečių atminties nutekėjimų ir dėmesio anomalijų, užtikrinamas būtinas atvirojo kodo arba išorinio šaltinio modelių patikrinimas.
Skaitytuvas remiasi prieiga prie modelio svorių ir žetonų. Jis tinka atvirojo svorio modeliams, bet negali būti tiesiogiai taikomas API pagrįstiems juodųjų dėžių modeliams, kai įmonė neturi prieigos prie vidinių dėmesio būsenų.
„Microsoft“ metodas siūlo galingą įrankį priežastinių kalbų modelių vientisumui patikrinti atvirojo kodo saugyklose. Ji prekiauja oficialiomis mastelio keitimo garantijomis, atitinkančiomis viešuosiuose centruose prieinamų modelių kiekį.
Taip pat žiūrėkite: AI Expo 2026 1 diena: valdymas ir duomenų paruošimas leidžia agentų įmonei
Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security & Cloud Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.
AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.