Claude’as susiduria su „pramoninio masto“ AI modelio distiliavimu

„Anthropic“ išsamiai išdėstė tris „pramoninio masto“ AI modelių distiliavimo kampanijas, kurias vykdo užsienio laboratorijos, skirtos išgauti Klodo sugebėjimus.

Šie konkurentai sugeneravo daugiau nei 16 milijonų mainų naudodami maždaug 24 000 apgaulingų paskyrų. Jų tikslas buvo įgyti patentuotą logiką, kad patobulintų savo konkuruojančias platformas.

Ekstrahavimo technika, žinoma kaip distiliavimas, apima silpnesnės sistemos mokymą, kad būtų gauta aukštos kokybės stipresnė sistema.

Teisėtai taikomas distiliavimas padeda įmonėms sukurti mažesnes ir pigesnes savo programų versijas klientams. Tačiau piktavališki veikėjai naudoja šį metodą, kad įgytų galingų galimybių per dalį laiko ir išlaidų, reikalingų savarankiškam vystymuisi.

Turinys:

Intelektinės nuosavybės, pvz., Anthropic’s Claude, apsauga

Neribotas distiliavimas yra rimtas intelektinės nuosavybės iššūkis. Kadangi Anthropic blokuoja komercinę prieigą Kinijoje nacionalinio saugumo sumetimais, užpuolikai apeina regioninius prieigos apribojimus, naudodamiesi komerciniais tarpiniais serveriais.

Šios paslaugos vykdo tai, ką Anthropic vadina „hydra cluster“ architektūra, kuri paskirsto srautą tarp API ir trečiųjų šalių debesų platformų. Didelis šių tinklų plotis reiškia, kad nėra vieno gedimo taškų. Kaip pažymėjo Anthropic, „kai viena paskyra uždrausta, jos vietą užima nauja“.

Vienu nustatytu atveju vienas tarpinio serverio tinklas vienu metu valdė daugiau nei 20 000 apgaulingų paskyrų. Šie tinklai sumaišo AI modelio distiliavimo srautą su standartiniais klientų užklausomis, kad būtų išvengta aptikimo. Tai tiesiogiai veikia įmonės atsparumą ir verčia saugos komandas persvarstyti, kaip jos stebi debesų API srautą.

Neteisėtai apmokyti modeliai taip pat apeina nustatytus apsauginius turėklus, sukeldami rimtą pavojų nacionaliniam saugumui. Pavyzdžiui, JAV kūrėjai kuria apsaugą, kad neleistų valstybiniams ir nevalstybiniams subjektams naudoti šias sistemas biologiniams ginklams kurti arba kenkėjiškai kibernetinei veiklai vykdyti.

Klonuotose sistemose trūksta apsaugos priemonių, įdiegtų tokiose sistemose kaip Anthropic’s Claude, todėl pavojingos galimybės gali plisti visiškai panaikinus apsaugą. Užsienio konkurentai gali panaudoti šiuos neapsaugotus pajėgumus į karines, žvalgybos ir stebėjimo sistemas, kad autoritarinės vyriausybės galėtų juos dislokuoti puolimo operacijoms.

Jei šios distiliuotos versijos yra atvirojo kodo, pavojus dar padidės, nes pajėgumai laisvai plinta, nekontroliuojami bet kurios vienos vyriausybės.

Neteisėtas išgavimas leidžia užsienio subjektams, įskaitant tuos, kuriuos kontroliuoja Kinijos komunistų partija, panaikinti konkurencinį pranašumą, kurį saugo eksporto kontrolė. Neatsižvelgiant į šias atakas, sparti užsienio kūrėjų pažanga klaidingai atrodo kaip naujovė, apeinanti eksporto kontrolę.

Tiesą sakant, ši pažanga labai priklauso nuo Amerikos intelektinės nuosavybės išgavimo dideliu mastu, o tai vis dar reikalauja prieigos prie pažangių lustų. Apribota prieiga prie lustų riboja ir tiesioginį modelio mokymą, ir neteisėto distiliavimo mastą.

AI modelio distiliavimo vadovas

Nusikaltėliai vadovavosi panašiu operatyviniu planu ir naudojo apgaulingas paskyras ir tarpinio serverio paslaugas, kad pasiektų plataus masto sistemas ir išvengdavo aptikimo. Jų raginimų apimtis, struktūra ir dėmesys skyrėsi nuo įprastų naudojimo būdų, o tai atspindi tyčinį pajėgumų išgavimą, o ne teisėtą naudojimą.

Anthropic priskyrė šias kampanijas, skirtas Claude, naudodamas IP adreso koreliaciją, užklausų metaduomenis ir infrastruktūros rodiklius. Kiekviena operacija buvo nukreipta į labai skirtingas funkcijas: agentinį samprotavimą, įrankių naudojimą ir kodavimą.

Viena kampanija sugeneravo daugiau nei 13 milijonų mainų, nukreiptų į agentinį kodavimą ir įrankių orkestravimą. Anthropic aptiko šią operaciją, kai ji vis dar buvo aktyvi, susiedama laiką pagal konkurento viešąjį produkto planą. Kai Anthropic išleido naują modelį, konkurentas pasisuko per 24 valandas, nukreipdamas beveik pusę savo srauto, kad išnaudotų naujausios sistemos galimybes.

Kita operacija sugeneravo daugiau nei 3,4 milijono užklausų, susijusių su kompiuterine vizija, duomenų analize ir agentiniais samprotavimais. Ši grupė panaudojo šimtus įvairių paskyrų, kad nuslėptų savo koordinuotas pastangas. „Anthropic“ priskyrė šią kampaniją, suderindama užklausos metaduomenis su viešaisiais užsienio laboratorijos vyresniųjų darbuotojų profiliais. Vėlesniame etape šis konkurentas bandė išgauti ir atkurti pagrindinės sistemos samprotavimo pėdsakus.

Anthropic teigia, kad trečioji AI modelio distiliavimo kampanija, skirta Claude’ui, per 150 000 sąveikų išgavo argumentavimo galimybes ir rubrikomis pagrįstus vertinimo duomenis. Ši grupė privertė tikslinę sistemą žingsnis po žingsnio suplanuoti savo vidinę logiką, efektyviai generuodama didžiulius kiekius minties grandinės mokymo duomenų. Jie taip pat ištraukė cenzūrai saugias alternatyvas politiškai jautrioms užklausoms, kad išmokytų savo sistemas nukreipti pokalbius nuo ribotų temų. Nusikaltėliai generavo sinchronizuotą srautą naudodami identiškus modelius ir bendrus mokėjimo metodus, kad būtų galima subalansuoti apkrovą.

Šios trečiosios kampanijos metaduomenų užklausa atsekė šias paskyras iki konkrečių laboratorijos tyrėjų. Šios užklausos dažnai atrodo nekenksmingos, pavyzdžiui, tiesiog prašoma sistemos veikti kaip ekspertų duomenų analitikas, pateikiantis visapusiškais argumentais pagrįstą įžvalgą. Tačiau kai to tikslaus raginimo variantai pateikiami dešimtis tūkstančių kartų per šimtus suderintų paskyrų, skirtų ta pačiai siaurai funkcijai, išgavimo modelis tampa aiškus.

Didžiulis tūris, sutelktas konkrečiose srityse, labai pasikartojančios struktūros ir turinio susiejimas tiesiogiai su treniruočių poreikiais yra distiliavimo atakos požymiai.

Įgyvendinamos gynybos priemonės

Norint apsaugoti įmonės aplinką, reikia taikyti daugiasluoksnes apsaugos priemones, kad tokias išgavimo pastangas būtų sunkiau vykdyti ir lengviau identifikuoti. Anthropic pataria įdiegti elgsenos pirštų atspaudų ėmimą ir srauto klasifikatorius, skirtus AI modelio distiliavimo modeliams nustatyti API sraute.

IT vadovai taip pat turi sustiprinti įprastų pažeidžiamumo būdų, pvz., švietimo paskyrų, saugumo tyrimų programų ir pradedančiųjų organizacijų, tikrinimo procesus.

Įmonės turėtų integruoti produkto lygio ir API lygio apsaugos priemones, skirtas sumažinti neteisėto distiliavimo modelių efektyvumą. Tai turi būti daroma nesumenkinant teisėtų, mokančių klientų patirties.

Aptikti koordinuotą veiklą daugelyje paskyrų yra absoliuti būtinybė. Tai apima konkrečią stebėjimą, kad būtų nuolat generuojami minčių grandinės rezultatai, naudojami samprotavimo mokymo duomenims kurti.

Bendradarbiavimas tarp pramonės šakų taip pat išlieka svarbus, nes šie išpuoliai tampa vis intensyvesni ir sudėtingesni. Tam reikalingas greitas ir koordinuotas AI laboratorijų, debesijos paslaugų teikėjų ir politikos formuotojų dalijimasis žvalgybos duomenimis.

Anthropic paskelbė savo išvadas apie tai, kad Claude’as buvo nukreiptas į DI modelio distiliavimo kampanijas, kad pateiktų visapusiškesnį kraštovaizdžio vaizdą ir kad įrodymai būtų prieinami visoms suinteresuotosioms šalims. Dirbtinio intelekto architektūras taikydami griežtą prieigos kontrolę, technologijų pareigūnai gali užtikrinti savo konkurencinį pranašumą ir užtikrinti nuolatinį valdymą.

Taip pat žiūrėkite: Kaip atjungti debesys pagerina AI duomenų valdymą

Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security & Cloud Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.

AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Intelektinės nuosavybės, pvz., Anthropic’s Claude, apsauga

AI modelio distiliavimo vadovas

Įgyvendinamos gynybos priemonės

Susiję įrašai

„Cursor 2.0“ persijungia į kelių agentų AI kodavimą, debiutuoja „Composer“ modelis

„Google“ atidaryti „Medgemma AI“ modeliai galėtų pakeisti sveikatos priežiūrą

Prasti duomenys trukdo AI viešosioms paslaugoms