„Anthropic“ išsamiai aprašė savo saugos strategiją, norėdama išlaikyti populiarų AI modelį „Claude“, naudingas, vengdamas įamžinti žalos.
Šių pastangų svarbiausia yra „Anthropic“ apsaugos priemonių komanda; Kas nėra jūsų vidutinė techninės pagalbos grupė, tai yra politikos ekspertų, duomenų mokslininkų, inžinierių ir grėsmės analitikų, kurie žino, kaip blogi veikėjai galvoja, derinys.
Tačiau „Anthropic“ požiūris į saugumą nėra viena siena, o labiau panaši į pilį su keliais gynybos sluoksniais. Viskas prasideda nuo tinkamų taisyklių kūrimo ir baigiasi naujų grėsmių medžioklėje.
Pirmiausia yra naudojimo politika, kuri iš esmės yra taisyklių knygelė, kaip Claude’as turėtų ir neturėtų būti naudojamas. Tai pateikia aiškias rekomendacijas dideliais klausimais, tokiais kaip rinkimų vientisumas ir vaikų saugumas, taip pat atsakingai naudojantis Claude jautriose srityse, tokiose kaip finansai ar sveikatos priežiūra.
Siekdama formuoti šias taisykles, komanda naudoja vieningą žalos sistemą. Tai padeda jiems apgalvoti bet kokį galimą neigiamą poveikį, pradedant fizine ir psichologine ir ekonomine bei visuomenės žala. Tai mažiau oficiali klasifikavimo sistema ir labiau struktūruotas būdas pasverti riziką priimant sprendimus. Jie taip pat pritraukia išorinius politikos pažeidžiamumo testų ekspertus. Šie specialistai tokiose srityse kaip terorizmas ir vaikų saugumas bando „sulaužyti“ Claude’ą su sunkiais klausimais, kad pamatytų, kur yra silpnybės.
Mes tai matėme veikiant per 2024 m. JAV rinkimus. Dirbęs su strateginio dialogo institutu, Antropicas suprato, kad Claude’as gali pateikti seną balsavimo informaciją. Taigi, jie pridėjo reklamjuostę, kuri nukreipė vartotojus į „TurboVote“-patikimą šaltinį, skirtą naujausia, nepartinė rinkimų informacija.
Mokyti Claude’ą iš neteisybės
Antropinių apsaugos priemonių komanda glaudžiai bendradarbiauja su kūrėjais, kurie nuo pat pradžių moko Claude’ą kurti saugumą. Tai reiškia, kad reikia nuspręsti, kokius dalykus Claude’as ir neturėtų daryti, ir įterpti tas vertybes į patį modelį.
Jie taip pat susiburia su specialistais, kad tai suprastų. Pavyzdžiui, bendradarbiaudami su krizių palaikymo lyderiu „Hereline“, jie išmokė Claude’ą, kaip elgtis su jautriais pokalbiais apie psichinę sveikatą ir savęs žalojimą, o ne tik atsisakyti kalbėtis. Dėl šio kruopštaus mokymo Claude’as atmes prašymus padėti vykdyti nelegalią veiklą, parašyti kenksmingą kodą ar kurti sukčiavimus.
Prieš pradedant tiesioginę naują „Claude“ versiją, ji pateikiama per savo tempą su trimis pagrindiniais vertinimo rūšimis.
- Saugos vertinimai: Šie testai patikrina, ar Claude’as laikosi taisyklių, net ir kebliose, ilguose pokalbiuose.
- Rizikos vertinimai: Tikrai aukšto lygio srityse, tokiose kaip kibernetinės grėsmės ar biologinės rizikos, komanda atlieka specializuotus bandymus, dažnai padedama vyriausybės ir pramonės partnerių.
- Šališkumo vertinimai: Tai viskas apie sąžiningumą. Jie patikrina, ar Claude’as pateikia patikimus ir tikslius atsakymus visiems, tikrinant politinį šališkumą ar iškreiptus atsakymus, pagrįstus tokiais dalykais kaip lytis ar rasė.
Šis intensyvus bandymas padeda komandai išsiaiškinti, ar treniruotės įstrigo, ir sako, ar jiems reikia sukurti papildomą apsaugą prieš paleidžiant.
Antropijos niekada nemieganti AI saugos strategija
Kai Claude’as pasirodys pasaulyje, automatizuotų sistemų ir žmonių apžvalgininkų derinys stebi bėdą. Pagrindinis įrankis yra specializuotų Claude’o modelių, vadinamų „klasifikatoriais“, rinkinys, išmokytas pastebėti konkrečius politikos pažeidimus realiuoju laiku, kai jie įvyksta.
Jei klasifikatorius pastebi problemą, jis gali sukelti skirtingus veiksmus. Tai gali nukreipti Claude’o atsakymą, nesukeldamas kažko kenksmingo, pavyzdžiui, šlamšto. Pakartotiniams nusikaltėliams komanda gali išduoti įspėjimus ar net uždaryti sąskaitą.
Komanda taip pat apžvelgia didesnį vaizdą. Jie naudoja privatumą draugiškus įrankius, norėdami pastebėti, kaip Claude naudojama, ir naudoja tokius metodus kaip hierarchinis apibendrinimas, siekiant pastebėti didelio masto piktnaudžiavimą, pavyzdžiui, koordinuotos įtakos kampanijos. Jie nuolat medžioja naujas grėsmes, kasa duomenis ir stebi forumus, kuriuose blogi veikėjai gali pabūti.
Tačiau „Anthropic“ sako, kad ji žino, kad AI saugumo užtikrinimas nėra darbas, kurį jie gali padaryti atskirai. Jie aktyviai bendradarbiauja su tyrėjais, politikos formuotojais ir visuomene, kad sukurtų geriausias įmanomas apsaugos priemones.
(Nicko Weemingso švino vaizdas)
Taip pat žiūrėkite: Suvianna Grecu, AI pokyčiams: be taisyklių, AI rizikuoja „pasitikėjimo krizė“

Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra kartu su kitais pirmaujančiais renginiais, įskaitant intelektualią automatizavimo konferenciją, „BlockX“, „Skaitmeninės transformacijos savaitės“ ir „Cyber Security & Cloud Expo“.
Naršykite kitus būsimus „Enterprise Technology“ renginius ir internetinius seminarus, kuriuos maitina „TechForge“ čia.