Fizinio AI valdymas tampa sunkesnis, nes autonominės AI sistemos pereina į robotus, jutiklius ir pramoninę įrangą. Problema yra ne tik tai, ar AI agentai gali atlikti užduotis. Taip jų veiksmai yra tikrinami, stebimi ir sustabdomi, kai jie sąveikauja su realiomis sistemomis.
Pramoninė robotika jau yra didelis pagrindas šiai diskusijai. Tarptautinė robotikos federacija pranešė, kad 2024 m. visame pasaulyje buvo įdiegta 542 000 pramoninių robotų, daugiau nei dvigubai daugiau nei prieš dešimtmetį. Tikimasi, kad 2025 m. įrenginių skaičius pasieks 575 000, o iki 2028 m. viršys 700 000 vienetų.
Rinkos tyrinėtojai taip pat taiko fizinio dirbtinio intelekto ženklą platesnei sistemų grupei, įskaitant robotiką, kraštų skaičiavimą ir autonomines mašinas. „Grand View Research“ apskaičiavo, kad pasaulinė fizinio dirbtinio intelekto rinka 2025 m. sieks 81,64 mlrd. JAV dolerių ir prognozavo, kad iki 2033 m. ji pasieks 960,38 mlrd.
Nuo modelio išvesties iki fizinio veiksmo
Valdymo iššūkis skiriasi nuo tik programinės įrangos automatizavimo, nes fizinės sistemos gali veikti aplink darbo vietas, infrastruktūrą ir žmones. Jie taip pat gali būti prijungti prie įrangos, kuriai reikia aiškių saugos ribų. Modelio išvestis gali tapti roboto judesiu arba mašinos nurodymu. Tai taip pat gali tapti sprendimu, pagrįstu jutiklio duomenimis. Dėl to saugos ribos ir eskalavimo keliai yra sistemos projektavimo dalis.
„Google DeepMind“ robotikos darbas yra vienas iš naujausių pavyzdžių, kaip AI modeliai pritaikomi šiai aplinkai. Bendrovė pristatė „Gemini Robotics“ ir „Gemini Robotics-ER“ 2025 m. kovo mėn., apibūdindama juos kaip modelius, sukurtus naudojant „Gemini 2.0“, skirtą robotikai ir įkūnyti AI. „Gemini Robotics“ yra vizijos, kalbos ir veiksmo modelis, sukurtas tiesiogiai valdyti robotus, o „Gemini Robotics-ER“ sutelkia dėmesį į įkūnytą samprotavimą, įskaitant erdvinį supratimą ir užduočių planavimą.
Šio tipo modelius naudojančiam robotui gali tekti identifikuoti objektą, suprasti instrukcijas ir suplanuoti judesių seką. Taip pat reikia įvertinti, ar užduotis atlikta teisingai. Tai sukuria valdymo problemą, apimančią ir modelio elgesį, ir mechanines sistemos ribas.
„Google DeepMind“ teigė, kad naudingiems robotams reikia bendrumo, interaktyvumo ir miklumo. Bendrumas apima nepažįstamus objektus ir aplinką. Interaktyvumas yra susijęs su žmogaus indėliu ir besikeičiančiomis sąlygomis. Vikrumas reiškia fizines užduotis, kurioms reikia tikslaus judėjimo.
Savo paleidimo medžiagoje „Google DeepMind“ teigė, kad „Gemini Robotics“ gali vadovautis instrukcijomis natūralia kalba ir atlikti kelių etapų manipuliavimo užduotis. Pavyzdžiai buvo popieriaus lankstymas, daiktų pakavimas į maišą ir treniruočių metu nematytų daiktų tvarkymas.
Fizinio AI techniniai reikalavimai yra platesni nei kalbos supratimas. Sistemoms reikia vizualinio suvokimo ir erdvinio samprotavimo. Jiems taip pat reikia užduočių planavimo ir sėkmės nustatymo. Robotikoje sėkmės aptikimas yra svarbus, nes sistema turi nuspręsti, ar užduotis buvo atlikta, ar ją reikia bandyti dar kartą, ar ji turėtų sustoti.
„Google DeepMind“ „Gemini Robotics-ER 1.6“, pristatyta 2026 m. balandžio mėn., parodo, kaip šios funkcijos supakuotos naujesniuose modeliuose. Bendrovė apibūdina modelį kaip palaikantį erdvinę logiką, užduočių planavimą ir sėkmės aptikimą, turintį galimybę samprotauti atliekant tarpinius veiksmus ir nuspręsti, ar judėti pirmyn, ar bandyti dar kartą.
„Google“ kūrėjo dokumentacijoje teigiama, kad „Gemini Robotics-ER 1.6“ galima peržiūrėti naudojant „Gemini“ API. Dokumentuose jis apibūdinamas kaip vizijos kalbos modelis, kuris suteikia Dvynių agentų galimybes robotikai. Šios galimybės apima vizualinį interpretavimą, erdvinį samprotavimą ir planavimą naudojant natūralios kalbos komandas.
„Google AI Studio“ suteikia kūrėjo aplinką darbui su „Gemini“ modeliais, o „Gemini“ API suteikia galimybę tuos modelius integruoti į programas. Įkūnyto AI kontekste testavimas ir raginimas yra arčiau kūrėjų, kuriančių agentines programas.
Saugos valdikliai pereina į sistemos dizainą
Valdymas tampa sudėtingesnis, kai šios sistemos gali iškviesti įrankius, generuoti kodą arba suaktyvinti veiksmus. Valdikliai turi apibrėžti, kokius duomenis sistema gali pasiekti, kokius įrankius ji gali naudoti, kuriems veiksmams reikalingas žmogaus patvirtinimas ir kaip veikla registruojama peržiūrai.
„McKinsey“ 2026 m. AI pasitikėjimo tyrimai atkreipia dėmesį į tą pačią problemą įmonių AI plačiau. Nustatyta, kad tik apie trečdalis organizacijų pranešė apie tris ar aukštesnius strategijos, valdymo ir agentinio AI valdymo brandos lygius, net jei AI sistemos atlieka savarankiškesnes funkcijas.
Robotikoje sauga apima ir fizinį mašinos elgesį. „Google DeepMind“ roboto saugą apibūdino kaip daugiasluoksnę problemą, apimančią žemesnio lygio valdiklius, tokius kaip susidūrimo išvengimas, jėgos ribos ir stabilumas, taip pat aukštesnio lygio samprotavimus apie tai, ar prašomas veiksmas yra saugus kontekste.
Bendrovė taip pat pristatė ASIMOV, duomenų rinkinį, skirtą robotikos ir įkūnytos AI semantinei saugai įvertinti. „Google DeepMind“ teigė, kad duomenų rinkinys buvo skirtas patikrinti, ar sistemos gali suprasti su sauga susijusias instrukcijas ir išvengti nesaugaus elgesio fizinėse nustatymuose.
Tuos pačius valdiklius, naudojamus programinės įrangos agentams, tampa sunkiau valdyti, kai sistemos yra prijungtos prie robotų, jutiklių ar pramoninės įrangos. Tai apima prieigos teises, audito seką ir atsisakymo elgesį. Jie taip pat apima eskalavimo kelius ir testavimą.
Valdymo sistemos, tokios kaip NIST AI rizikos valdymo sistema ir ISO/IEC 42001, numato struktūras, skirtas valdyti AI riziką ir atsakomybę per visą sistemos gyvavimo ciklą. Fizinio AI atveju šie valdikliai turi atsižvelgti į modelio elgseną, prijungtus įrenginius ir veikimo aplinką.
„Google DeepMind“ taip pat bendradarbiavo su robotų kompanijomis, kuriant įkūnytą AI. 2025 m. kovo mėn. bendrovė paskelbė, kad bendradarbiauja su Apptronik humanoidinių robotų, naudojančių Gemini 2.0, srityje, ir įtraukė į patikimus Gemini Robotics-ER testuotojus Agile Robots, Agility Robotics, Boston Dynamics ir Enchanted Tools.
2026 m. atnaujinime taip pat buvo nurodytas darbas su Boston Dynamics, apimantis robotikos užduotis, pvz., prietaisų skaitymą. Toks naudojimo atvejis priklauso nuo vizualinio supratimo, užduočių planavimo ir patikimo fizinių sąlygų įvertinimo.
Fizinis AI taikomas pramoniniam patikrinimui, gamybai ir logistikai. Tai taip pat taikoma patalpoms ir sandėliams. Šie nustatymai reikalauja, kad sistemos interpretuotų realias sąlygas ir veiktų neperžengdamos nustatytų ribų. Valdymo klausimas yra tai, kaip šios ribos nustatomos prieš autonominėms sistemoms leidžiant priimti ar vykdyti sprendimus.
„Google DeepMind“ ir „Google AI Studio“ yra įtrauktos į hakatono technologijų partnerius AI & Big Data Expo North America 2026 m. gegužės 18–19 d. San Chosė McEnery konferencijų centre.
(Nuotrauka Mitchell Luo)
Taip pat žiūrėkite: DI agento valdymas sutelkiamas, nes reguliuotojai pažymi kontrolės spragas
Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais. Norėdami gauti daugiau informacijos, spustelėkite čia.
AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.