GPT-5.5 yra labiausiai pajėgus OpenAI agentinis AI modelis – už dvigubai didesnę API kainą

OpenAI balandžio 23 d. paleido GPT-5.5 kaip tai, ką ji vadina „nauja intelekto klase, skirta tikram darbui ir agentų maitinimui“, o kadravimas yra apgalvotas. „OpenAI“ teigia, kad tai iki šiol pajėgiausias agentinis AI modelis, sukurtas nuo pat pradžių, kad būtų galima planuoti, naudoti įrankius, tikrinti savo išvestį ir savarankiškai atlikti užduotis.

GPT-5.5 yra pirmasis perkvalifikuotas bazinis modelis nuo GPT-4.5, sukurtas kartu su NVIDIA GB200 ir GB300 NVL72 stovo mastelio sistemomis. Bendrovė teigia, kad praktinis skirtumas yra tas, kad naudojant GPT5.5 užduotis, kurioms anksčiau reikėjo kelių raginimų ir žmogaus „kurso taisymo“, dabar galima atlikti visapusiškiau. Modelis pradedamas naudoti „Plus“, „Pro“, „Business“ ir „Enterprise“ vartotojams naudojant „ChatGPT“ ir „Codex“. Prieiga prie API buvo suteikta balandžio 24 d.

Turinys:

Etalonai

Didžiausias „OpenAI“ našumas yra susijęs su „Terminal-Bench 2.0“ – etalonu, kuris išbando komandinės eilutės darbo eigas, reikalaujančias planavimo ir įrankių koordinavimo smėlio dėžės aplinkoje. GPT-5.5 balas yra 82,7%, o GPT-5.4 – 75,1%, o Claude Opus 4,7 – 69,4%.

„SWE-Bench Pro“, kuris vertina „GitHub“ problemų sprendimą, GPT-5.5 pasiekia 58,6 proc., todėl vienu praėjimu išsprendžia daugiau problemų nei ankstesnės versijos. „OpenAI“ taip pat pristatė „Expert-SWE“ – vidinį etaloną, pagal kurį vidutinis numatomas žmogaus atlikimo laikas yra 20 valandų. GPT-5.5 balas – 73,1 %, palyginti su GPT-5.4 – 68,5 %.

Ilgo konteksto samprotavimuose MRCR v2 yra vienas milijonas žetonų, paieškos etalonas, tikrinantis, ar modelis gali rasti konkretų atsakymą, paslėptą dideliame dokumente, GPT-5.5 balas yra 74,0%, o GPT-5.4 – 36,6%.

Tačiau naudojant MCP Atlas, Scale AI Model Context Protocol įrankių naudojimo etaloną, Claude Opus 4.7 pirmauja 79,1 %, o GPT-5.5 neužfiksuoja jokio balo. OpenAI įtraukė šį nebuvimą į savo etalonų lentelę, o tai bent jau rodo jos pasitikėjimą bendru vaizdu.

Token efektyvumas, kainų realybė

API prieiga kainuoja 5 USD už milijoną įvesties žetonų ir 30 USD už milijoną išvesties prieigos raktų, lygiai dvigubai daugiau nei GPT-5.4. OpenAI gynyba yra ta, kad GPT-5.5 atlieka tas pačias Codex užduotis su mažiau žetonų nei GPT-5.4, todėl efektyvios išlaidos yra maždaug 20% didesnės, kai atsižvelgiama į jo efektyvumą. Teiginys, kad nepriklausoma bandymų laboratorija dirbtinė analizė patvirtino.

GPT-5.5 Pro, prieinamas profesionaliems, verslo ir verslo vartotojams, kainuoja 30 USD už milijoną įvesties žetonų ir 180 USD už milijoną išvesties žetonų. Jis taiko papildomą lygiagretų bandymo laiko skaičiavimą sudėtingesnėms problemoms ir pirmauja viešai prieinamų modelių sąraše „BrowseComp“, „OpenAI“ agentinio žiniatinklio naršymo etalonu, 90,1%.

Žetonų efektyvumą verta patikrinti nepalankiausiomis sąlygomis, palyginti su faktiniais darbo krūviais prieš keičiant modelį. 10 milijonų išvesties žetonų per mėnesį, GPT-5.5 standartas kainuoja 300 JAV dolerių, palyginti su 250 JAV dolerių Claude Opus 4.7, o tai 20% atsiperka tik tuo atveju, jei modelio pranašesnis agento našumas reiškia mažiau užduočių iteracijų ir mažiau bandymų, o matematika skiriasi priklausomai nuo naudojimo atvejų.

Praktikoje

„Open AI“ teigia, kad daugiau nei 85% darbuotojų dabar kas savaitę naudoja Codex savo skyriuose, įskaitant inžineriją ir rinkodarą. Viename pavyzdyje komunikacijos komanda naudojo GPT-5.5, kad apdorotų šešių mėnesių kalbėjimo užklausų duomenis, kur modelis galėjo sukurti balų ir rizikos sistemą, padedančią automatizuoti mažos rizikos patvirtinimus.

Gregas Brockmanas apibūdino leidimą kaip „tikrą žingsnį į priekį link tokio skaičiavimo, kokio tikimės ateityje“, o vyriausiasis mokslininkas Jakubas Pachockis pažymėjo, kad pastaruosius dvejus modelio pažangos metus atrodė „stebėtinai lėta“.

„OpenAI“ teigia, kad GPT-5.5 atitinka GPT-5.4 vieno prieigos rakto delsą gamyboje, o veikia aukštesniu intelekto lygiu; didesni, galingesni modeliai dažnai tarnauja lėčiau, tačiau čia buvo išvengta kompromiso.

Ar etaloniniai potencialūs rezultatai padidins produkciją komandoms, kurios valdo tikrus agentų vamzdynus, yra klausimas, į kurį reikia atsakyti per kelias ateinančias savaites. „Terminal-Bench“ rezultatas yra daug žadantis neprižiūrimiems terminalų agentams ir „DevOps“ automatizavimui. Į MCP Atlas spragą verta atkreipti dėmesį tiems, kurie daug remiasi įrankių naudojimo orkestravimu.

Taip pat žiūrėkite: OpenAI atneša GPT-5.5 į Codex kodavimo užduotims atliktie

Norite daugiau sužinoti apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite „AI & Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir vyksta kartu su kitais pagrindiniais technologijų renginiais, įskaitant „Cyber Security & Cloud Expo“. Norėdami gauti daugiau informacijos, spustelėkite čia.

AI naujienas teikia TechForge Media. Čia rasite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Etalonai

Token efektyvumas, kainų realybė

Praktikoje

Susiję įrašai

Išplėskite „autonominį intelektą“ tikram augimui

Claude’as susiduria su „pramoninio masto“ AI modelio distiliavimu

Vietiniai AI modeliai: kaip išlaikyti kainos pasiūlymų srauto kontrolę neprarandant duomenų