„Tencent Hunyuan Video-Foley“ atneša gyvą garsą į AI vaizdo įrašą

„Tencent’s Hunyuan Lab“ komanda sukūrė naują AI „Hunyuan Video-Foley“, kuri pagaliau atneša gyvą garsą į sukurtą vaizdo įrašą. Jis skirtas klausytis vaizdo įrašų ir generuoti aukštos kokybės garso takelį, kuris puikiai tinka sinchronizuoti su veiksmu ekrane.

Ar kada žiūrėjote AI sukurtą vaizdo įrašą ir jautėsi, kad kažko trūksta? Vaizdai gali būti stulbinantys, tačiau jie dažnai turi baisią tylą, kuri sulaužo burtą. Kino pramonėje garsas, kuris užpildo tą tylą – lapų šurmulį, griaustinio plyšimą, stiklo gniaužtą – vadinamas „Foley Art“, ir tai yra kruopštus ekspertų atliktas amatas.

Tokio detalumo lygio suderinimas yra didžiulis iššūkis AI. Ilgus metus automatinės sistemos stengėsi sukurti patikimus vaizdo įrašų garsus.

Turinys:

Kaip „Tencent“ išsprendžia AI sukurtą garso įrašo problemą?

Viena didžiausių priežasčių, kodėl garso skyriuje dažnai trūko vaizdo įrašų iki Audio (V2A) modelių, tyrėjai vadina „modalumo disbalansu“. Iš esmės AI klausėsi daugiau į tekstą, raginantį jį pateikti, nei žiūrėti tikrąjį vaizdo įrašą.

Pvz., Jei modeliui davėte vaizdo įrašą apie judrų paplūdimį, kai skraidantys žmonės vaikščiojantys ir žuvėdros, tačiau teksto raginimas pasakė tik „vandenyno bangų garsą“, greičiausiai jūs tiesiog gautumėte bangų garsą. PG visiškai ignoruos smėlio pėdomis ir paukščių skambučius, todėl scena jaustųsi negyva.

Be to, garso kokybė dažnai buvo subamarė, ir tiesiog nebuvo pakankamai aukštos kokybės vaizdo įrašų su garsu, kad būtų galima efektyviai išmokyti modelius.

Tencento „Hunyuan“ komanda išsprendė šias problemas iš trijų skirtingų kampų:

Tencentas suprato, kad PG reikia geresnio išsilavinimo, todėl jie sukūrė didžiulę, 100 000 valandų vaizdo įrašų, garso ir teksto aprašymus, iš kurių ji galėtų pasimokyti. Jie sukūrė automatizuotą vamzdyną, kuris iš interneto filtruoja žemos kokybės turinį, atsikratydami klipų ilgais tylėjimais ar suspaustu, neryškiu garsu, užtikrindami AI išmoktą iš geriausios įmanomos medžiagos.

Jie suprojektavo protingesnę AI architektūrą. Pagalvokite apie tai, kaip mokyti modelį tinkamai atlikti užduotis. Sistema pirmiausia atkreipia neįtikėtinai artimą „Visual-Audio“ nuorodą, kad nustatytų laiką teisingai-pavyzdžiui, suderinant pėdsakų koliziją iki tikslios akimirkos, kai batas atsitrenkia į grindinį. Kai jis bus užfiksuotas, jis įtraukia teksto raginimą suprasti bendrą scenos nuotaiką ir kontekstą. Šis dvigubas požiūris užtikrina konkrečią vaizdo įrašo detales niekada nepastebėti.

Norėdami garantuoti, kad garsas buvo aukštos kokybės, jie naudojo mokymo strategiją, pavadintą „Reprezentacijos suderinimu“ (REPA). Tai yra tarsi ekspertas garso inžinierius, kuris treniruotės metu nuolat žvelgia per AI petį. Tai lygina AI kūrinį su iš anksto išmokyto profesionalaus garso modelio funkcijomis, nukreiptomis į valymo, turtingesnio ir stabilesnio garso gaminimą.

Šiandien skelbiame, kad atvirojo kodo „HunyuanVideo-Foley“ leidimas, mūsų naujoji „Tex-Video-to-Audio“ (TV2A) sistema, skirta sukurti aukšto tikslumo garso įrašą.🚀

Šis įrankis įgalina kūrėjams kurti vaizdo įrašų kūrimą, filmų kūrimą ir žaidimų kūrimą, kad būtų sukurta profesionalaus lygio… pic.twitter.com/mff2m5xfvc

– Hunyuan (@TenCherNyuan) 2025 m. Rugpjūčio 28 d

Rezultatai kalbėti skamba sau

Kai „Tencent“ išbandė „Hunyuan“ vaizdo įrašą prieš kitus pagrindinius AI modelius, garso rezultatai buvo aiškūs. Ne tik tai, kad kompiuterinė metrika buvo geresnė; Žmonių klausytojai nuosekliai įvertino jos išvestį kaip aukštesnę kokybę, geriau suderintą su vaizdo įrašu ir tiksliau suplanavo.

Visoje vietoje AI patobulino, kaip garsas atitinka ekrano veiksmą tiek turinio, tiek laiko atžvilgiu. Rezultatai keliuose vertinimo duomenų rinkiniuose palaiko tai:

„Tencent“ darbas padeda panaikinti atotrūkį tarp tylių AI vaizdo įrašų ir svaiginančios kokybės garso žiūrėjimo patirties. Tai atneša „Foley Art“ magiją į automatinio turinio kūrimo pasaulį, kuris gali būti galingas galimybes visur filmų kūrėjams, animatoriams ir kūrėjams.

Taip pat žiūrėkite: „Google VIDS“ gauna AI avatares ir vaizdo įrašus į vaizdo įrašus

AI ir „Big Data Expo“ renginių serijos reklamjuostė.

Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra „TechEx“ dalis ir yra kartu su kitais pagrindiniais technologijų įvykiais, spustelėkite čia, jei norite gauti daugiau informacijos.

„AI News“ maitina „TechForge Media“. Čia ištirkite kitus būsimus įmonių technologijų renginius ir internetinius seminarus.

Source link

Kaip „Tencent“ išsprendžia AI sukurtą garso įrašo problemą?

Rezultatai kalbėti skamba sau

Susiję įrašai

Kaip išsirinkti geriausius šiluminius žiūronus ilgo nuotolio aptikimui 2026 m

Kaip e& naudoja žmogiškuosius išteklius, kad AI įtrauktų į įmonės veiklą

ThoughtSpot: apie naują agentų parką, teikiantį modernią analizę