Nors PG gali jaustis visur, pirmiausia veikia mažoje dalyje pasaulio 7000 kalbų, paliekant didžiulę dalį pasaulio gyventojų. NVIDIA siekia ištaisyti šią akivaizdžią aklųjų tašką, ypač Europoje.
Bendrovė ką tik išleido galingą naują atvirojo kodo įrankių rinkinį, kurio tikslas-suteikti kūrėjams galią kurti aukštos kokybės kalbą AI 25 skirtingoms Europos kalboms. Tai apima pagrindines kalbas, tačiau dar svarbiau, kad tai siūlo gelbėjimo liniją tiems, kuriems dažnai nepastebima didžiųjų technologijų, tokių kaip kroatų, estų ir maltiečių.
Tikslas yra leisti kūrėjams sukurti tokius balsu varomus įrankius, kuriuos daugelis iš mūsų laiko savaime suprantamu dalyku, pradedant daugiakalbiais pokalbių botais, kurie iš tikrųjų supranta jus, iki klientų aptarnavimo robotų ir vertimo paslaugų, kurios veikia akyje.
Šios iniciatyvos centras yra Granarisdidžiulė žmogaus kalbos biblioteka. Jame yra apie milijoną valandų garso, visi kuruojami, kad padėtų išmokyti kalbos atpažinimo ir vertimo niuansų.
Norėdami naudotis šiais kalbos duomenimis, NVIDIA taip pat teikia du naujus AI modelius, skirtus kalbos užduotims:
- „Canary-1B-V2“didelis modelis, sukurtas dideliam tikslumui atliekant sudėtingas transkripcijos ir vertimo darbus.
- Parakeet-tdt-0.6b-v3kuris skirtas realiojo laiko programoms, kur greitis yra viskas.
Jei norite pasinerti į mokslą, esantį už jo, „Granary“ dokumentas bus pristatytas „Interspeech“ konferencijoje Nyderlanduose šį mėnesį. Kūrėjams, norintiems nešvarių rankų, duomenų rinkinį ir abu modelius jau galima apkabinti.
Tačiau tikroji magija slypi tuo, kaip šie duomenys buvo sukurti. Visi žinome, kad mokymui AI reikia daug duomenų, tačiau jų gauti paprastai yra lėtas, brangus ir atvirai nuobodus žmogaus anotacijos procesas.
Norėdami tai apeiti, „Nvidia“ kalbos AI komanda – bendradarbiaudami su Carnegie Mellon universiteto tyrėjais ir Fondazione Bruno Kessler – pastatė automatizuotą vamzdyną. Naudodamiesi savo „Nemo Toolkit“, jie sugebėjo paimti neapdorotą, nepaženklintą garsą ir plakti jį į aukštos kokybės, struktūrizuotus duomenis, kurių AI gali pasimokyti.
Tai nėra tik techninis laimėjimas; Tai didžiulis skaitmeninio įtraukimo šuolis. Tai reiškia, kad „Rygos“ ar „Zagreb“ kūrėjas gali pagaliau sukurti balsu varomus AI įrankius, kurie tinkamai supranta jų vietines kalbas. Ir jie gali tai padaryti efektyviau. Tyrimo komanda nustatė, kad jų grūdų duomenys yra tokie veiksmingi, kad, palyginti su kitais populiariais duomenų rinkiniais, reikia maždaug pusės jo kiekio, kad pasiektų tikslinio tikslumo lygį.
Du nauji modeliai parodo šią galią. „Canary“ atvirai yra žvėris, siūlantis vertimą ir transkripcijos kokybę, kuri konkuruoja tris kartus didesnę savo dydį, tačiau iki dešimties kartų didesnis už greitį. Tuo tarpu „Parakeet“ gali sukramtyti 24 minučių susitikimo įrašą vienu metu, automatiškai išsiaiškindamas, kokia kalba kalbama. Abu modeliai yra pakankamai protingi, kad būtų galima tvarkyti skyrybos ženklus, rengti kapitalizaciją ir pateikti žodžių lygio laiko žymes, kurių reikia norint sukurti profesionalaus lygio programas.
Pateikdama šias galingus įrankius ir metodus, esančius jiems pasaulinės kūrėjų bendruomenės rankose, NVIDIA ne tik išleidžia produktą. Tai pradeda naują naujovių bangą, tikėdamasis sukurti pasaulį, kuriame AI kalba jūsų kalba, nesvarbu, iš kur esate.
(Aedriano Salazaro nuotrauka)
Taip pat žiūrėkite: „Deepseek“ grįžta į NVIDIA dėl R2 modelio po „Huawei AI“ lusto nepavyksta
Norite sužinoti daugiau apie AI ir didelius duomenis iš pramonės lyderių? Peržiūrėkite AI ir „Big Data Expo“, vykstančią Amsterdame, Kalifornijoje ir Londone. Išsamus renginys yra kartu su kitais pirmaujančiais renginiais, įskaitant intelektualią automatizavimo konferenciją, „BlockX“, „Skaitmeninės transformacijos savaitės“ ir „Cyber Security & Cloud Expo“.
Naršykite kitus būsimus „Enterprise Technology“ renginius ir internetinius seminarus, kuriuos maitina „TechForge“ čia.