„OpenAI“ pristatė DI modelį, kuris tekstą paverčia vaizdo įrašu

Šiuo metu programinė įranga, pavadinta „Sora“, nėra viešai prieinama. Kol kas ją gali naudoti tik „raudonosios komandos“ (angl. red teaming) analizei, kuri padeda nustatyti DI sistemos saugumo trūkumus. Taip pat ją gali išbandyti dailininkai, dizaineriai ir filmų kūrėjai, kad DI kūrėjai gautų grįžtamąjį ryšį apie modelį, sakoma bendrovės pranešime.
„Sora“ gali kurti sudėtingas scenas su keliais veikėjais, specifiniais judesių tipais ir tiksliomis objekto bei fono detalėmis“, – sakoma pranešime.
Naujoji programa gali ne tik kurti vaizdo įrašus iš teksto užuominų, bet ir animuoti nejudantį vaizdą, rašoma bendrovės tinklaraštyje. Taip pat priduriama, kad „Sora“ gali sukurti kelis kadrus viename vaizdo įraše.
„OpenAI“ taip pat pranešė, kad kuria įrankius, kuriais būtų galima nustatyti, ar vaizdo įrašą sugeneravo „Sora“.
Tiesa, patys kūrėjai pripažįsta, kad dabartinis modelis dar turi trūkumų. Jam gali būti sunku tiksliai imituoti sudėtingos scenos fizikinius niuansus ir gali nesuprasti priežasties bei pasekmės ryšių. Pavyzdžiui, žmogus gali atsikąsti sausainio, bet šis vis tiek gali atrodyti sveikas, be jokios įkandimo žymės.
Modelis taip pat gali supainioti erdvines detales, pavyzdžiui, sumaišyti kairę su dešine, ir gali susidurti su sunkumais tiksliai aprašant įvykius, kurie vyksta laike, pavyzdžiui, sekant tam tikra kameros trajektorija.
Tuo metu technologijų naujienų portalo „Wired“ ekspertai nurodė besitikintys, jog programai „Sora“ bus taikomi tokie patys turinio apribojimai kaip ir kitam „OpenAI“ DI įrankiui „Dall-E 3“: jokio smurto, pornografijos bei realių žmonių ar menininkų stiliaus atkartojimo. Kita galima problema – autorinės nuosavybės pažeidimai. VŽ rašė, kad dėl tokios „OpenAI“ praktikos, jau yra pradėtas ne vienas teisinis procesas.
„OpenAI“, kurios didžiąją dalį akcijų turi „Microsoft“, išgarsėjo, kai 2022 m. išleido generatyvinio pokalbių roboto „ChatGPT“ 4-tą versiją. Tai paskatino ir kitas technologijų bendroves spartinti investicijas į DI įrankius.
Socialinių tinklų milžinė „Meta Platforms“ praėjusiais metais sustiprino savo vaizdų generavimo modelį „Emu“, pridėdama dvi DI pagrįstas funkcijas, kurios gali redaguoti ir generuoti vaizdo įrašus iš tekstinių užuominų. Taip pat generatyvinio DI modelius aktyviai tobulina „Alphabet“ priklausanti „Google“ bei „Amazon“.