Technologijų pasaulyje bręsta dar vienas didžiulis perversmas, ir šį kartą jis palies muzikos industriją. „Google“ oficialiai pristatė „Lyria 3“ – pažangiausią ir detaliausią iki šiol sukurtą dirbtinio intelekto (DI) muzikos generavimo modelį.
Jei ankstesni DI bandymai kurti muziką dažnai skambėdavo „sintetiškai“ arba primityviai, naujasis „Lyria 3“ modelis žada profesionalaus lygio garso takelius, atverdamas duris kūrėjams, neturintiems jokio muzikinio išsilavinimo. Štai kas daro šią technologiją tokią ypatingą ir kodėl ji keičia žaidimo taisykles.
Ne tik tekstas: muzika iš nuotraukų ir vaizdo įrašų
Iki šiol dauguma DI įrankių veikė paprastu principu: vartotojas parašo tekstą (angl. prompt), o sistema sugeneruoja melodiją. „Lyria 3“ žengia didžiulį žingsnį į priekį, nes tai yra pilnai multimodalinis modelis.
Tai reiškia, kad sistemai užtenka „parodyti“ nuotrauką arba trumpą vaizdo įrašą, ir ji pati analizuoja vizualinį turinį, parinkdama jam idealiai tinkantį muzikinį foną. Vaizdo turinio kūrėjams (nuo „YouTube“ iki „TikTok“) tai reiškia galimybę per kelias sekundes sukurti unikalius, autorinių teisių nepažeidžiančius garso takelius savo klipams.
Profesionalus skambesys ir tikroviški vokalai
„Google“ inžinieriai didžiausią dėmesį skyrė garso kokybei (angl. high-fidelity). „Lyria 3“ nebekuria tik paprastų sintezatoriaus melodijų – modelis sugeba generuoti profesionalaus lygio muzikines aranžuotes.
Dar labiau stebina tai, kad sistema turi integruotą automatizuotą dainų tekstų rašymo funkciją ir gali atlikti kūrinius itin tikroviškais žmogaus balsais. Vokaliniai pasirodymai generuojami keliomis skirtingomis kalbomis, išlaikant natūralų kvėpavimą, intonacijas ir emociją.
Visiška kūrėjo kontrolė
Nors procesą valdo dirbtinis intelektas, galutinis rezultatas priklauso nuo žmogaus. Sistema leidžia vartotojams generuoti 30 sekundžių trukmės aukščiausios kokybės muzikos takelius, suteikdama granuliuotą (labai smulkią) kontrolę. Kūrėjai gali tiksliai nurodyti:
- Norimą muzikos žanrą (nuo klasikos iki elektroninės šokių muzikos).
- Kūrinio tempą (BPM).
- Emocinę nuotaiką (pvz., melancholiška, pakyli, įtempta).
Saugumas ir autorinės teisės: nematomas vandens ženklas
Vienas didžiausių iššūkių DI muzikos srityje – autorinių teisių pažeidimai ir nelegalus atlikėjų balsų kopijavimas. Siekiant užkirsti tam kelią ir užtikrinti skaidrumą, „Google“ įdiegė griežtą saugumo standartą.
Absoliučiai visi su „Lyria 3“ sugeneruoti muzikos takeliai turi integruotą „SynthID“ vandens ženklą. Tai žmogaus ausiai negirdimas, bet specialių programų lengvai nuskaitomas žymeklis. Jis leidžia bet kuriuo metu identifikuoti, kad kūrinys buvo sukurtas dirbtinio intelekto, taip apsaugant tikrųjų muzikantų intelektinę nuosavybę.
Panašu, kad su „Lyria 3“ pasirodymu prasideda nauja era, kurioje riba tarp žmogaus ir mašinos sukurtos muzikos tampa vis sunkiau pastebima, tačiau kūrybinės galimybės išsiplečia iki begalybės.
