Sugeneruotas balsas gali perskaityti bet kokį tekstą net ir kita kalba, išsaugant originalų tembrą. “ChatGPT” kūrėja “OpenAI” išleido savo naujojo “Voice Engine” išankstinę versiją. Jos funkcija – galimybė sintetinti žmogaus balsą pagal 15 sekundžių garso įrašą.
Dirbtinio intelekto sukurtu balsu galima įgarsinti bet kokį tekstą originalo kalba ar net keliomis kitomis kalbomis, išsaugant originalų tembrą. Technologijos veikimo pavyzdžių galima rasti “OpenAI” tinklaraštyje.
Įmonė mato keletą technologijos panaudojimo būdų: padėti žmonėms, kurie dėl ligos prarado balsą, arba kurti garso pranešimus įvairiomis kalbomis, pavyzdžiui, kurti balso asistentus ar įgarsinti audioknygas.
Kompanija “OpenAI” teigė, kad “Voice Engine” buvo kuriama nuo 2022 m. pabaigos. Modelis buvo apmokytas remiantis “licencijuotų ir atvirų duomenų deriniu”. Tačiau viešos prieigos prie jo nėra – dėl akivaizdaus “OpenAI” susirūpinimo saugumu. Dabar modelį gali išbandyti atrinkti kūrėjai.
Tai nėra pirmoji tokia technologija. 2023 m. startuolis “ElevenLabs” pristatė dirbtinio intelekto paslaugą, skirtą balso klonavimui ir vaizdo įrašų dubliavimui 20 kalbų.