Ar šie itin įspūdingi AI garsinių knygų balsai geri ar blogi?

Turinys:

Ar šie itin įspūdingi AI garsinių knygų balsai geri ar blogi?
Ar šie itin įspūdingi AI garsinių knygų balsai geri ar blogi?
Anonim

Pagrindiniai pasiėmimai

  • DeepZen naudoja AI (dirbtinį intelektą), kad iš teksto sukurtų stulbinančiai tikroviškas audio knygas.
  • Technologijoje naudojami tikri žmogaus balso aktoriai, kad būtų sukurti pagrindiniai elementai.
  • Amazon ir Audible šiuo metu nepriima kompiuteriu sukurtų garsinių knygų.
Image
Image

DeepZen yra įmonė, kurianti kompiuterinius balsus, naudojamus garso knygose, remiantis tikrais žmonių aktorių balsais. Kokybė yra baisi – pakankamai gera, kad būtų galima klausytis valandų valandas. Triukas čia yra AI (dirbtinio intelekto) komponentas, kuris gali perskaityti tekstą ir pagal kontekstą nustatyti teisingą emocinį atsaką. Tada emocija perkeliama į balsą.

Tai įspūdinga ir labai patogu. Bet ar tikrai norime homogenizuotos garso knygos patirties? O kaip su tais balso aktoriais?

„Nepriklausomų leidėjų požiūriu, viskas, kas sumažina garso knygų gamybos sąnaudas, yra labai įdomu“, – el. paštu Lifewire sakė Rickas Carlile'as, nepriklausomo leidėjo Carlile Media savininkas.

"Tačiau ši trauka daro prielaidą, kad produktas būtų tokios pat kokybės kaip tradicinis pasakojimas. Nemanau, kad mes dar šimtu procentų. Nesupraskite manęs klaidingai, DeepZen yra stebėtinai geras. Tai didžiulis proveržis, o jo kūrėjai nusipelno didžiulio pagyrimo ir sėkmės. Tačiau tai dar nėra tobula."

Garsas, tai „pakankamai geras“

Geriausias būdas suprasti „DeepZen“kokybę – klausytis pavyzdžių. Jei nežinotumėte, kad jie sukurti kompiuteriu, galbūt net nesuvoktumėte. Šiaip ne kurį laiką. Tarkime, kad „DeepZen“dirbtinis intelektas yra tobulas ir jis niekada neteisingai interpretuoja emocines natas, kurias turėtų pasiekti.

Image
Image

Net tada žmogus gali pasiūlyti daugiau niuansų ir dažnai labiau stebinančių interpretacijų. Aktorius gali netikėtai pakeisti žodžius, kurių kompiuteris niekada net nesvarstytų. Ir iš tikrųjų AI interpretacija tikrai dar nėra tokia gera kaip profesionalaus balso aktoriaus.

„Kaip žmogus, dirbantis su filmais, o pastaruoju metu – garsinio pasakojimo pasaulyje, tačiau esu sužavėtas dirbtinio intelekto – tikrai žinau, kad yra gilios prasmės gelmės, kurių mašina negali interpretuoti“, – profesionalus balsas aktorius Paulas Cramas pasakojo „Lifewire“el. paštu.

"Ar daugės nežinomų autorių, kurie jį naudos? Garantuoju, kad tai bus, nes jis yra "pakankamai geras"."

Būti pakankamai geri, patogu ir sutaupyti išlaidų, gali pakakti nepriklausomų leidėjų paskatinti naudotis paslauga.

„Garsinės knygos gali kainuoti iki 500 USD už baigtą garso valandą (daug daugiau už garsenybių balsą), o tai neapima valdymo ir administratoriaus laiko sąnaudų“, – sako Carlile. „Galimybė perpus sumažinti išlaidas tiesiog įkeliant rankraštį tokiam teikėjui kaip „DeepZen“yra nepaprastai patrauklu.“

Kalbėjimo problemos

Tai dar nėra taip paprasta, kaip atleisti aktorius ir įkelti rankraščius į „DeepZen“. Šiuo metu yra viena kliūtis paprastam garsinių knygų AI kalbėjimui, ir ji yra iš „Amazon“.

Image
Image

"Šiuo metu ACX, savarankiško leidėjo maršrutas į Audible ir Amazon garso knygų platinimą, nepriims garsinių knygų, kurių neįrašė žmogus", - sako Carlile.

Kodėl? Kokybė. Štai DUK įrašas iš svetainės:

"Teksto į kalbą ar kiti automatiniai įrašai neleidžiami. Garsiniai klausytojai pasirenka garso knygas, skirtas medžiagai, taip pat istorijai atlikti. Kad atitiktų šiuos lūkesčius, jūsų garso knygą turi įrašyti žmogus."

Tai reiškia, kad „DeepZen“sukurtų garsinių knygų bent jau dabar nebegalima. Tai gryna spekuliacija, tačiau „DeepZen“atrodo gana geras „Amazon“įsigijimas, leidžiantis parduoti paslaugą ir laikyti ją tik „Audible“knygoms. Ir net jei taip neatsitiks, jei kompiuteriu sukurtų garsinių knygų kokybė tokia pat gera, atrodo, kad nėra jokios priežasties nedaryti šios taisyklės išimties.

Ar mielai klausytumėte tokiu būdu sukurtų audio knygų? Kai tai atsitiks, dauguma žmonių net neįtars. Kai kurie gali teikti pirmenybę tobuliems kompiuteriu sukurtiems balsams, nes jie neturės vokalinių trikdžių ir įpročių, kurie kartais gali atitraukti dėmesį. Ši technologija taip pat tinka vaizdo žaidimams, televizijos ir radijo reklamoms ir bet kokiam kitam scenarijui, kai samdytumėte balso aktorių.

DeepZen technologija taip pat būtų puikus būdas automatiškai kurti naujienų tinklalaides iš parašytų straipsnių, kurios galėtų būti naudingos keliaujant į darbą ir atgal.

O kaip su tais balso aktoriais? Na, bus bent viena galimybė: jie galės eiti dirbti „DeepZen“.

Rekomenduojamas: