Kaip AI galėtų padaryti kompiuterio kalbą natūralesnę

Turinys:

Kaip AI galėtų padaryti kompiuterio kalbą natūralesnę
Kaip AI galėtų padaryti kompiuterio kalbą natūralesnę
Anonim

Pagrindiniai pasiėmimai

  • Įmonės lenktyniauja ieškodamos būdų, kaip kompiuteriu sukurtą kalbą padaryti tikroviškesnę.
  • NVIDIA neseniai pristatė įrankius, kurie gali užfiksuoti natūralios kalbos garsą, leisdami mokyti dirbtinį intelektą savo balsu.
  • Intonacija, emocijos ir muzikalumas – tai savybės, kurių vis dar trūksta kompiuteriniams balsams, sako vienas ekspertas.
Image
Image

Kompiuteriu sukurta kalba netrukus gali skambėti daug žmogiškiau.

Kompiuterių dalių gamintoja NVIDIA neseniai pristatė įrankius, kurie gali užfiksuoti natūralios kalbos garsą, leisdami lavinti dirbtinį intelektą savo balsu. Programinė įranga taip pat gali perduoti vieno kalbėtojo žodžius kito asmens balsu. Tai dalis populiarėjančių pastangų, kad kompiuterio kalba būtų tikroviškesnė.

Pažangi balso dirbtinio intelekto technologija leidžia vartotojams kalbėti natūraliai, sujungiant daugybę užklausų į vieną sakinį ir nebereikia nuolat kartoti pradinės užklausos detalių., sakė Lifewire interviu el. paštu.

„Pridėjus kelias kalbas, kurios dabar pasiekiamos daugumoje balso AI platformų, skaitmeniniai balso asistentai tampa prieinami daugiau geografinių vietų ir daugiau gyventojų“, – pridūrė jis.

Robospeech Rising

Amazon Alexa ir Apple Siri skamba daug geriau nei kompiuterio kalba net prieš dešimtmetį, bet greitai jų nesupainiosi su autentiškais žmonių balsais.

Kad dirbtinė kalba skambėtų natūraliau, NVIDIA teksto į kalbą tyrimų komanda sukūrė RAD-TTS modelį. Sistema leidžia asmenims mokyti teksto į kalbą (TTS) modelio naudojant balsą, įskaitant ritmą, tonalumą, tembrą ir kitus veiksnius.

Įmonė naudojo savo naująjį modelį, kad sukurtų daugiau pokalbio skambesio balso pasakojimo savo vaizdo įrašų serijoje „Aš esu AI“.

Naudodamas šią sąsają, mūsų vaizdo įrašų prodiuseris gali įrašyti save skaitantį vaizdo įrašo scenarijų, o tada panaudoti dirbtinio intelekto modelį, kad savo kalbą paverstų moteriškos pasakotojo balsu. Naudodamas šį pradinį pasakojimą, prodiuseris gali nukreipti dirbtinį intelektą kaip balso aktorius koreguoja sintezuotą kalbą, kad pabrėžtų konkrečius žodžius, ir modifikuoja pasakojimo tempą, kad geriau išreikštų vaizdo įrašo toną“, – savo svetainėje rašė NVIDIA.

Sunkiau, nei skamba

Kompiuteriu sukurtos kalbos garsas natūraliai yra sudėtinga, sako ekspertai.

„Jums reikia įrašyti šimtus valandų kažkieno balso, kad sukurtumėte kompiuterinę jo versiją“, – interviu el. paštu „Lifewire“sakė Nazimas Ragimovas, teksto į kalbą programinės įrangos įmonės Kukarella generalinis direktorius. „Ir įrašas turi būti kokybiškas, įrašytas profesionalioje studijoje. Kuo daugiau valandų kokybiškos kalbos įkeliama ir apdorojama, tuo geresnis rezultatas."

Teksto į kalbą funkciją galima naudoti žaidžiant, siekiant padėti asmenims, turintiems balso negalią, arba padėti naudotojams versti iš vienos kalbos į kitą savo balsu.

Intonacija, emocijos ir muzikalumas – tai bruožai, kurių vis dar trūksta kompiuteriniams balsams, sakė Ragimovas.

Jei dirbtinis intelektas gali pridėti šias trūkstamas nuorodas, kompiuteriu sukurta kalba „nesiskirs nuo tikrų aktorių balsų“, pridūrė jis. "Šis darbas vyksta. Kiti balsai galės konkuruoti su radijo laidų vedėjais. Netrukus pamatysite balsus, kurie gali dainuoti ir skaityti garsines knygas."

Kalbos technologijos populiarėja įvairiose įmonėse.

„Automobilių pramonė neseniai pradėjo naudoti balso AI kaip būdą sukurti saugesnį ir labiau susietą vairavimo patirtį“, – sakė Zagorsekas.

"Nuo to laiko balso asistentai tapo vis labiau paplitę, nes prekės ženklai ieško būdų, kaip pagerinti klientų patirtį ir patenkinti paprastesnių, saugesnių, patogesnių, efektyvesnių ir higieniškesnių sąveikos su produktais ir paslaugomis metodų poreikį."

Paprastai balso AI konvertuoja užklausas į atsakymus per dviejų etapų procesą, kuris prasideda kalbos transkribavimu į tekstą naudojant automatinį kalbos atpažinimą (ASR), o vėliau tą tekstą įveda į natūralios kalbos supratimo (NLU) modelį.

Image
Image

SoundHound metodas sujungia šiuos du veiksmus į vieną procesą, skirtą kalbos stebėjimui realiuoju laiku. Bendrovė teigia, kad ši technika leidžia balso padėjėjams suprasti vartotojo užklausų prasmę net žmogui nebaigus kalbėti.

Ateities kompiuterinės kalbos pažanga, įskaitant įvairių ryšio parinkčių prieinamumą nuo tik įterptųjų (nereikia debesies ryšio) iki hibridinio (įterptinio ir debesies) ir tik debesies „suteiks daugiau pasirinkimo įvairių pramonės šakų įmonėms kalbant apie kainą, privatumą ir apdorojimo galią“, – sakė Zagoreskas.

NVIDIA pranešė, kad jos naujienų AI modeliai neapsiriboja balso perdavimu.

„Teksto į kalbą funkcija gali būti naudojama žaidimuose, siekiant padėti asmenims, turintiems balso negalią, arba padėti vartotojams versti iš vienos kalbos į kitą savo balsu“, – rašė bendrovė. „Jis netgi gali atkurti legendinių dainininkų pasirodymus, derinančius ne tik dainos melodiją, bet ir emocinę vokalo išraišką.“

Rekomenduojamas: