Pagrindiniai pasiėmimai
- Meta naudoja dirbtinį intelektą kurdama programas, galinčias išreikšti emocijas kalboje.
- Bendrovės AI komanda teigė, kad ji padarė pažangą modeliuodama išraiškingus balsus, tokius kaip juokas, žiovulys, verksmas ir „spontaniškas pokalbis“realiuoju laiku.
- AI taip pat naudojamas kalbos atpažinimo tobulinimui.
Dėl dirbtinio intelekto (DI) galios netrukus galėsite bendrauti su kompiuteriu natūraliau.
Meta teigė, kad padarė didelę pažangą kurdama tikroviškesnes dirbtinio intelekto sukurtas kalbos sistemas. Bendrovės dirbtinio intelekto komanda teigė, kad ji padarė pažangą modeliuodama išraiškingus balsus, tokius kaip juokas, žiovulys ir verksmas, be „spontaniško pokalbio“realiuoju laiku.
„Bet kurio pokalbio metu žmonės keičiasi pilnais neverbaliniais signalais, tokiais kaip intonacijos, emocinė išraiška, pauzės, akcentai, ritmai – visa tai svarbu žmonių sąveikai“, – rašė komanda neseniai paskelbtame tinklaraščio įraše.. „Tačiau šiandieninės dirbtinio intelekto sistemos nesugeba užfiksuoti šių turtingų, išraiškingų signalų, nes jos mokosi tik iš parašyto teksto, kuris užfiksuoja tai, ką sakome, bet ne tai, kaip sakome.“
Išmanesnė kalba
Tinklaraščio įraše „Meta AI“komanda teigė, kad stengiasi įveikti tradicinių AI sistemų, kurios negali suprasti neverbalinių kalbos signalų, tokių kaip intonacijos, emocinės išraiškos, pauzės, akcentai ir ritmai, apribojimus.. Sistemos sulaikomos, nes jos gali mokytis tik iš parašyto teksto.
Tačiau Meta darbas skiriasi nuo ankstesnių pastangų, nes jos AI modeliai gali naudoti natūralios kalbos apdorojimo modelius, kad užfiksuotų visą šnekamosios kalbos pobūdį. Meta tyrinėtojai teigia, kad nauji modeliai gali leisti AI sistemoms perteikti norimus jausmus, pavyzdžiui, nuobodulį ar ironiją.
"Netolimoje ateityje daugiausia dėmesio skirsime beteksčių metodų taikymui, kad sukurtume naudingas paskesnes programas, nereikalaujant nei daug išteklių reikalaujančių teksto etikečių, nei automatinio kalbos atpažinimo sistemų (ASR), pvz., atsakymo į klausimus (pvz., "Kaip sekasi"). oras?“, – tinklaraščio įraše rašė komanda. "Manome, kad prozodija kalboje gali padėti geriau išanalizuoti sakinį, o tai savo ruožtu padeda suprasti ketinimą ir pagerina atsakymo į klausimą našumą."
AI suteikia galių supratimui
Kompiuteriai ne tik geriau perduoda prasmę, bet ir dirbtinis intelektas naudojamas kalbos atpažinimo tobulinimui.
Kompiuterių mokslininkai kompiuterinio kalbos atpažinimo srityje dirba mažiausiai nuo 1952 m., kai trys „Bell Labs“mokslininkai sukūrė sistemą, galinčią atpažinti pavienius skaitmeninius skaitmenis, AI Dynamics vyriausiasis technologijų pareigūnas Ryanas Monsurate'as sakė el. Lifewire. Dešimtajame dešimtmetyje kalbos atpažinimo sistemos buvo parduodamos, tačiau jų klaidų lygis buvo pakankamai didelis, kad nebūtų skatinamas naudojimas už labai specifinių taikymo sričių, pvz., sveikatos priežiūros.
„Dabar, kai gilaus mokymosi modeliai įgalino ansamblio modelius (kaip ir „Microsoft“) pasiekti nepriekaištingą kalbos atpažinimo našumą, turime technologiją, leidžiančią nuo garsiakalbio nepriklausomą žodinį ryšį su kompiuteriais plačiu mastu“, – sakė Monsurate. „Kitas etapas apims išlaidų sumažinimą, kad visi, naudojantys Siri arba Google AI padėjėjus, turėtų prieigą prie tokio lygio kalbos atpažinimo.“
AI yra naudinga kalbai atpažinti, nes laikui bėgant gali tobulėti mokantis, interviu el. paštu „Lifewire“sakė Arielis Utnikas, AI balso bendrovės Verbit.ai vyriausiasis pajamų pareigūnas ir generalinis direktorius. Pavyzdžiui, „Verbit“teigia, kad jos vidinė AI technologija aptinka ir filtruoja foninį triukšmą ir aidus bei transkribuoja garsiakalbius, nepaisant akcento, kad sukurtų išsamias, profesionalias transkriptas ir antraštes iš tiesioginio ir įrašyto vaizdo bei garso.
Tačiau Utnik teigė, kad dauguma dabartinių kalbos atpažinimo platformų yra tik 75–80 % tikslios.
„AI niekada visiškai nepakeis žmonių, nes asmeninis transkribuotojų, korektorių ir redaktorių peržiūra yra būtina siekiant užtikrinti aukštos kokybės ir aukščiausio tikslumo galutinę nuorašą“, – pridūrė jis.
Geresnis balso atpažinimas taip pat gali būti naudojamas siekiant apsisaugoti nuo įsilaužėlių, el. laiške sakė Sanjay Gupta, balso atpažinimo bendrovės „Mitek Systems“pasaulinis produktų ir įmonių plėtros vadovas. Tyrimai rodo, kad per dvejus metus 20 procentų visų sėkmingų paskyros perėmimo atakų bus naudojamas sintetinis balso papildymas, pridūrė jis.
„Tai reiškia, kad giliai suklastotų technologijų technologija tampa vis sudėtingesnė, turime tuo pat metu sukurti pažangią apsaugą, kuri galėtų kovoti su šia taktika kartu su vaizdo ir vaizdo klastotėmis“, – sakė Gupta. "Kovojant su balso klastojimu, reikalinga gyvumo aptikimo technologija, galinti atskirti gyvą balsą nuo įrašytos, sintetinės arba kompiuterio sukurtos balso versijos."
Pataisa 2022-05-04: ištaisyta Ryano Monsurate'o vardo rašyba 9 pastraipoje.