Dabar AI gali suprasti jūsų vaizdo įrašus žiūrėdamas juos

Turinys:

Dabar AI gali suprasti jūsų vaizdo įrašus žiūrėdamas juos
Dabar AI gali suprasti jūsų vaizdo įrašus žiūrėdamas juos
Anonim

Pagrindiniai pasiėmimai

  • Tyrėjai teigia, kad gali išmokyti dirbtinį intelektą žymėti vaizdo įrašus žiūrėdami ir klausydami.
  • AI sistema išmoksta pateikti duomenis, kad užfiksuotų sąvokas, kurias bendrina vaizdo ir garso duomenys.
  • Tai dalis pastangų išmokyti dirbtinį intelektą suprasti sąvokas, kurias žmonėms sunku išmokti, tačiau jas sunku suvokti kompiuteriams.

Image
Image

Nauja dirbtinio intelekto sistema (DI) galėtų žiūrėti ir klausytis jūsų vaizdo įrašų bei pažymėti vykstančius dalykus.

MIT mokslininkai sukūrė techniką, kuri moko AI užfiksuoti vaizdo ir garso veiksmus. Pavyzdžiui, jų metodas gali suprasti, kad vaizdo įraše verkiančio kūdikio veiksmas yra susijęs su ištartu žodžiu „verkia“garso klipe. Tai dalis pastangų mokyti dirbtinį intelektą, kaip suprasti sąvokas, kurias žmonėms nėra sunku išmokti, bet kurias sunku suvokti kompiuteriams.

„Pleista mokymosi paradigma, prižiūrimas mokymasis, gerai veikia, kai turite gerai aprašytus ir išsamius duomenų rinkinius“, – interviu „Lifewire“el. paštu sakė AI ekspertas Philas Winderis. "Deja, duomenų rinkiniai retai būna baigti, nes realus pasaulis turi blogą įprotį pateikti naujas situacijas."

Išmanesnis AI

Kompiuteriams sunku išsiaiškinti kasdienius scenarijus, nes jiems reikia suskaidyti duomenis, o ne garsą ir vaizdus kaip žmonėms. Kai mašina „mato“nuotrauką, ji turi užkoduoti tą nuotrauką į duomenis, kuriuos gali naudoti tokiai užduočiai kaip vaizdo klasifikacija atlikti. AI gali užstrigti, kai įvestis yra kelių formatų, pvz., vaizdo įrašų, garso įrašų ir vaizdų.

"Pagrindinis iššūkis yra tai, kaip mašina gali suderinti tuos skirtingus būdus? Mums, žmonėms, tai lengva padaryti", - sakė Aleksandras Liu, MIT tyrėjas ir pirmasis straipsnio apie šią temą autorius. spaudos pranešimas. "Mes matome automobilį, tada girdime važiuojančio automobilio garsą ir žinome, kad tai yra tas pats dalykas. Tačiau mašininiam mokymuisi tai nėra taip paprasta."

Liu komanda sukūrė dirbtinio intelekto techniką, kuri, jų teigimu, išmoksta pavaizduoti duomenis, kad užfiksuotų sąvokas, kuriomis dalijasi vaizdo ir garso duomenys. Naudodamiesi šiomis žiniomis, jų mašininio mokymosi modelis gali nustatyti, kur vaizdo įraše vyksta konkretus veiksmas, ir pažymėti jį.

Naujasis modelis ima neapdorotus duomenis, pvz., vaizdo įrašus ir atitinkamas jų antraštes, ir užkoduoja juos išskirdamas vaizdo įraše esančius objektus ir veiksmus. Tada jis susieja tuos duomenų taškus tinklelyje, vadinamame įterpimo erdve. Modelis sugrupuoja panašius duomenis į vieną tinklelio tašką; kiekvienas iš šių duomenų taškų arba vektorių yra pavaizduotas atskiru žodžiu.

Pavyzdžiui, žongliruojančio žmogaus vaizdo klipas gali būti susietas su vektoriumi, pažymėtu „žongliravimas“.

Tyrėjai sukūrė modelį taip, kad vektoriams žymėti būtų galima naudoti tik 1 000 žodžių. Modelis gali nuspręsti, kuriuos veiksmus ar sąvokas nori užkoduoti į vieną vektorių, tačiau jis gali naudoti tik 1 000 vektorių. Modelis parenka žodžius, kurie, jo nuomone, geriausiai atspindi duomenis.

"Jei yra vaizdo įrašas apie kiaules, modelis gali priskirti žodį "kiaulė" vienam iš 1 000 vektorių. Tada, jei modelis garso klipe išgirs ką nors sakant žodį "kiaulė", jis vis tiek turėtų naudoti tą patį vektorių, kad užkoduotų“, – paaiškino Liu.

Jūsų vaizdo įrašai, iškoduoti

Geresnės ženklinimo sistemos, pvz., sukurtos MIT, galėtų padėti sumažinti DI šališkumą, interviu el. paštu Lifewire sakė Marian Beszedes, biometrinių duomenų įmonės Innovatrics tyrimų ir plėtros vadovas. Beszedesas pasiūlė duomenų pramonei AI sistemas žiūrėti iš gamybos proceso perspektyvos.

„Sistemos priima neapdorotus duomenis kaip įvestį (žaliavas), juos iš anksto apdoroja, įsisavina, priima sprendimus ar prognozes ir išveda analizę (gatavą prekę), – sakė Bešedesas. „Šį proceso srautą vadiname „duomenų gamykla“ir, kaip ir kitus gamybos procesus, jam turėtų būti taikoma kokybės kontrolė. Duomenų pramonė turi DI vertinti kaip kokybės problemą.

„Vartotojo požiūriu, neteisingai pažymėti duomenys apsunkina, pvz., konkrečių vaizdų / vaizdo įrašų paiešką internete“, – pridūrė Beszedes. „Naudodami tinkamai sukurtą dirbtinį intelektą galite žymėti automatiškai, daug greičiau ir neutraliau nei ženklindami rankiniu būdu."

Image
Image

Tačiau MIT modelis vis dar turi tam tikrų apribojimų. Pirma, jų tyrimai buvo sutelkti į duomenis iš dviejų š altinių vienu metu, tačiau realiame pasaulyje žmonės vienu metu susiduria su daugybe informacijos rūšių, sakė Liu

„Ir mes žinome, kad 1 000 žodžių veikia su tokio tipo duomenų rinkiniu, bet nežinome, ar tai galima apibendrinti iki realios problemos“, – pridūrė Liu.

MIT mokslininkai teigia, kad jų naujoji technika pranoksta daugelį panašių modelių. Jei dirbtinis intelektas gali būti išmokytas suprasti vaizdo įrašus, galiausiai galėsite nežiūrėti draugo atostogų vaizdo įrašų ir vietoj to gauti kompiuteriu sukurtą ataskaitą.

Rekomenduojamas: