將電視機(jī)調(diào)成“靜音”模式后,你能“看懂”主持人說的話嗎?在這個(gè)情景之內(nèi),你或許感覺這是一個(gè)游戲,但“唇讀”已伴隨人工智能越來越精準(zhǔn)。

據(jù)BBC報(bào)道,谷歌最近與英國(guó)牛津大學(xué)合作開發(fā)了一套唇讀軟件,通過收看數(shù)千小時(shí)BBC的電視節(jié)目來開啟唇讀功能。令人震驚的是,該軟件不僅掌握了唇語(yǔ),還比唇讀專家做得好。

此前,英國(guó)皇家檢察院雇傭“讀唇女王”杰西卡·里斯為英國(guó)唯一的官方唇讀證人,根據(jù)英國(guó)警方用監(jiān)控?cái)z像機(jī)偷拍下來的嫌犯錄像,用唇讀翻譯出錄像帶中嫌犯的對(duì)話,提供至關(guān)緊要的證據(jù)。她熟練高超的唇讀技術(shù),讓人很難發(fā)現(xiàn)她是一名耳聾者。

值得一提的是,谷歌的人工智能唇讀軟件,學(xué)習(xí)了BBC一系列的電視節(jié)目,所有視頻資料加起來約有 11.8 萬句話,經(jīng)過了約5000小時(shí)的訓(xùn)練,便迅速掌握了唇讀技能。研究人員用人工智能軟件對(duì)電視節(jié)目嘉賓進(jìn)行唇語(yǔ)解讀,準(zhǔn)確率為46.8%,而專業(yè)的唇語(yǔ)專家在接受同樣的測(cè)試時(shí),準(zhǔn)確率僅為12.4%。

無獨(dú)有偶,牛津大學(xué)的另一獨(dú)立小組也于不久前開發(fā)了一款類似的人工智能唇讀軟件,在測(cè)試中達(dá)到了93.4%的準(zhǔn)確率,而人類的準(zhǔn)確率僅為52.3%。但該測(cè)試所用的材料均為志愿者事先錄制好的固定句子,沒有任何復(fù)雜的事件背景可言。以測(cè)試視頻當(dāng)中的單詞為例,這款類似的人工智能唇讀的軟件中有51個(gè)特殊詞匯,而此次谷歌選取的BBC節(jié)目數(shù)據(jù)庫(kù)卻包含了驚人的17500個(gè)特殊詞匯。在沒有任何背景介紹的情況下直接對(duì)BBC節(jié)目的嘉賓進(jìn)行唇語(yǔ)解讀,如果完全采用人工,工作量之大無法想象,因此對(duì)于人工智能而言是一個(gè)巨大的挑戰(zhàn)。

為了避免視頻流與音頻流不同步的障礙,團(tuán)隊(duì)采取了讓計(jì)算機(jī)先學(xué)會(huì)完全同步的音視頻流,掌握發(fā)音與唇形間的關(guān)聯(lián),進(jìn)而自行推斷音視頻流中哪些畫面是不同步的,再進(jìn)行自動(dòng)修正。

來自牛津大學(xué)里普耐特研究團(tuán)隊(duì)的阿薩埃爾對(duì)此技術(shù)的評(píng)價(jià)是:“我們相信人工智能唇讀技術(shù)是一種非常實(shí)用的輔助性技術(shù),比如更智能的助聽器。此外,人工智能技術(shù)還可應(yīng)用于外交、破案等領(lǐng)域,甚至可能在普及之后改變?nèi)藗兊纳睢!?/p>

人工智能業(yè)內(nèi)專家稱:“這絕對(duì)是建構(gòu)全自動(dòng)唇讀系統(tǒng)的第一步!現(xiàn)有的各類龐大數(shù)據(jù)庫(kù)完全可以支持深度學(xué)習(xí)技術(shù)的發(fā)展。”(張?zhí)m)

人工智能軟件讓“唇讀”更加準(zhǔn)確

圖文簡(jiǎn)介