據物理學家組織網近日報道,微軟宣布了一項關于機器理解人類語言的重要測試結果,即研究人員獲得了迄今最低語音識別會話誤碼率(WER)——6.3%。相關論文發表在論文預印本發布平臺arXiv上后,引起了業界關注。

據了解,該測試是美國國家標準局(NIST)的2000總機語音識別進行的任務。咨詢機構Wall Street Pit評論認為,微軟團隊轉向“作為行業標準的電話語音識別測試”成績斐然,鞏固了其在語音識別領域的霸主地位。

分析認為,微軟取得這一成績來自幾個方面的努力:研究人員在今年早些時候,應用深度神經網絡技術贏得了一項計算機視覺挑戰;微軟最近在計算網絡工具包(CNTK)中的成熟案例,也是獲得本次好成績的關鍵組成部分。CNTK實現了“深度學習算法”的復雜優化升級,運行速度比原來提升一個數量級;另一個關鍵步驟是圖形處理單元的并行訓練能力取得了突破。

業內人士表示,近年來,大型軟件公司科研經費有被縮減的趨勢,且更專注于深度神經網絡的研究,但實際上,語音識別技術的應用更早一些。有評論稱,過去20年中,研究顯示的計算機語音識別系統的最高誤碼率甚至達到過43%,而隨后最出色的單系統NIST2000總機誤碼率為6.9%。

在近日于舊金山舉行的“Interspeech語音通信和技術國際會議”上,IBM驕傲地宣布其誤碼率只有6.6%。但此次微軟宣布的6.3%的誤碼率,以微弱優勢取勝。

目前,微軟已經制定出了基于語音平臺的人機交互策略,成功構建起人工智能的關鍵技術,讓相關語音對話在可穿戴設備、智能手機、智慧家庭、智慧車輛及商業服務中發揮重要作用。(記者 房琳琳)

微軟語音識別“誤碼率”創業內新低

圖文簡介