不久前,某科技公司發(fā)布手機(jī)新品,在發(fā)布會(huì)現(xiàn)場(chǎng),出人意料的為某品牌語(yǔ)音輸入法進(jìn)行了長(zhǎng)達(dá)十多分鐘的宣傳,主講人用較快的語(yǔ)速隨口說(shuō)了一段內(nèi)容,經(jīng)輸入法輸出在屏幕上,識(shí)別結(jié)果竟然一字不差。發(fā)布會(huì)結(jié)束后,引爆了該輸入法的知名度,尤其是之后幾天,該輸入法在App Store排行榜上排名飛升,一舉成為總榜top10以及工具榜的第一位。

  該語(yǔ)音輸入法,是由中文語(yǔ)音產(chǎn)業(yè)領(lǐng)導(dǎo)者科大訊飛推出的一款輸入軟件。科大訊飛作為中國(guó)最大的智能語(yǔ)音技術(shù)提供商,在智能語(yǔ)音技術(shù)領(lǐng)域有著長(zhǎng)期的研究積累,并在中文語(yǔ)音合成、語(yǔ)音識(shí)別、口語(yǔ)評(píng)測(cè)等多項(xiàng)技術(shù)上擁有國(guó)際領(lǐng)先的成果。而包括訊飛語(yǔ)音輸入法在內(nèi)的語(yǔ)音助手,也幾乎遍布每一部智能手機(jī),如蘋(píng)果的Siri、Google Now以及微軟Cortana等。今天,我們就來(lái)談?wù)務(wù)Z音技術(shù),即人機(jī)語(yǔ)音交互技術(shù)。
  語(yǔ)音技術(shù)實(shí)現(xiàn)了人機(jī)語(yǔ)音交互的功能,使人與機(jī)器之間的溝通變得像人與人溝通一樣簡(jiǎn)單方便。語(yǔ)音技術(shù)主要包括語(yǔ)音識(shí)別和語(yǔ)音合成這兩項(xiàng)關(guān)鍵技術(shù)。語(yǔ)音識(shí)別技術(shù),用于讓機(jī)器識(shí)別人說(shuō)的話,如羅永浩在發(fā)布會(huì)上通過(guò)語(yǔ)音輸入法進(jìn)行輸入,這就是使用了語(yǔ)音識(shí)別技術(shù);語(yǔ)音合成技術(shù),則用于讓機(jī)器說(shuō)“人話”,如我們平時(shí)可能使用的語(yǔ)音導(dǎo)航,大多基于語(yǔ)音合成技術(shù)。
  具體來(lái)說(shuō),語(yǔ)音合成技術(shù),又稱為文語(yǔ)轉(zhuǎn)換(Text-to-Speech),是將文本轉(zhuǎn)換成自然語(yǔ)音的技術(shù)。

  一個(gè)典型的語(yǔ)音合成系統(tǒng)如上圖所示,對(duì)于要輸出的文本,先要進(jìn)行文本分析,即結(jié)合字典進(jìn)行文本預(yù)處理,主要包括詞法、語(yǔ)法和語(yǔ)義分析,然后使用韻律模型對(duì)已處理文本就聲調(diào)、語(yǔ)氣、停頓等因素進(jìn)行韻律分析處理,最后再根據(jù)語(yǔ)音參數(shù)和語(yǔ)音單元進(jìn)行語(yǔ)音生成,輸出的就是類似人聲的語(yǔ)音了。具體的語(yǔ)音合成方法有參數(shù)合成、規(guī)則合成和波形編輯合成等。
  以參數(shù)合成中的發(fā)音器官參數(shù)合成方法為例展開(kāi)介紹,這是一種對(duì)人的發(fā)音過(guò)程進(jìn)行直接模擬的方法。使用該方法時(shí),先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取出語(yǔ)音的參數(shù),然后由人工控制這些參數(shù)的合成,從而完成語(yǔ)音合成。發(fā)音器官參數(shù)合成方法定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開(kāi)口度、舌高度、舌位置、聲帶張力等。由這些發(fā)音參數(shù)估計(jì)聲道截面積函數(shù),進(jìn)而計(jì)算聲波。只是,由于人發(fā)音生理過(guò)程的復(fù)雜性、理論計(jì)算與物理模擬之間的差異,合成語(yǔ)音的質(zhì)量暫時(shí)還不理想。
  語(yǔ)音識(shí)別技術(shù),又稱為語(yǔ)文轉(zhuǎn)換(Speech-to-Text),與語(yǔ)音合成技術(shù)的功能相對(duì)的,是將自然語(yǔ)音轉(zhuǎn)換成文字的技術(shù)。
  根據(jù)研究任務(wù)的不同,語(yǔ)音識(shí)別系統(tǒng)有不同的分類。按使用者的限制,可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng),前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用;按詞匯量的大小,可分為小詞匯量、中等詞匯量和大詞匯量語(yǔ)音識(shí)別系統(tǒng);按能處理的語(yǔ)音類型,可分為孤立詞、連接詞、連續(xù)語(yǔ)音和自發(fā)語(yǔ)音等語(yǔ)音識(shí)別系統(tǒng);甚至按平臺(tái)分,也可分為PC端和嵌入式平臺(tái)上的語(yǔ)音識(shí)別系統(tǒng)。

  如上圖所示,一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)由以下部分構(gòu)成:首先對(duì)語(yǔ)音輸入進(jìn)行特征提取,然后結(jié)合聲學(xué)模型、語(yǔ)言模型和字典等模型庫(kù)進(jìn)行模式分類匹配和解碼等操作,最后再進(jìn)行置信度判分,得到識(shí)別結(jié)果并確定語(yǔ)音輸入的文字表示。一般衡量語(yǔ)音識(shí)別技術(shù)有準(zhǔn)確率、反應(yīng)時(shí)間和處理性能等評(píng)價(jià)指標(biāo)。像訊飛語(yǔ)音輸入法,就聲稱達(dá)到了97%左右的準(zhǔn)確率,也難怪羅永浩在演示該輸入法時(shí)可以做到一字不差了。
  目前國(guó)內(nèi)的許多主流應(yīng)用都集成了訊飛語(yǔ)音云提供的語(yǔ)音技術(shù),典型的如新浪微博、米聊以及掌閱等,各大導(dǎo)航類應(yīng)用也都采用了訊飛語(yǔ)音技術(shù)。盡管現(xiàn)在,受語(yǔ)音的復(fù)雜性、模糊性等因素和環(huán)境噪聲干擾,語(yǔ)音識(shí)別準(zhǔn)確率不能盡善盡美,語(yǔ)音合成技術(shù)也存在自然度和表現(xiàn)力不足的問(wèn)題,但是隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的研究逐漸成熟,相信語(yǔ)音技術(shù)的進(jìn)一步完善只是時(shí)間問(wèn)題。到時(shí)候,如果蒙上我們的雙眼,誰(shuí)能確定和自己說(shuō)話的是人還是機(jī)器呢?

嫌打字慢?那就動(dòng)動(dòng)嘴吧

圖文簡(jiǎn)介

語(yǔ)音技術(shù)越來(lái)越強(qiáng)大,未來(lái)有一天,蒙起雙眼,誰(shuí)能確定和自己說(shuō)話的是人……