不久前,某科技公司發(fā)布手機(jī)新品,在發(fā)布會(huì)現(xiàn)場(chǎng),出人意料的為某品牌語(yǔ)音輸入法進(jìn)行了長(zhǎng)達(dá)十多分鐘的宣傳,主講人用較快的語(yǔ)速隨口說(shuō)了一段內(nèi)容,經(jīng)輸入法輸出在屏幕上,識(shí)別結(jié)果竟然一字不差。發(fā)布會(huì)結(jié)束后,引爆了該輸入法的知名度,尤其是之后幾天,該輸入法在App Store排行榜上排名飛升,一舉成為總榜top10以及工具榜的第一位。
語(yǔ)音技術(shù)實(shí)現(xiàn)了人機(jī)語(yǔ)音交互的功能,使人與機(jī)器之間的溝通變得像人與人溝通一樣簡(jiǎn)單方便。語(yǔ)音技術(shù)主要包括語(yǔ)音識(shí)別和語(yǔ)音合成這兩項(xiàng)關(guān)鍵技術(shù)。語(yǔ)音識(shí)別技術(shù),用于讓機(jī)器識(shí)別人說(shuō)的話,如羅永浩在發(fā)布會(huì)上通過(guò)語(yǔ)音輸入法進(jìn)行輸入,這就是使用了語(yǔ)音識(shí)別技術(shù);語(yǔ)音合成技術(shù),則用于讓機(jī)器說(shuō)“人話”,如我們平時(shí)可能使用的語(yǔ)音導(dǎo)航,大多基于語(yǔ)音合成技術(shù)。
具體來(lái)說(shuō),語(yǔ)音合成技術(shù),又稱為文語(yǔ)轉(zhuǎn)換(Text-to-Speech),是將文本轉(zhuǎn)換成自然語(yǔ)音的技術(shù)。
以參數(shù)合成中的發(fā)音器官參數(shù)合成方法為例展開(kāi)介紹,這是一種對(duì)人的發(fā)音過(guò)程進(jìn)行直接模擬的方法。使用該方法時(shí),先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取出語(yǔ)音的參數(shù),然后由人工控制這些參數(shù)的合成,從而完成語(yǔ)音合成。發(fā)音器官參數(shù)合成方法定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開(kāi)口度、舌高度、舌位置、聲帶張力等。由這些發(fā)音參數(shù)估計(jì)聲道截面積函數(shù),進(jìn)而計(jì)算聲波。只是,由于人發(fā)音生理過(guò)程的復(fù)雜性、理論計(jì)算與物理模擬之間的差異,合成語(yǔ)音的質(zhì)量暫時(shí)還不理想。
語(yǔ)音識(shí)別技術(shù),又稱為語(yǔ)文轉(zhuǎn)換(Speech-to-Text),與語(yǔ)音合成技術(shù)的功能相對(duì)的,是將自然語(yǔ)音轉(zhuǎn)換成文字的技術(shù)。
根據(jù)研究任務(wù)的不同,語(yǔ)音識(shí)別系統(tǒng)有不同的分類。按使用者的限制,可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng),前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用;按詞匯量的大小,可分為小詞匯量、中等詞匯量和大詞匯量語(yǔ)音識(shí)別系統(tǒng);按能處理的語(yǔ)音類型,可分為孤立詞、連接詞、連續(xù)語(yǔ)音和自發(fā)語(yǔ)音等語(yǔ)音識(shí)別系統(tǒng);甚至按平臺(tái)分,也可分為PC端和嵌入式平臺(tái)上的語(yǔ)音識(shí)別系統(tǒng)。
目前國(guó)內(nèi)的許多主流應(yīng)用都集成了訊飛語(yǔ)音云提供的語(yǔ)音技術(shù),典型的如新浪微博、米聊以及掌閱等,各大導(dǎo)航類應(yīng)用也都采用了訊飛語(yǔ)音技術(shù)。盡管現(xiàn)在,受語(yǔ)音的復(fù)雜性、模糊性等因素和環(huán)境噪聲干擾,語(yǔ)音識(shí)別準(zhǔn)確率不能盡善盡美,語(yǔ)音合成技術(shù)也存在自然度和表現(xiàn)力不足的問(wèn)題,但是隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的研究逐漸成熟,相信語(yǔ)音技術(shù)的進(jìn)一步完善只是時(shí)間問(wèn)題。到時(shí)候,如果蒙上我們的雙眼,誰(shuí)能確定和自己說(shuō)話的是人還是機(jī)器呢?
語(yǔ)音技術(shù)實(shí)現(xiàn)了人機(jī)語(yǔ)音交互的功能,使人與機(jī)器之間的溝通變得像人與人溝通一樣簡(jiǎn)單方便。語(yǔ)音技術(shù)主要包括語(yǔ)音識(shí)別和語(yǔ)音合成這兩項(xiàng)關(guān)鍵技術(shù)。語(yǔ)音識(shí)別技術(shù),用于讓機(jī)器識(shí)別人說(shuō)的話,如羅永浩在發(fā)布會(huì)上通過(guò)語(yǔ)音輸入法進(jìn)行輸入,這就是使用了語(yǔ)音識(shí)別技術(shù);語(yǔ)音合成技術(shù),則用于讓機(jī)器說(shuō)“人話”,如我們平時(shí)可能使用的語(yǔ)音導(dǎo)航,大多基于語(yǔ)音合成技術(shù)。
具體來(lái)說(shuō),語(yǔ)音合成技術(shù),又稱為文語(yǔ)轉(zhuǎn)換(Text-to-Speech),是將文本轉(zhuǎn)換成自然語(yǔ)音的技術(shù)。
以參數(shù)合成中的發(fā)音器官參數(shù)合成方法為例展開(kāi)介紹,這是一種對(duì)人的發(fā)音過(guò)程進(jìn)行直接模擬的方法。使用該方法時(shí),先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取出語(yǔ)音的參數(shù),然后由人工控制這些參數(shù)的合成,從而完成語(yǔ)音合成。發(fā)音器官參數(shù)合成方法定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開(kāi)口度、舌高度、舌位置、聲帶張力等。由這些發(fā)音參數(shù)估計(jì)聲道截面積函數(shù),進(jìn)而計(jì)算聲波。只是,由于人發(fā)音生理過(guò)程的復(fù)雜性、理論計(jì)算與物理模擬之間的差異,合成語(yǔ)音的質(zhì)量暫時(shí)還不理想。
語(yǔ)音識(shí)別技術(shù),又稱為語(yǔ)文轉(zhuǎn)換(Speech-to-Text),與語(yǔ)音合成技術(shù)的功能相對(duì)的,是將自然語(yǔ)音轉(zhuǎn)換成文字的技術(shù)。
根據(jù)研究任務(wù)的不同,語(yǔ)音識(shí)別系統(tǒng)有不同的分類。按使用者的限制,可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng),前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用;按詞匯量的大小,可分為小詞匯量、中等詞匯量和大詞匯量語(yǔ)音識(shí)別系統(tǒng);按能處理的語(yǔ)音類型,可分為孤立詞、連接詞、連續(xù)語(yǔ)音和自發(fā)語(yǔ)音等語(yǔ)音識(shí)別系統(tǒng);甚至按平臺(tái)分,也可分為PC端和嵌入式平臺(tái)上的語(yǔ)音識(shí)別系統(tǒng)。
目前國(guó)內(nèi)的許多主流應(yīng)用都集成了訊飛語(yǔ)音云提供的語(yǔ)音技術(shù),典型的如新浪微博、米聊以及掌閱等,各大導(dǎo)航類應(yīng)用也都采用了訊飛語(yǔ)音技術(shù)。盡管現(xiàn)在,受語(yǔ)音的復(fù)雜性、模糊性等因素和環(huán)境噪聲干擾,語(yǔ)音識(shí)別準(zhǔn)確率不能盡善盡美,語(yǔ)音合成技術(shù)也存在自然度和表現(xiàn)力不足的問(wèn)題,但是隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的研究逐漸成熟,相信語(yǔ)音技術(shù)的進(jìn)一步完善只是時(shí)間問(wèn)題。到時(shí)候,如果蒙上我們的雙眼,誰(shuí)能確定和自己說(shuō)話的是人還是機(jī)器呢?
嫌打字慢?那就動(dòng)動(dòng)嘴吧
圖文簡(jiǎn)介
語(yǔ)音技術(shù)越來(lái)越強(qiáng)大,未來(lái)有一天,蒙起雙眼,誰(shuí)能確定和自己說(shuō)話的是人……
- 來(lái)源: 移動(dòng)端科普融合創(chuàng)作
- 上傳時(shí)間:2016-11-04