不久前,某科技公司發布手機新品,在發布會現場,出人意料的為某品牌語音輸入法進行了長達十多分鐘的宣傳,主講人用較快的語速隨口說了一段內容,經輸入法輸出在屏幕上,識別結果竟然一字不差。發布會結束后,引爆了該輸入法的知名度,尤其是之后幾天,該輸入法在App Store排行榜上排名飛升,一舉成為總榜top10以及工具榜的第一位。
語音技術實現了人機語音交互的功能,使人與機器之間的溝通變得像人與人溝通一樣簡單方便。語音技術主要包括語音識別和語音合成這兩項關鍵技術。語音識別技術,用于讓機器識別人說的話,如羅永浩在發布會上通過語音輸入法進行輸入,這就是使用了語音識別技術;語音合成技術,則用于讓機器說“人話”,如我們平時可能使用的語音導航,大多基于語音合成技術。
具體來說,語音合成技術,又稱為文語轉換(Text-to-Speech),是將文本轉換成自然語音的技術。
以參數合成中的發音器官參數合成方法為例展開介紹,這是一種對人的發音過程進行直接模擬的方法。使用該方法時,先對語音信號進行分析,提取出語音的參數,然后由人工控制這些參數的合成,從而完成語音合成。發音器官參數合成方法定義了唇、舌、聲帶的相關參數,如唇開口度、舌高度、舌位置、聲帶張力等。由這些發音參數估計聲道截面積函數,進而計算聲波。只是,由于人發音生理過程的復雜性、理論計算與物理模擬之間的差異,合成語音的質量暫時還不理想。
語音識別技術,又稱為語文轉換(Speech-to-Text),與語音合成技術的功能相對的,是將自然語音轉換成文字的技術。
根據研究任務的不同,語音識別系統有不同的分類。按使用者的限制,可分為特定人和非特定人語音識別系統,前者只能識別一個或幾個人的語音,而后者則可以被任何人使用;按詞匯量的大小,可分為小詞匯量、中等詞匯量和大詞匯量語音識別系統;按能處理的語音類型,可分為孤立詞、連接詞、連續語音和自發語音等語音識別系統;甚至按平臺分,也可分為PC端和嵌入式平臺上的語音識別系統。
目前國內的許多主流應用都集成了訊飛語音云提供的語音技術,典型的如新浪微博、米聊以及掌閱等,各大導航類應用也都采用了訊飛語音技術。盡管現在,受語音的復雜性、模糊性等因素和環境噪聲干擾,語音識別準確率不能盡善盡美,語音合成技術也存在自然度和表現力不足的問題,但是隨著機器學習尤其是深度學習的研究逐漸成熟,相信語音技術的進一步完善只是時間問題。到時候,如果蒙上我們的雙眼,誰能確定和自己說話的是人還是機器呢?
語音技術實現了人機語音交互的功能,使人與機器之間的溝通變得像人與人溝通一樣簡單方便。語音技術主要包括語音識別和語音合成這兩項關鍵技術。語音識別技術,用于讓機器識別人說的話,如羅永浩在發布會上通過語音輸入法進行輸入,這就是使用了語音識別技術;語音合成技術,則用于讓機器說“人話”,如我們平時可能使用的語音導航,大多基于語音合成技術。
具體來說,語音合成技術,又稱為文語轉換(Text-to-Speech),是將文本轉換成自然語音的技術。
以參數合成中的發音器官參數合成方法為例展開介紹,這是一種對人的發音過程進行直接模擬的方法。使用該方法時,先對語音信號進行分析,提取出語音的參數,然后由人工控制這些參數的合成,從而完成語音合成。發音器官參數合成方法定義了唇、舌、聲帶的相關參數,如唇開口度、舌高度、舌位置、聲帶張力等。由這些發音參數估計聲道截面積函數,進而計算聲波。只是,由于人發音生理過程的復雜性、理論計算與物理模擬之間的差異,合成語音的質量暫時還不理想。
語音識別技術,又稱為語文轉換(Speech-to-Text),與語音合成技術的功能相對的,是將自然語音轉換成文字的技術。
根據研究任務的不同,語音識別系統有不同的分類。按使用者的限制,可分為特定人和非特定人語音識別系統,前者只能識別一個或幾個人的語音,而后者則可以被任何人使用;按詞匯量的大小,可分為小詞匯量、中等詞匯量和大詞匯量語音識別系統;按能處理的語音類型,可分為孤立詞、連接詞、連續語音和自發語音等語音識別系統;甚至按平臺分,也可分為PC端和嵌入式平臺上的語音識別系統。
目前國內的許多主流應用都集成了訊飛語音云提供的語音技術,典型的如新浪微博、米聊以及掌閱等,各大導航類應用也都采用了訊飛語音技術。盡管現在,受語音的復雜性、模糊性等因素和環境噪聲干擾,語音識別準確率不能盡善盡美,語音合成技術也存在自然度和表現力不足的問題,但是隨著機器學習尤其是深度學習的研究逐漸成熟,相信語音技術的進一步完善只是時間問題。到時候,如果蒙上我們的雙眼,誰能確定和自己說話的是人還是機器呢?