經典科幻大片里的聲紋識別是怎么做到的?錄音、變聲器真的可以騙過聲紋識別系統嗎?《一千零一夜》的故事里,阿里巴巴用“芝麻開門”的喊聲打開了寶藏洞門,在1000多年后的今天,人們終于實現了用聲音做鑰匙的夢想。現實中的聲紋識別技術究竟是如何煉成的?到底有多厲害?清華大學教授、博士生導師,清華大學語音與語言技術中心(CSLT)主任,清華大學人工智能研究院聽覺中心主任,得意音通創始人鄭方帶來演講《聲紋識別技術,現實世界中的“芝麻開門”》。
鄭方演講視頻:
以下為鄭方演講實錄:
大家好,我是鄭方。

我們先來看一段視頻——
這是電影《2012》里面的一個片段,大家可能看過,很有名。主人公用聲音做了兩件事情:識別身份和命令識別(啟動引擎),其實就是“芝麻開門”的一個現實版體現。
為什么可以做到這些?這跟我們的聲音有很大的關系。

語音信號很簡單,是一維的,幾乎每個人都會聽和說;但 蘊藏其中的信息量非常豐富 ,包括性別、口音、內容、情感等等。其實還有一些別的信息,我幾年前曾經想過,能不能實現通過聲音看病?結果2017年,以色列的公司就做出來了。

聲紋其實只是語言中一項非常簡單的內容,跟人的生理特征(聲道)有很大的關系。每個人的聲道都不一樣(長度、形狀等),因此每個人的聲紋也不一樣。
曾經山西省公安廳找了23對同卵雙胞胎,想研究他們的聲音能不能區分開。結果發現, 即便是雙胞胎聲音也不一樣 ——雖然人耳可能聽不出來,但是機器確實分得開。

聲紋屬于生物特征。“生物特征”這個詞現在非常流行,大家可能也有關注,是指能夠確定身份的人自身的一些信息。
生物特征包含生理特征和行為特征兩種。
指紋、人臉等等屬于生理特征,信息含于靜態表象,從生到死基本不變;聲紋屬于行為特征,信息含于動態過程,即使同一個人說同樣的詞、同樣短語,也沒有任何兩次是一樣的,會存在波形、時間、音量、情感等方面的差異。但聲紋還兼具生理特征,因為它跟聲道有關系。
聲紋識別的分類有很多,主要有以下兩類——

第一種與指紋、人臉識別類似,分為聲紋辨認、聲紋確認,另外還有說話人檢出和說話人追蹤。

第二種分類為聲紋特有,包括文本無關、文本相關和文本提示。
用文本無關或者文本相關的識別方法做應用,你可能會想,會不會把錄下的聲音存到系統里呢?所以也許會涉及安全性問題。我們后來想到一種辦法(文本提示):讓用戶每次說的話是都從一個集合里面隨機挑出來的。 只有保證內容和用戶都對,才認為這次認證是對的 。
聲紋識別其實有些不同:指紋、掌紋等等都是可見的,而聲紋不可見,只能聽。
那么,怎么去做識別聲紋呢?

首先是特征提取,就是先從信號域通過傅里葉變換到頻率域,然后再通過處理到倒譜域,其中流程如右圖所示。
經過上述處理,我們可以看到一定特性。比如我說某個音在這個區域,另一個人說這個音可能在另一個區域。也就是說,可以通過描述語音特征,來描述發音的人。

也正因為此,我們往往不叫“聲紋模板”而直接叫“聲紋模型”,每個人的聲紋模型都會不一樣。

但是用聲紋去鑒別身份,一個非常重要的研究點是穩定性。因為每個人每次說話聲音都不一樣,身體狀況(如生病感冒)、生理變化(如變聲期)以及環境噪音都會造成聲音變化。
那么,聲紋到底可靠嗎?
如果答案是不可靠,聲紋識別就很難做到。
盡管上述因素會對識別造成影響,但還是能夠識別出來,因為蘊藏在一維信號里的聲紋信息是可以分開的。
我之前做過一個實驗:喝酒和沒喝酒的狀態下,聲音是否能被識別。結果發現沒有問題。不過喝到九成醉之后,舌頭直了,詞說不清楚,就不太能進行語言識別了,雖然聲紋識別沒有問題;但是讓他再清楚地說一遍,就又能識別了。
5G發展之后,大家非常想實現的一個事情就是遠程認證身份。如果需要把身份證寄過去,一來一回,十分麻煩。
聲紋識別就曾經在身份認證里做了一些事情。
關于生物特征識別,過去大家都比較關注準確率,現在則會更多關心安全性。但是我想跟大家說的是, 任何人的生物特征都是唯一的,是由基因決定的,而我們所謂的誤差通常是技術手段導致的 。
但是,聲紋用于身份認證還要解決兩個非常關鍵的問題,我們來看兩個案例——

2018年1月16日,犯罪分子用照片通過銀行的人臉識別,順利取到錢。雖然銀行有時候會讓我們搖頭晃腦進行活體檢測,但是仍有問題:用目標人的照片騙過人臉識別,在活體檢測時,他自己晃腦袋、搖頭和張嘴,最后還是通過了。所以怎么防止假體攻擊,是一件非常關鍵的事情。
另外一個問題是關于真實意圖的檢測。當時iPhone的指紋解鎖出來后,就曾經出現好多小兩口吵架,因為在對方睡著之后打開手機看了聊天記錄。

第二個案件,就是兩人合租,犯罪分子趁舍友睡著用舍友的臉解鎖了手機,然后把手機里的錢轉走。雖然這樣的事情通常不會發生在身邊,但是一旦能夠通過網絡發生,風險就很大了。
所以這兩個問題都要解決。

聲音作為一種因子,就要考慮防攻擊的問題。比如說聲音模仿——我學你說話,然后語音合成。現在有好多類似工具,如果把奧巴馬的聲音拿過來學一學,最后就能替奧巴馬發言說話。
當然,對于聲音模仿、語音合成和聲音轉換,現在是有辦法解決的。但是,還有一個更可怕也更麻煩的攻擊方式——錄音重放,因為聲音是真的,如假包換。
那怎么檢測真假?
你可能會說,可以讓他隨機說話。
這種方法也有風險。俗話說,不怕賊偷就怕賊惦記。如果有人跟你很熟,把你的聲音都錄下來,漢語就418個音節,完全可以根據指示進行拼接。
不過,大家也不用太擔心。因為我們做了一些研究的工作,最后發現,錄音基本上可以做到百分之百地檢測出來。
世界上沒有百分之百安全,所以聲紋防攻擊還要有一些組合的策略,增加破解難度。

比如說,我們自己可以變化說話的方式。在用數字“0”作為密碼動態碼時,可以開始念“零”,后來念“圈”,過兩天還念成“輪胎”……這樣一來,即便是把十個數的聲音都錄下來,也沒法攻擊——不知道我的讀音其實已經換了。

還可以用多模態,比如和嘴唇的特征結合。大家知道,一些基于智能手機的遠程的應用比較多,而智能手機有兩個標配的傳感器,一個是麥克風,另一個是攝像頭。所以可以在用戶拿著手機說話的時候,把嘴唇也錄進去;識別是本人后,再要求說數字,內容也對、時序也對才允許通過。這樣一來,就明顯增加了攻擊難度。
此外,情感檢測現在已經可以做到了,這方面我們的研究在國際上比賽拿過第一。具體來說,就是根據人臉看表情,然后根據聲音識別情感。二者相結合,就能知道用戶是不是受人脅迫。如果識別出這種情況,系統就會就報警。
聲音方面的檢測比較好做,主要有以下幾個方面——

語音識別。如果用戶睡著了,顯然不可能按照提示說話,就避免了被盜用。
情感識別。如果受人逼迫,會自然而然地流露出恐懼,在聲音和微表情里面均會有體現。
語義理解。可以通過設定明顯有悖常理但能輕易判斷的特殊語句(比如多次將“12”念作“23”),來判斷用戶是否試圖傳遞不便說明的危險狀態。
所以,我們可以把幾種不同的信息結合起來,提供一個比較安全的檢測手段。

公安破案現在是聲紋識別的主要應用領域之一,能夠通過電話以及網絡語音通話識別嫌疑人身份。

金融領域(如國內外好多銀行)現在也已經開始大量使用聲紋識別了。在沒有任何證件、沒有U盾的情況下,需要網上辦理業務,聲音認證身份是最方便的。

建設銀行自2015年上線手機銀行聲紋識別功能后,用戶數量已經達到182萬,迄今為止沒有發生過一次失誤。

其它領域的應用也很多,在保險、駕駛、航空和高鐵等方面都有涉及。

2017年得意音通組建了得意音通信息技術研究院,延聘全球頂級的人工智能專家。

其中,張鈸院士是中國人工智能鼻祖——人工智能發展了六十多年,他工作時間也是六十多年。莊炳湟院士來自美國。我們研究的主要領域是語言理解、語音識別和聲紋識別三個方面,研究成果很好地解決了一些問題。

我們的研究成果, 目前好多是“第一”或者“唯一”的 。剛才提到的錄音檢測,今年年初,全球156個隊伍我們排名第一;現在錯誤率幾乎是零——不過還有一個條件,就是錄音設備要見過才能識別出來。根據前不久剛出的新結果顯示,甚至沒見過的錄音設備都能檢測出來,可以更大程度保證安全。

這兩項分別為我們獲得的國際防錄音檢測大賽和情感檢測大賽的冠軍。

如今,聲紋識別已經開始在全國各地推廣使用。在貴州,我們建立了一個聲紋身份認證云,公安和社保金融都開始逐漸關聯。不僅如此,陜西、河北、山東、內蒙等其他幾個省也都開始接入。
未來會是什么樣子呢?

這幅圖片是我想象的一個場景,就是可以隨時隨地低成本地解決所有問題。在無人商店、旅館、加油站等很多場景,只要加個麥克風,就能進行聲紋認證——5G推行以后,到處都能連上網,甚至珠穆朗瑪峰都可以。說完了傳過去,認證通過之后,就可以辦理各種業務,方便了許多。
聲音作為一種比較特殊的信號,簡單又豐富,是辯證法的高度統一,可以很好地為大家服務。而且在各種不同的信號中,聲音有一個很不同的特點,就是它可以雙向交互。正是這種特性,能夠“讓21世紀成為一個語音的世紀”,這是比爾蓋茨說的。
謝謝各位。

演講嘉賓鄭方:《聲紋識別技術,現實世界中的“芝麻開門”》
作者:鄭方
編輯:麥芽楊、凝音
題圖來源:大話西游