每個(gè)人的聲音都有自己獨(dú)特的“元素”,蘊(yùn)含著先天生理和后天環(huán)境的影響。那么,聲音是否也可以像指紋一樣被用作密碼,讓生活更便利?清華—得意音通聲紋處理聯(lián)合實(shí)驗(yàn)室副主任、清華大學(xué)計(jì)算機(jī)系高級(jí)工程師鄔曉鈞老師帶來(lái)演講《解開(kāi)聲音密碼,讓老年人不必奔波千里領(lǐng)退休金》。
鄔曉鈞演講視頻:
以下為鄔曉鈞演講實(shí)錄:
大家好,我是鄔曉鈞。

養(yǎng)老保險(xiǎn)是我國(guó)社會(huì)保障的重要組成部分。根據(jù)規(guī)定,到了法定退休年齡的老人,如果已經(jīng)繳納了足夠年限的養(yǎng)老保險(xiǎn),退休后每月就可以領(lǐng)取養(yǎng)老金。養(yǎng)老金是老人晚年的生活保障,有利于社會(huì)穩(wěn)定。

隨著我國(guó)經(jīng)濟(jì)發(fā)展,醫(yī)療服務(wù)水平和健康水平都得到提高,人們?cè)絹?lái)越長(zhǎng)壽了。2000年11月份,我國(guó)第五次人口普查數(shù)據(jù)表明,60歲以上的老年人口在總?cè)丝谥械谋壤呀?jīng)超過(guò)了10%,說(shuō)明我國(guó)已經(jīng)進(jìn)入了老齡社會(huì)。
幾年過(guò)去,我國(guó)老齡化的程度越來(lái)越高。到去年年底,全國(guó)老年人口總數(shù)已經(jīng)占總?cè)丝诘?7.9%。根據(jù)預(yù)測(cè), 2050年可能每三個(gè)人中間就會(huì)有一個(gè)老年人 。
老年人增多了,領(lǐng)取養(yǎng)老金的人數(shù)也會(huì)增加,好多地方都出現(xiàn)了養(yǎng)老保險(xiǎn)入不敷出的現(xiàn)象。人社部報(bào)告顯示,2014年全國(guó)有三個(gè)省養(yǎng)老金入不敷出, 2015年有六個(gè)省,2016年有七個(gè)省。
但同時(shí),各地也都出現(xiàn)了冒領(lǐng)養(yǎng)老金的現(xiàn)象。老人去世后,由于種種原因,他的帳戶(hù)沒(méi)有及時(shí)注銷(xiāo),還有人在繼續(xù)冒領(lǐng)他的養(yǎng)老金,其中普遍是直系親屬。

2012年,北京順義就發(fā)生了一起案件:老人已經(jīng)去世了,但是 兒子為了能夠繼續(xù)領(lǐng)養(yǎng)老金,就把尸體藏在家里頭,半年多以后才被人發(fā)現(xiàn) 。
人社部數(shù)據(jù)顯示,2012年到2016年,全國(guó)查出來(lái)的被冒領(lǐng)的養(yǎng)老金就達(dá)到了7.6億。
去年(2018年)上半年,安徽省比較了公安廳人口注銷(xiāo)的數(shù)據(jù)和養(yǎng)老金領(lǐng)取的數(shù)據(jù),發(fā)現(xiàn)大概有9800人涉嫌冒領(lǐng)養(yǎng)老金。這種現(xiàn)象實(shí)際上造成了養(yǎng)老保險(xiǎn)基金的流失,嚴(yán)重破壞了我國(guó)在養(yǎng)老保險(xiǎn)方面的公平、公正以及互助性,加劇了養(yǎng)老金的收支不平衡。
理論上,老人去世后的第二個(gè)月就應(yīng)該停止發(fā)放養(yǎng)老金了,但是如果每個(gè)月都去核查所有老年人的生存狀態(tài),顯然任務(wù)太困難艱巨。所以國(guó)家規(guī)定, 退休人員每年要到現(xiàn)場(chǎng)認(rèn)證一次,保證健在 。

左邊這幅圖就是比較傳統(tǒng)的方式,需要本人到場(chǎng),然后提供有效證件。這兩年很多社保局也在現(xiàn)場(chǎng)采用了指紋和人臉認(rèn)證(右圖),使得社保的年審更加方便快捷。

雖然每年只需要認(rèn)證一次,可是對(duì)于那些路途遙遠(yuǎn)、行動(dòng)不便以及和子女住在外地的老人,年審還是非常麻煩的一件事情。
為了方便群眾,有些地方的社保局提供上門(mén)服務(wù),派出工作人員到交通不便的地方去做上門(mén)認(rèn)證,或者去探望臥床住院的那些老人。但是由于人員所限,能服務(wù)的老人還是極少數(shù)的。有些地方規(guī)定,跟子女居住在外地的老人可以到居住地的社保機(jī)構(gòu)去做認(rèn)證,然后把認(rèn)證材料寄回去。但是在實(shí)施過(guò)程中發(fā)現(xiàn),有很多人偽造認(rèn)證材料。

也有些地方采取這樣的方法:讓老人拿一張當(dāng)天的報(bào)紙拍照。這在一定程度上可以減少認(rèn)證的困難。但很多老人意見(jiàn)很大,認(rèn)為是 對(duì)他們?nèi)烁窈蜕牟蛔鹬? 。而且這種方式 觸發(fā)了老人對(duì)于死亡的恐懼和焦慮 ,有些老人就覺(jué)得可能是在世的最后一張照片,非常不舒服。而且大家知道,現(xiàn)在P圖的技術(shù)非常高,所以也出現(xiàn)了很多P圖冒領(lǐng)養(yǎng)老金的情況。
指紋、人臉的認(rèn)證確實(shí)很方便,但如果遠(yuǎn)程做認(rèn)證的話,系統(tǒng)很難辨別圖像是真是假,所以社保局也只能在現(xiàn)場(chǎng)架構(gòu)相關(guān)設(shè)備,方便現(xiàn)場(chǎng)的認(rèn)證。
這是2018年5月份媒體報(bào)道的一件事情,引起了全國(guó)的廣泛關(guān)注——
湖北的一位老人,已經(jīng)90歲了。他實(shí)際上跟子女住在另外一個(gè)城市,每次認(rèn)證必須回到原來(lái)的居住地,而且認(rèn)證的地方在三樓,還得找人幫他把輪椅抬上去。
2015年2月,李克強(qiáng)總理主持了國(guó)務(wù)院的常務(wù)會(huì)議,確定要利用互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù),“讓信息多跑路,讓群眾少跑腿”。

2018年7月,人社部全面取消了社會(huì)保險(xiǎn)待遇資格集中認(rèn)證的方式。這樣就急需更安全、更便利的遠(yuǎn)程身份認(rèn)證技術(shù),防止養(yǎng)老基金跑冒滴漏,同時(shí)也減少基層工作人員的工作負(fù)擔(dān)。
2018年12月30日,央視新聞?lì)l道播出了一個(gè)新年特別節(jié)目,《創(chuàng)新跨越2018》,給觀眾們介紹了兩項(xiàng)人工智能的技術(shù)走入生活、造福社會(huì)的故事。其中一個(gè)就是我們團(tuán)隊(duì)利用聲紋技術(shù)在貴州開(kāi)展老年人生存認(rèn)證的試點(diǎn)工作,主要用到的就是聲紋識(shí)別技術(shù)。

黔東南地區(qū)的這位老人已經(jīng)102歲了,她住的地方交通不便,離認(rèn)證的地方單程奔波要兩小時(shí)。有了這項(xiàng)服務(wù)之后,她 花幾秒鐘時(shí)間,足不出戶(hù)就能完成認(rèn)證了 。
聲紋,到底是什么?

大家對(duì)指紋、掌紋、人臉、虹膜很熟悉,它們都屬于生物特征,其實(shí)聲紋也是一種生物特征。我們說(shuō)話的時(shí)候,從胸肺開(kāi)始,然后聲帶振動(dòng),通過(guò)咽喉,然后到口腔、鼻腔發(fā)出聲來(lái),其中還會(huì)用到舌頭、牙齒、嘴唇。
這些發(fā)音器官的形態(tài)、尺寸,其實(shí)大家都不一樣,這也是聲紋有唯一性的先天生理基礎(chǔ)。另外說(shuō)話有發(fā)聲習(xí)慣,韻律、口音和說(shuō)話速度也決定了語(yǔ)音中間的一些特定信息。這樣,發(fā)聲器官和發(fā)聲過(guò)程結(jié)合起來(lái),就決定了語(yǔ)音包含了能夠表征和辨識(shí)特定說(shuō)話人的一些語(yǔ)音特征——聲紋。有時(shí)候,我們把基于語(yǔ)音特征所建立的計(jì)算機(jī)內(nèi)部的模型也稱(chēng)為聲紋。

識(shí)別前,計(jì)算機(jī)要先去了解聲紋,這個(gè)過(guò)程叫做注冊(cè)。一般來(lái)說(shuō),就是要采集用戶(hù)的一段語(yǔ)音,然后提取其中的聲紋特征,建立聲紋模型,存儲(chǔ)在數(shù)據(jù)庫(kù)里。認(rèn)證或識(shí)別的時(shí)候,同樣需要采集一段語(yǔ)音(一般會(huì)比注冊(cè)短很多),從這段語(yǔ)音里也去抽取聲紋特征,然后從數(shù)據(jù)庫(kù)里拿出聲紋模型進(jìn)行某種計(jì)算,最后得到識(shí)別結(jié)果。

怎么評(píng)價(jià)聲紋識(shí)別系統(tǒng)的性能有多好?
其實(shí)有兩個(gè)指標(biāo),一個(gè)是錯(cuò)誤接受率(FAR,不是本人語(yǔ)音但是系統(tǒng)認(rèn)可),另一個(gè)是錯(cuò)誤拒絕率(FRR,是本人語(yǔ)音但系統(tǒng)沒(méi)有通過(guò))。
這兩種錯(cuò)誤率其實(shí)是相互矛盾的。 對(duì)于同一個(gè)系統(tǒng)來(lái)講,錯(cuò)誤接受率低了,錯(cuò)誤拒絕率就高,像蹺蹺板一樣 。所以我們要根據(jù)應(yīng)用的具體情況,保證系統(tǒng)在合適的工作點(diǎn)上。例如,資金安全或槍支管理安全性要求非常高,此時(shí)就需要讓錯(cuò)誤接受率很低,錯(cuò)誤拒絕率自然就會(huì)升高。
在科研中,我們?yōu)榱朔奖惚容^兩個(gè)系統(tǒng)的性能好壞,會(huì)讓它們都工作在錯(cuò)誤接受率和錯(cuò)誤拒絕率相等的狀態(tài)上(等錯(cuò)誤率)。一般認(rèn)為等錯(cuò)誤率越低,系統(tǒng)性能越好。不過(guò)實(shí)際的應(yīng)用中間,不能簡(jiǎn)單地以等錯(cuò)誤率來(lái)比較兩個(gè)系統(tǒng)的優(yōu)劣。
聲紋識(shí)別要錄音,周?chē)h(huán)境比較嘈雜,怎么辦?
實(shí)際上,我們現(xiàn)在用的麥克風(fēng)大多都是定向麥克風(fēng),采音有一定范圍,在范圍之外聲音很難被錄進(jìn)去。而且,現(xiàn)在的智能手機(jī)很多不止一個(gè)麥克風(fēng),所謂的麥克風(fēng)陣列技術(shù)能在錄音的時(shí)候很好地去除噪音,最后語(yǔ)音的處理過(guò)程也含有一些噪聲的處理功能。所以在一般情況下(如乘坐高鐵、餐廳吃飯),噪聲對(duì)系統(tǒng)識(shí)別性能是沒(méi)有多大影響的。
感冒鼻塞,會(huì)不會(huì)影響系統(tǒng)識(shí)別性能?
實(shí)際上,感冒對(duì)說(shuō)話習(xí)慣沒(méi)什么影響,只是對(duì)生理狀態(tài)有輕微的影響。所以總體來(lái)講,對(duì)生物特征的影響比較小,一般不會(huì)造成影響。我們的經(jīng)驗(yàn)表明,即使第一次認(rèn)證沒(méi)有通過(guò),再說(shuō)一次一般也就能通過(guò)了。

年齡增長(zhǎng)帶來(lái)生物特征變化,系統(tǒng)還能不能用?
這確實(shí)是一個(gè)問(wèn)題,我們十年前也考慮過(guò)。為了驗(yàn)證,我們找了同一批人,每隔固定的時(shí)間去說(shuō)同樣的話,然后去找有沒(méi)有共同的聲紋特征。結(jié)果發(fā)現(xiàn), 就像老朋友多年不見(jiàn),再一次見(jiàn)面還能認(rèn)得 ——人有些聲紋特征非常穩(wěn)定。我們?cè)俳Y(jié)合這些特征進(jìn)行改進(jìn),使得系統(tǒng)保持很高、很穩(wěn)定的識(shí)別性能。
實(shí)際上,社保生存認(rèn)證里用到的技術(shù)也不完全是聲紋。

語(yǔ)音本身是一種聲波,麥克風(fēng)能夠記錄下每一個(gè)時(shí)刻聲波振動(dòng)的強(qiáng)度,其中包含了非常豐富的信息(男女性別、年齡、語(yǔ)言類(lèi)型、方言口音等,當(dāng)然還有內(nèi)容)。此外,聲紋還能聽(tīng)出情緒(高興還是悲傷)。我們把聲音的這種特點(diǎn)總結(jié)成四個(gè)字,“ 形簡(jiǎn)意豐 ”。

由此,我們?cè)O(shè)計(jì)了遠(yuǎn)程的聲紋身份認(rèn)證方案,在很多地方都有應(yīng)用。具體來(lái)說(shuō),就是老人需要認(rèn)證的時(shí)候,系統(tǒng)會(huì)首先生成一個(gè)隨機(jī)密碼(現(xiàn)在采用的是隨機(jī)數(shù)字),然后麥克風(fēng)錄下聲音,后臺(tái)同時(shí)做聲紋識(shí)別(判斷是不是本人)和語(yǔ)音識(shí)別(判斷確實(shí)是念了生成的這段文本)。
用這套系統(tǒng),還會(huì)產(chǎn)生養(yǎng)老金冒領(lǐng)嗎?有人模仿怎么辦?計(jì)算機(jī)合成怎么辦?

實(shí)際上,所謂的模仿秀一般是模仿人說(shuō)話韻律和風(fēng)格,沒(méi)有辦法去模仿生理結(jié)構(gòu)。所以不管是研究還是應(yīng)用,從來(lái)沒(méi)有發(fā)生過(guò)聲音模仿闖入系統(tǒng)的情形。至于計(jì)算機(jī)合成,目前的合成技術(shù)有一定針對(duì)性,往往是針對(duì)語(yǔ)音中一兩種信息做的合成,能夠檢測(cè)出來(lái)。另外,不管用了計(jì)算機(jī)的什么技術(shù),來(lái)源肯定是已經(jīng)錄制的數(shù)據(jù),還要通過(guò)揚(yáng)聲器播放,其實(shí)就跟錄音再播放有相同的過(guò)程,我們把這種現(xiàn)象稱(chēng)為錄音重放。
所以, 如果能夠檢測(cè)出錄音重放,我們就能夠堵住冒領(lǐng)漏洞 。

我們近幾年研究的一個(gè)重要課題就是錄音重放。我們參加了2019年國(guó)際自動(dòng)說(shuō)話人驗(yàn)證欺騙和對(duì)策挑戰(zhàn)賽,其中就有錄音重放的檢測(cè)項(xiàng)目。在全世界156支隊(duì)伍里頭,我們清華-得意團(tuán)隊(duì)以挺大的優(yōu)勢(shì)拿到了第一名,等錯(cuò)誤率只有0.39%(每一千個(gè)語(yǔ)音里有四個(gè)識(shí)別錯(cuò)誤)。

關(guān)于聲紋身份認(rèn)證的安全性,我們有非常多的考慮,比如是否出自本人的意愿。我們?cè)O(shè)計(jì)的方案里需要用戶(hù)去讀一串隨機(jī)生成的文本,或者回答問(wèn)題,就能保證用戶(hù)不是處于非清醒的狀態(tài)。
另外,如果有歹徒持刀脅迫,我們也能進(jìn)行情感識(shí)別,比如聲音里有沒(méi)有緊張、恐懼的情緒。
我們還可以基于語(yǔ)音識(shí)別的內(nèi)容,再去做進(jìn)一步的語(yǔ)義理解。假如在認(rèn)證的時(shí)候說(shuō)“明天我給你送盒月餅去,要過(guò)節(jié)了”,但是其實(shí)昨天就是中秋節(jié),在當(dāng)時(shí)的時(shí)間場(chǎng)景下不合理,我們就能提前給出可能的報(bào)警。

這張圖片是清華-得意團(tuán)隊(duì)參加了2017年的國(guó)際音頻情感識(shí)別競(jìng)賽,獲得了冠軍。

目前,聲紋身份認(rèn)證已經(jīng)在國(guó)家好幾個(gè)省進(jìn)行試點(diǎn)應(yīng)用。

我們也在研究擴(kuò)大應(yīng)用范圍,試圖解決青少年沉迷網(wǎng)絡(luò)、視障老人使用智能設(shè)備等一些問(wèn)題。

當(dāng)然聲紋識(shí)別技術(shù)目前還有很多問(wèn)題解決得不夠好,我們還在不斷研究。但是我們相信,隨著技術(shù)的發(fā)展,特別是5G即將普及,萬(wàn)物互聯(lián)已經(jīng)離我們非常近了。未來(lái)作為最方便自然的交互手段,語(yǔ)音一定會(huì)成為我們?nèi)粘J褂玫募夹g(shù)。在無(wú)處不在的智能交互時(shí)代,我們相信聲紋的身份認(rèn)證一定會(huì)是其中重要的組成部分。
好,謝謝大家。

(演講嘉賓鄔曉鈞:《解開(kāi)聲音密碼,讓老年人不必奔波千里領(lǐng)退休金》)
作者:鄔曉鈞
編輯:Yuki、凝音
抬著90歲老人去領(lǐng)退休金,這樣尷尬的事,我們不想再看到了|鄔曉鈞
圖文簡(jiǎn)介
聲音是否可以像指紋一樣被用作密碼,讓生活更便利?
- 來(lái)源: 我是科學(xué)家
- 上傳時(shí)間:2019-11-14