站在香農(nóng)與玻爾茲曼肩上,看深度學(xué)習(xí)的術(shù)與道

在《迷人的數(shù)據(jù)與香農(nóng)的視角》一文中,我介紹了自己的“頓悟”:事物由不同層次的隨機(jī)變量展現(xiàn)出來的信息來表達(dá),不同層次上的隨機(jī)變量攜帶不同的信息,共同組合影響上一層的隨機(jī)變量的信息表達(dá),而隨機(jī)變量對外表達(dá)的信息則取決于該隨機(jī)變量的條件概率分布。不少朋友贊同,同行更認(rèn)為與深度學(xué)習(xí)相通。

如果真正理解了這句話的涵義,你其實(shí)已經(jīng)理解了深度學(xué)習(xí)的精髓。例如識(shí)別一個(gè)人,體形、膚色、臉型、眼睛、鼻梁、嘴角等等,都是表征這個(gè)人的隨機(jī)變量,用機(jī)器學(xué)習(xí)的術(shù)語叫特征,有顯式有隱式。不同輪廓,不同血型,不同氣質(zhì),不同性格,不同的IQ、EQ..., 不同層次的信息綜合地表達(dá)了這個(gè)人。這種層級化的表達(dá),大可以描述宇宙系統(tǒng),小可以描述雨滴、微生物。

香農(nóng)基于概率分布定義的信息熵,是對觀測到的事物隨機(jī)變量不確定度的描述,熵增加,不確定度增加;熵減小,不確定度減小。例如人臉,臉型有不同的取值可能性,眼睛大小、位置,睫毛長短,以及相互位置都有不同的取值范圍與可能性。當(dāng)這些不同特征的可能取值被一 一觀測到之后,我們也就逐步認(rèn)清了這張臉。也就是如果通過觀測發(fā)現(xiàn),某個(gè)東西走路像鴨子,叫起來像鴨子,看起來像鴨子,ok, 我們就認(rèn)為它是鴨子。

這里提到了觀測,這是獲取事物信息,從而認(rèn)識(shí)事物的唯一途徑。人們需要盡可能多的了解這個(gè)事物不同層次的特征,盡量詳盡,詳盡到可以把他/她/它從與他/她/它極其相似的事物中區(qū)別出來,也就是窮盡這些隨機(jī)變量的可能性之后,他仍然有別于其他。說起來很拗口,這些信息被記錄成數(shù)據(jù),也某種程度上解釋了為什么大數(shù)據(jù)如此火熱,大其實(shí)是足夠,足夠詳盡,足夠深層次,足夠及時(shí),去識(shí)別一個(gè)事物。大數(shù)據(jù)公司常用的套路是忽悠做360度客戶畫像,我們需要想想什么是360度,你的親朋好友多少度了解你,你自己360度了解自己嗎? 能畫出3.6度嗎?

觀測是有誤差的,而且很多情況下沒法直接進(jìn)行,比如計(jì)算湖泊中魚的平均長度,但不同體長的魚在湖水中的分布不清楚,如何撈出來量量呢? 馬爾科夫說這好辦,你構(gòu)造一個(gè)概率分布遷移的鏈,從初始分布 P0, 經(jīng)過 n 次 轉(zhuǎn)移概率為P 的轉(zhuǎn)移之后,肯定收斂于穩(wěn)態(tài)分布 Pn。沒明白? Gibbs懂了,發(fā)明了Gibbs采樣方法。不過這里的轉(zhuǎn)移矩陣是需要滿足細(xì)致平穩(wěn)條件的,也就是互相轉(zhuǎn)移的概率相等,否則就不穩(wěn)定了(敲黑板),記住“平穩(wěn)”這個(gè)前提。

幾位哈佛物理學(xué)家在最近的論文中《Why does deep and cheap learning work so well?》,對上文的分層隨機(jī)表達(dá)方式做了理論梳理,在我看來,簡直就是神總結(jié),讓你不得不佩服哈佛大學(xué)物理學(xué)者的功力之深厚。不少計(jì)算機(jī)科學(xué)家嘚吧嘚的多少層花式神經(jīng)網(wǎng)絡(luò)架構(gòu),隨機(jī)梯度優(yōu)化求解,說不清的無厘頭正則化,都是“術(shù)”,在這里找到了作為其理論基礎(chǔ)的“道”。論文作者用下圖來概括深度學(xué)習(xí)領(lǐng)域的三類最典型問題,無監(jiān)督學(xué)習(xí)(Unsupervided learning),有監(jiān)督學(xué)習(xí)的分類(Classification)與預(yù)測(Prediction), 論文中看似有typo , AI 可能認(rèn)不出來。這三類問題歸根結(jié)底都是用神經(jīng)網(wǎng)絡(luò)來近似概率分布:想象一個(gè)(x,y)的聯(lián)合概率分布,或y發(fā)生條件下,x的條件概率分布,或互換,訓(xùn)練的過程就是找到這個(gè)近似概率分布函數(shù)的過程。

流行的深度學(xué)習(xí)算法怎么求解這些概率分布的呢? 我們先把這些隨機(jī)變量的觀測數(shù)據(jù)(訓(xùn)練數(shù)據(jù))所包含的香農(nóng)信息熵算一下,并且認(rèn)定這是系統(tǒng)最大可能的信息展現(xiàn)(最大似然),然后最小化剩余的部分,就是求極大極小值,而且是用數(shù)值的方法,這里有不少的假設(shè),比如凸函數(shù),比如李普希茲連續(xù)(也可以理解成某種意義上的平穩(wěn)假設(shè)),不少的算“術(shù)”,比如拉格朗日乘子,比如隨機(jī)梯度下降,都是“賞心悅目”的微積分。通過對這個(gè)香農(nóng)熵的方式適當(dāng)約束,你能得到熟悉的最小二乘法,大學(xué)物理實(shí)驗(yàn)的時(shí)候擬合直線你肯定用過。

通過訓(xùn)練尋找這些概率分布函數(shù),其中隱含著一個(gè)基本假設(shè),就是系統(tǒng)是處于相對穩(wěn)定狀態(tài)的,一個(gè)急速演進(jìn)中的開放系統(tǒng),概率的方法應(yīng)該是不適合的。例如機(jī)器翻譯,對于相對穩(wěn)定的事物的語言描述,AI翻譯應(yīng)該能夠勝任,對于新的網(wǎng)絡(luò)流形語,或小眾的新生事物,前幾年例如甄嬛傳,基于統(tǒng)計(jì)的AI翻譯或許就沒那么得心應(yīng)手了。周鴻祎在360營銷盛典上總結(jié)AI 在直播中的表現(xiàn)的時(shí)候說,''計(jì)算機(jī)就把所有的錐子臉都定義成美女"。

又比如玻爾茲曼機(jī),基于哈密爾頓自由能的分布其實(shí)都是有隱含的系統(tǒng)相對穩(wěn)定假設(shè)的(玻爾茲曼分布是“平衡態(tài)”氣體分子的能量分布律)。對于非穩(wěn)定系統(tǒng),就得求助于普利高津了。所以,當(dāng)我們?yōu)锳I的不斷進(jìn)步的“智能”歡呼的時(shí)候,一定要冷靜的認(rèn)識(shí)到它可能不適用的情境,請相信沒有放之四海而皆準(zhǔn)的真理,除了這句話本身。只有我在懷疑這件事不能懷疑之外,其他都是值得懷疑的。

另外我還有個(gè)忠告,不管AI有多牛,請盡量審慎地相信基于統(tǒng)計(jì)的預(yù)測(prediction), 看看這個(gè)農(nóng)夫諺語,你就理解了: 我只想知道將來我會(huì)死在什么地方,這樣我就不去那兒了。

作者:王慶法,數(shù)據(jù)領(lǐng)域?qū)<遥紫瘮?shù)據(jù)官聯(lián)盟專家組成員

來源: 中國科技新聞學(xué)會(huì)