導語

自由能原理被認為是“自達爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發解釋智能體更新認知、探索和改變世界的機制,被認為有可能成為智能的第一性原理的重要候選方案,并有望成為新時代復雜系統的大統一理論。本文是對自由能原理的概覽介紹文章,歡迎開啟這趟自由能之旅,探討智能的第一性原理!

關鍵詞:自由能原理,主動推理,貝葉斯定理,生成模型,隨機動力系統,馬爾可夫毯

作者|牟牧云

編輯|梁金

目錄

1. 生命、意識與智能的統一原理

2. 主動推理的底層路徑:從貝葉斯定理出發

3. 主動推理的頂層路徑:從隨機動力系統出發

從微小的細菌到復雜的動物,包括人類,都可以被看作是具有某種形式智能的存在。例如,培養皿中的細菌能夠通過細胞膜上的受體蛋白來檢測環境中化學物質的濃度梯度,并通過化學趨向性這一過程,向有利的化學物質濃度方向移動,同時避開有害物質。細菌這種單細胞生物,盡管結構簡單,卻具備了感知環境和做出行動的基本能力,這使得它們能夠尋找食物或逃避危險。

當許多單細胞生物通過簡單行為進行交互匯聚成多細胞生物時,我們便見證了更為豐富和復雜的智能行為的誕生。以人類大腦為例,它由大約1000億個神經元組成,這些神經元通過約100萬億個連接形成了一個龐大而復雜的網絡,共同構成了我們對世界的感知,控制身體運動,還賦予了我們意識、思考、學習和記憶的能力。

從單細胞生物的適應性行為,到多細胞生物復雜神經元網絡所孕育的智能行為,我們不禁好奇:這些現象之間是否存在一種普遍適用的原理?自由能原理(Free Energy Principle)及其衍生的主動推理(Acitive Inference,也譯作主動推斷)框架,嘗試從第一性原理出發,為我們提供一個可能的答案。

圖1. 自由能原理嘗試從第一性原理出發為生命和智能提供統一的解釋。

1. 生命、意識與智能的統一原理

在探討生命起源到意識奧秘這一宏大話題時,許多科學家曾做出重要貢獻。例如,達爾文在《物種起源》中提出了演化論,認為生物的多樣性和復雜性是通過自然選擇和適者生存的過程逐漸形成的。薛定諤在《生命是什么》中探討了生命體如何在物理定律的框架內維持其高度有序的狀態,特別是通過引入“負熵”的概念來解釋生命體如何抵抗熱力學第二定律所描述的無序趨勢。他指出,生命系統通過與外界環境交換物質和能量,實現了內部的秩序和復雜性,這與開放系統通過能量流動維持秩序的思想相呼應。

普利高津的耗散結構理論進一步闡釋了開放系統如何在遠離平衡態的條件下,通過能量和物質的流動生成和維持秩序。這一理論解釋了在非平衡狀態下,系統如何通過耗散過程形成新的穩定結構,這些結構表現出高度的組織性和復雜性,與生命系統的特征相吻合。普利高津的工作擴展了我們對生命系統如何在動態過程中維持其復雜性的理解,可以視為是對薛定諤“負熵”概念的物理和數學上的深化與擴展。

現在,探索生命及意識起源奧秘的接力棒交到了自由能原理手中,這可能是我們距離揭示生命和意識起源以及智能的奧秘最近的一次嘗試。我們發現,這與以預測為核心的大語言模型之間存在許多相似之處,對于下一代人工智能算法的開發,或許能夠帶來新的的洞見和啟示。

自由能原理(Free Energy Principle, FEP),由當前全球最具影響力的理論神經科學家 Karl Friston 提出,它揭示了生物系統如何通過最小化內部狀態與外部環境預期之間的差異,即最小化自由能,來實現與環境的和諧共存和維持內部穩態。這一理論在過去二十年間不斷深化,其理論基礎根植于生物物理學和系統生物學,廣泛應用于神經科學、認知科學和心理學領域,并對新一代人工智能算法產生了深遠的影響。

圖2. 達爾文,薛定諤,普利高津,和Karl Friston 。|來源于網絡

基于自由能原理的主動推理(ActiveInference)提供了一個統一的框架,用于建模感知、學習和決策過程。在這一框架中,感知和行動被視為推斷過程的一部分。主動推理進一步闡釋了這一過程,它不僅包括被動適應環境,還涉及主動通過行為改變環境,以實現預期狀態。

主動推理理論的核心觀點是,生物體的認知和行為都遵循相同的規則,即最小化感官觀測的驚奇(surprise)。驚奇是衡量智能體當前感官觀測與偏好觀測之間的差異的指標。

在主動推理框架下,感知過程可以看作是調整智能體腦中的信念,使其與觀測盡可能一致。例如,當我們在路上行走,遠看一個人影,走近后發現其實是一棵樹,我們就更新了之前的錯誤信念。另一方面,行動過程則是通過改變世界,使感官觀測與我們的信念(腦中的先驗信念、偏好、表現型)盡可能一致。比如,我們在路上行走時突然遇到大雨,為了避免被雨淋濕(這可以看作是我們腦中的先驗信念),我們會迅速尋找避雨的地方,通過行動改變了感官觀測,使世界狀態與我們的預期相符。

主動推理理論框架可以通過兩條路徑來理解:一條是更貼近日常直覺的貝葉斯路徑(Low road),另一條是更符合底層原理的物理路徑(Highroad)[6]。接下來,我將簡要介紹這兩條道路的思路和邏輯。關于這兩條道路的更深入內容,將在后續的文章中進行詳細討論。

圖3. 主動推理的兩條路徑:貝葉斯路徑(Low road)和物理路徑(Highroad)

2. 主動推理的第一條道路:從貝葉斯定理出發

在介紹貝葉斯定理的主動推理路徑之前,我們首先需要區分一組關鍵概念:生成過程(Generative Process)與生成模型(Generative Model)。生成過程指的是現實世界中實際發生的事件過程,反應了現實世界的真實狀態以及這些狀態如何決定我們的觀測結果。相對地,生成模型則是智能體(無論是人類還是人工智能系統)對世界的信念和理解的內部表示。

圖4. 生成過程和生成模型

由于我們無法直接知曉真實世界的生成過程,只能依據觀測到的有限信息來構建對真實世界的認知。智能體通過這些觀測信息在其大腦中構建一個模型,力圖盡可能地復原外部世界的生成過程。在人工智能領域,這種內部構建的模型有時也被稱為“世界模型”。

古希臘哲學家柏拉圖提出過一個著名的洞穴思想實驗,拋開更深層次的隱喻,這里不太嚴謹的借用這個實驗進行舉例:想象一個深洞穴,里面有一群囚徒自出生以來就被鎖鏈束縛,面朝墻壁,不能轉身看到背后。在他們背后有一堆火,火光將洞穴外走過的人和手持物體的影子投射到囚徒面前的墻壁上。由于囚徒只能看到這些影子,他們便認為影子是現實世界的全部。其中生成過程對應外面士兵及他手持的三維物體的運動,這是現實世界狀態的真實演變。而洞穴中的囚徒所看到的,不過是這些三維物體在墻上的二維投影,這構成了囚徒頭腦中的生成模型。囚徒所能做的就是通過陰影來推斷物體的真實形態。

圖5. 柏拉圖洞穴思想實驗

這種根據已知觀測信息去推斷未知信息(在這里指世界背后的真實狀態)的過程就是貝葉斯定理的核心思想。例如,當我們從遠處辨認一個模糊的輪廓時,我們可以運用貝葉斯定理來評估這個輪廓是人還是樹的概率,并據此做出推斷,這個過程通常是在我們大腦的潛意識中自動完成的,并不需要進行刻意的、有意識的計算。這種由觀察結果反推原因的方法,展示了智能體如何利用已有的信念和新的觀測數據不斷更新對世界的理解。

例如,我們的視覺感知不僅僅是被動地接收外界的信息,而是包含了一個主動的推斷過程。在一些情況下,如果呈現給我們的視覺信息是模糊或誤導性的,大腦會根據以往的經驗和預期來做出推斷,導致我們“看到”一些實際上并不存在的事物。一個例子是著名的“繆勒-萊爾錯覺”(Müller-Lyer illusion),兩條相同長度的線因為箭頭的指向不同,給人造成了長度不同的錯覺。

圖6. 繆勒-萊爾錯覺

19世紀德國物理學家赫爾曼··亥姆霍茲(Hermannvon Helmholtz)是首位將大腦比作一個假設檢驗機器的科學家。他提出,人類的感知系統可以被視為一個統計推斷引擎,功能是根據感官輸入來推斷最可能的原因。亥姆霍茲對產生知覺的“物理活動”進行了如下描述:“(它們)一般不是有意識的,而是無意識的。就結果來看它們就像推理活動,因為我們是從觀察到的感官結果得出這種結果的原因。即使我們實際上只能直接接觸神經層面的事件,也就是說,我們感知到的是感官結果,而不是外部對象?!保êツ坊羝?,1867年,翻譯來自《預測心智》一書中文版)

到了20世紀末,Peter Dayan和Geoffrey Hinton在他們的開創性工作“sleep-wake算法”和“亥姆霍茲機”中[1,2],將熱力學與統計物理學中的自由能概念引入機器學習領域。在熱力學中,亥姆霍茲自由能定義為系統的能量減去其熵與絕對溫度的乘積,用公式表示為 F=U-TS,其中U是系統的內能,T是溫度,S是熵。在機器學習中引入變分分布后,變分自由能的概念被提出,它可以視為熱力學自由能的信息論同構物。變分自由能通過結合模型的生成概率和觀測數據的概率分布,為學習算法提供了一個優化目標。在這一框架下,變分自由能的最小化等價于數據的最大似然,這使得學習過程可以看作是在尋找能夠最好解釋觀測數據的模型參數。

進入21世紀,這一關于感知推斷的視角得到了進一步的發展,形成了所謂的“貝葉斯大腦假說”,它將大腦的感知和決策過程視為一個貝葉斯推斷的過程。這一假說認為,大腦不斷地根據先驗知識和新的感官證據更新其對世界的估計和預測。

圖7. “貝葉斯大腦假說”將大腦的感知和決策過程視為一個貝葉斯推斷的過程。

上圖是貝葉斯定理的數學形式,貝葉斯定理是概率論中的一條重要定理,告訴我們如何依據觀察到的結果逆向推斷出潛在原因,可以看作是一種由果溯因的推理方式。以貝葉斯定理為基礎,我們可以將智能體的感知和行動過程視為貝葉斯推斷的實踐。在感知方面,我們根據觀測到的狀態來推斷和更新對世界真實狀態的估計;而在行動方面,我們依據自身的偏好和信念來推斷應采取的行動。

然而,從公式中可以看到僅憑貝葉斯公式直接獲得狀態的后驗估計面臨一個復雜的數學挑戰。觀測的邊際概率P(B)需要對所有可能的狀態進行積分才能得到。為應對這一難題,我們引入一個近似的后驗分布,將推斷問題轉化為最優化問題:尋找一個近似后驗分布,使其盡可能地接近真實后驗分布。變分自由能作為衡量兩者距離的上界,我們的目標便轉變為最小化這一變分自由能,以此達到優化推斷的目的。關于變分貝葉斯更詳細的內容以及具體的公式推導會在后續系列文章中進行介紹。

感知、模型學習和動作選擇均可以理解為追求最小化自由能的過程。在這一過程中,感知與模型學習主要依托于當前及歷史觀測數據,而動作選擇則著眼于未來還未發生的觀測數據。在主動推理的框架下,根據時間維度的劃分,自由能被分解為兩個部分:一部分是著眼于過去的變分自由能,它涉及對現有和歷史數據的分析;另一部分是著眼于未來的期望自由能,它關乎通過行動使得未來的觀測數據符合預期信念。

從貝葉斯定理演進到主動推理的道路中,我們看到了什么是自由能,以及如何最小化自由能。然而,一個更深層次的問題尚未得到解答:為何我們會追求最小化自由能,或者說,為何生物體要致力于最小化驚奇(surprise)?為了深入這一問題,我們需要將視野提升至更高層次——透過隨機動力系統這一數學物理視角,我們將看到生物體得以存在的必要條件就是最小化自由能。

通過這種高層次的分析,我們開始理解,自由能最小化不僅是一個數學上的概念,而是生物體適應環境、維持內部穩態、并有效預測未來事件的關鍵機制。這一原理指導著生物體如何通過內部模型來預測和解釋外部世界,從而在不斷變化的環境中生存和延續。

3. 主動推理的第二條道路:從隨機動力系統出發

生物系統可以被視為一個處于非平衡穩態的開放系統,它們不斷地與外界交換物質和能量。在數學上,這類系統可以被建模為隨機動力系統,以捕捉其內在的動態性和隨機性。其中,“非平衡”指的是系統與外界之間有能量或物質的交換,意味著系統不是封閉的,也不是靜止的,而是處于持續的變化之中。而“穩態”則指盡管有交換發生,系統的一些宏觀性質在一定時間內相對穩定,表現出一種動態的平衡。這種穩定性是通過系統內部的調節機制和反饋循環實現的,使得生物系統能夠在面對環境變化時保持功能和結構的連貫性。

一個典型的例子就是人體的體溫調節。無論外部環境如何變化,人體的生理機制都能通過調節血管的擴張與收縮、汗腺的分泌以及代謝率等,保持體溫在大約37攝氏度的恒定水平。

從隨機動力系統出發的自由能原理路徑想要回答的一個核心問題就是,生物系統如何抵抗外界環境波動所帶來的耗散效應?換句話說,外界環境在不斷變化,如果生物系統不能抵抗這種變化維持內部狀態的穩定就會死亡。有兩種方式可以維持內部狀態的穩定,一種方式是改變內部狀態降低對環境的“驚奇”,也就是內部狀態應該盡可能準確預測外部的環境狀態,另一種方式是通過行動改變外界狀態使得內部狀態維持在預期的范圍內。

還是以體溫調節為例,設想你穿著短袖衣物站在冰天雪地的戶外,短期內,你的身體會通過內在的調節機制來保持體溫接近37攝氏度,這是人體的理想內穩態。這一過程涉及到改變身體的內部狀態,以適應外部環境的挑戰。然而,如果長時間暴露在如此惡劣的低溫環境中,即便是最健康的身體也終將無法承受,無法繼續維持這一內穩態,最終導致死亡。幸運的是,與單純的內部調節相比,我們還擁有另一種強大的能力——通過行動來改變環境狀態,進而維持體內溫度的穩態。例如,我們可以增添衣物,或是尋找一個溫暖的地方避寒。這些行動改變了我們所處的環境條件,幫助我們維持了體內溫度的穩定。

需要注意的是,這個例子雖然直觀,但它簡化了實際情況。實際上,身體對內部狀態的調節不僅關注于當前時刻的狀態,而是著眼于整個隨機動力系統的穩態分布。這種穩態分布受到智能體感知過程和行動策略的影響,不同的感知過程或行動策略可能會導致不同的穩態分布。概括來說,生物體通過復雜的內在調節和行為適應,不斷尋求在變化的環境中保持穩態。而那些不那么幸運的生物系統,由于不能有效使穩態分布的熵達到最小化,在自然選擇的過程中難以存續。

圖8. 系統的狀態可分為四類:代表外部環境的外部狀態(external state)、智能體的觀測狀態(sensation state)、內部狀態(internal state)以及動作狀態(action state)。

以上提供了一種直觀的理解,從更正式的隨機動力系統的角度出發建模生物系統,我們可將系統的狀態分為四類:代表外部環境的外部狀態、智能體的觀測狀態、內部狀態以及動作狀態。在感知過程中,觀測狀態映射到內部狀態,在采取行動策略時,內部狀態映射到動作狀態。智能體的觀測狀態和動作狀態共同構成了所謂的馬爾可夫毯(Markov blanket)。在給定馬爾可夫毯的條件下,智能體的內部狀態與外部環境狀態在統計上是獨立的。這種獨立性為智能體提供了一種基礎,使其能夠抵抗環境擾動帶來的耗散效應。

正如薛定諤指出,生命系統擁有一種非凡的能力:它們能夠抵御外界環境的干擾,違背熱力學第二定律所描述的自然趨勢,維持自身的有序狀態。相較之下,非生命系統往往因無法抵御這些干擾而走向解體。以雪花的消融為例,當它從高空飄落,接近地面時,溫度逐漸升高使其融化成雨滴。我們可以說雪花這個物體由于不能抵抗外界溫度的升高維持內部狀態的穩定從而走向消亡,設想如果雪花能裝上一雙翅膀,向上飛行,它就能保持原有的形態。

這里,我們所要探討的問題不僅是生命系統如何能夠抵御外界的干擾,更重要的是,一個系統需要滿足哪些條件,才能具備這種抵御能力,從而成為我們所理解的生命。答案是只有那些能夠最小化自身自由能的系統,才能有效抵抗環境的擾動,持續存在。

圖9. 生命系統擁有一種非凡的能力,能夠抵御外界環境干擾,維持自身的有序狀態,而像雪花這樣的非生命系統則不能。

從系統生物學的角度,生命體可以類比為一個處于穩態分布的隨機動力系統[4,5]。在這個系統中,我們假設存在可遍歷(ergodic)的隨機動態吸引子(random dynamical attractor),意味著有一組經常被訪問的吸引狀態。還是以體溫為例,它不會進行無序的隨機游走,而是在某個特定值附近波動。該動力系統在長時間演化下,這些吸引狀態的時間平均可以代表狀態的分布密度,這個密度被稱為遍歷密度(ergodic density),遍歷密度可以通過Fokker-Planck方程的穩態解得到(Fokker-Planck方程表示連續時間隨機過程的概率密度函數的演化)。借助于遍歷密度的概念,我們得以進一步利用香農熵來定義隨機動力系統的遍歷熵(ergodic entropy)。遍歷熵是對系統長期行為的統計特性的一種度量,它可以被理解為當時間趨向于無窮大時,系統狀態的“驚奇”路徑積分。在這里,“驚奇”(surprise)指的是狀態的負對數似然概率(即-lnp(s)),一個狀態的驚奇越大,該狀態發生的概率越小。

圖10. 生命體可以類比為一個處于穩態分布的隨機動力系統,我們假設這個系統中存在可遍歷的隨機動態吸引子。

智能體應該使得系統的遍歷熵保持在一個盡可能低的水平。然而,由于智能體無法直接訪問外部狀態,因此需要通過最小化觀測狀態的熵,間接地實現對外部隱藏狀態熵的控制。為了使觀測狀態的熵盡可能低,系統需要在內部狀態中包含盡可能多的關于外部狀態的信息,實現對觀測狀態盡可能準確的預測,這等同于最小化觀測狀態的“驚奇”度。換句話說,智能體的感知和動作應該旨在最小化“驚奇”。自由能可以視為感官驚奇的一個上界。因此,通過最小化自由能,智能體實際上也在最小化其“驚奇”。

通過改變感知過程和行動策略,系統能夠有效降低自由能,隱含地使得該系統能夠將外部狀態的“驚奇”最小化,同時使得系統的熵達到最小化,從而維持其有序的存在狀態。用一個簡單的比喻來說,想象一個在森林中尋找食物的動物。如果這個動物能夠預測食物出現的地方(比如通過觀察其他動物的行為或者環境的線索),它就可以更有效地找到食物,而不是在森林里隨機游蕩。通過最小化自由能,動物實際上是在最小化尋找食物時的“驚奇”和不確定性,確保自己能夠生存下去。

由此可以看出,最小化自由能是生物系統為了生存和適應環境所演化出的一種必要機制。這一過程將問題從“生物體需要如何行動來獲取食物”轉變為“為了生存,生物必須執行哪些行動”。可以通過物理學哈密頓力學中局部視角和全局視角進行類比。局部視角關注于粒子在相空間中遵循哈密頓正則方程的具體演化過程。相對地,全局視角——即哈密頓的最小作用量原理——表明,在所有可能的運動路徑中,真實的系統演化路徑是那條使得作用量取極小值的路徑。同樣地,智能體采用使自由能取最小值的方式進行感知和行動,這也為什么自由能原理被譽為統一生物體感知和行動的第一性原理。

至此,我們分別從底層路徑和頂層路徑介紹了自由能原理及主動推理框架的基本思想。作為一種高度抽象的底層原理,自由能原理在認知科學與神經科學領域等具有廣泛應用,我們將在下一篇繼續介紹。

參考文獻

1. HintonG E, Dayan P, Frey B J, et al. The" wake-sleep" algorithm forunsupervised neural networks[J]. Science, 1995, 268(5214): 1158-1161.

2. DayanP, Hinton G E, Neal R M, et al. The helmholtz machine[J]. Neural computation,1995, 7(5): 889-904.

3. FristonK, Kilner J, Harrison L. A free energy principle for the brain[J]. Journal ofphysiology-Paris, 2006, 100(1-3): 70-87.

4. FristonK, Ao P. Free energy, value, and attractors[J]. Computational and mathematicalmethods in medicine, 2012, 2012.

5. KarlF. A free energy principle for biological systems[J]. Entropy, 2012, 14(11):2100-2121.

6. ParrT, Pezzulo G, Friston K J. Active inference: the free energy principle in mind,brain, and behavior[M]. MIT Press, 2022.

7. ClarkA. Surfing uncertainty: Prediction, action, and the embodied mind[M]. OxfordUniversity Press, 2015.

8. Hafner D, Ortega P A, Ba J, et al. Action and perception asdivergence minimization[J]. arXiv preprint arXiv:2009.01791, 2020.

9. Mazzaglia P, Verbelen T, ?atal O, etal. The free energy principle for perception and action: A deep learningperspective[J]. Entropy, 2022, 24(2): 301.

本文為科普中國·創作培育計劃扶持作品

作者:牟牧云

審核:張江 北京師范大學系統科學學院教授

出品:中國科協科普部

監制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

來源: 創作培育計劃

內容資源由項目單位提供