陸奇的“大模型世界觀”

陸奇最新演講實錄:《我的大模型世界觀》刷屏了,陸總最擅長的是1到100的宏大敘事,作為AI 和 大模型的布道師,著實把國內大模型拉到了沸點。筆者也有機會借著陸總的熱度,把近期自己的一系列思考,通過這篇演講實錄串了起來。

“這個時代跟淘金時代很像,”他說道,“如果你那個時候去加州淘金,一大堆人會死掉。但是賣勺子、賣鏟子的人永遠可以賺錢。”

大模型是未來智能解決方案的新底座,兵家必爭之地,馬斯克明修棧道暗渡陳倉也是看清了形勢。但目前魚龍混雜泥沙俱下,人們得睜大雙眼看準機會點。聰明人都想賣水賣鏟子的時候,我們得考慮賣點什么給他們?產業鏈就此形成。筆者在朋友圈征詢了一下,最后大家的建議是,給這些賣水賣鏟子的人,賣房子,賣保險,賣維權服務。

陸總其實是提醒大家,不要一窩蜂做基礎大模型。筆者引申一下,做大模型你離不開產品經理的產品思維:永遠從產業鏈配套角度思考創業創新的切入點,例如創意供應鏈是大模型的最佳應用場景,不要都做chat。產品思維的本質:思考產業鏈的價值點,判斷價值變化趨勢,評估自身資源稟賦。在此意義上,中國太缺有原創思維的產品經理了。

簡單想一想,如果你沒有多大見解,你的模型能力大模型都有,或者大模型會逐步學會你所有的模型,那會怎樣?——未來,唯一有價值的是你有多大見解。

筆者留言補充了一句:首先你得處于接受這個見解的價值觀體系。筆者有幸在亞馬遜做了幾年供應鏈優化,最大三點收獲:1. 雞蛋里算出骨頭的各個層面的優化 2. 橫跨計劃與履約的自上而下的數據自驅思維 3.充分解放創新束縛的研發管理機制。

這套供應鏈數字化的方案價值巨...大,而且都是實打實生產上跑著的算法。成功的前提是亞馬遜整體企業價值觀。放到國內其他企業,難免會有“橘生淮南則為橘,生于淮北則為枳”的尷尬。究其根本,這些企業的數字化,多是聰明人的口號工程,而且口號喊多了大家也就當真了。

Ilya有個信念:如果你能高效壓縮信息,你一定已經得到知識,不然你沒法壓縮信息。所以,你把信息高效壓縮的話,you got to have some knowledge(你得有一些知識)。

筆者理解Ilya這里說的壓縮不是字面意思,而是指把書讀薄,專家看門道的意思。學習的本質是從大量相關信息中提取知識的過程,即人們常說的data -> information -> knowledge 。只有提取了知識,才算學懂了。這里的知識就是“知”和“識”,information信息是"知",學通了才是"識"。

在“OpenAI首席科學家透露GPT4技術原理”中筆者總結過:GPT在自己構造的高維語言空間中,通過預訓練,記錄了人類海量的語言實例,從中提取了無數的結構與關聯信息。這個高維的語言空間,加上訓練提取的結構與關聯信息,可以理解構成了GPT的腦。本質上看,GPT 其實是構建了一個高維的語言體系,可以將自然語言,程序語言,視覺聽覺語言,映射(或者叫編碼)到這個高維的語言空間中。高維語言空間是概率分布張成的空間。

如果哪個同學做知識圖譜,我認真跟你講,你不要用知識圖譜。我自己也做知識圖譜20多年,just don’t do that。Just pretty bad。It does not work at all。You should use Transformer。(不要那樣做。很糟糕。它根本不起作用。你應該使用Transformer。)

其實是陸總自己在微軟必應的時候,推動了必應的整個知識圖譜的構建。彼時,筆者心理曾經默默的淺薄的認為知識圖譜不靠譜,關鍵兩個問題 1. 對于知識的表達能力死板而且羸弱;2. 無法及時更新。無奈朋友圈很多朋友從事這行,筆者也沒有妄加評論。

“ChatGPT是第一個真正意義的人工通用智能”一文中,筆者提到:Transformer是足夠強大的特征提取器。僅從知識角度,GPT可以看作是一種以模型參數體現的隱式知識圖譜。知識存儲在Transformer的模型參數里:多頭注意力存儲信息的結構(相關強度,信息整合方式等);類似Query/Key/Value結構的FFN存儲知識主體。Query/Key/Value結構的FFN存儲知識主體。這解決了上文的第一個問題,而第二個問題仍在,尤其是訓練如此昂貴的前提下。

做大模型是很難的,很大難度是infra(基礎設施)。我在微軟的時候,我們每個服務器都不用網卡,都放了FPGA。網絡的IO的帶寬速度都是無限帶寬技術(Infiniband),服務器和服務器之間是直接訪問內存。

筆者非常贊同,也曾經做過這個預判:CPU -> GPU -> FPGA -> ASIC, 通用性降低,專用性提高,隨著Transformer統一神經網絡架構,針對Transformer特別優化的硬件(FPGA或者以谷歌TPU為代表的ASIC)將有機會取代GPU。

筆者還特意去圖書館翻了FPGA的專業書籍,發現一個有趣的可能性:讓GPT用VHDL設計一款針對transformer優化的FPGA應該可行。VHDL是硬件編程語言,比C語言簡單的多,還有FPGA廠家提供的IP(FFT等),模式化明顯,而這是GPT的強項。ASIC太固化了,僅適用transformer局部優化,GPU擴展能力受限,也并非針對transformer最優化,所以筆者最看好FPGA。

人和數字化的技術共同進化。Sam最近經常講,它必須要共同進化,才能達到通用智能(AGI)。通用智能四大要素是:涌現(emergence)+代理(agency)+功能可見性(affordence)+具象(embodiment)。

再說說這個“涌現”。大模型熱到了沸點,何時迎來相變?涌現需要天時地利人和,數據集質和量是天時,大并發算力是地利,transformer選型是人和。能否涌現是有偶然性和運氣成分的,撐大這個偶然性需要深度思考和反復試錯,不能有投機心理。

以“transformer選型是人和”為例,筆者剛剛在“極簡介紹大模型Transformer架構選型”一文中,闡釋了為什么Transformer Encoder 很難涌現,而Decoder則相對容易。Decoder自回歸(AR: Auto Regression)是在反復學習遣詞造句,而Encoder自編碼(AE:Auto Encoding)卻是在反復學習完形填空。

一年前的這篇論文 《 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 》https://arxiv.org/pdf/2204.05832.pdf,通過科學實驗得出結論: decoder-only 自回歸模型最快收斂并表現出最佳zero-shot 泛化能力。這可以佐證筆者這個判斷。

不是說encoder不會涌現,只是可能事倍功半,它應該擅長事后任務,分類、輿情、摘要等等。筆者這是一家之言,大家批判式參考。這個解釋,物理學不夠,需要腦科學,可惜人類還沒弄清楚自己。

最后,筆者覺得大家應該重視思想領導力(thought leadership )的價值,也就是陸總說的”未來唯一有價值的是你有多大見解“。1982年,J.J. Hopfield博士在《美國國家科學院院刊》上發表的一篇著名文章《神經網絡與具有新興集體計算能力的物理系統》,開頭是這樣說的:

鑒于神經元及其之間的電化學動力學性質(突觸),我們很容易理解利用少數神經元獲得基本生物行為的方案。我們對電子學中的這類簡單電路的理解使我們能夠規劃更大、更復雜的電路,這對于大型計算機是必不可少的。由于進化沒有這樣的計劃,因此我們需要問:大量神經元集合體執行“計算”任務的能力是否在一定程度上是擁有大量簡單神經元相互作用的自發集體結果。在由大量簡單元件構成的物理系統中,大量基本組件之間的相互作用會導致集體現象,例如磁性系統中的穩定磁性取向和磁區域,或流體流動中的渦旋模式。類似地,在簡單相互作用的神經元系統中,是否存在有用的“計算”相關的集體現象?例如,記憶的穩定性、泛化的類別構建,或時序記憶是否也是自發集體性質?本文對這個古老而基本的問題進行了新的建模,并展示了重要的計算性質如何自發產生。

GPT類大模型的智能涌現,是一場規模浩大的實驗,某種意義上是驗證了J.J. Hopfield 博士四十年前的洞見。

作者:王慶法 麻省理工學院物理系學者,數據領域專家,首席數據官聯盟專家組成員

來源: 中國科技新聞學會