當下,大語言模型似乎具備了與人交流對話的能力,不僅如此,大語言模型還能飛速完成很多人類需要花更多時間才能完成的文字生成任務,比如,寫篇總結文章、作首詩、寫段Rap。然而,大語言模型的推理能力卻引起了很多爭議,近兩年來的很多測試顯示,大模型在計數、符號推理、算術推理、子集求和、幾何推理等方面的表現都不理想。

反復“刷題”,或導致數據污染

為了提高大模型的推理能力,Open AI發布了一個名為GSM8K的數據集,這個由人類寫手創造的數據集包含了8000多個小學數學問題和答案,其中有7473個訓練問題和1319個測試問題。對于人類而言,這些問題只需用到簡單的加、減、乘、除運算,通過2-8個步驟,就可以得出最終答案。

經過不斷地訓練和調整,大語言模型在面對GSM8K時,性能已經有了顯著提高。但這是否真的意味著大模型的數學推理能力變強了?一種質疑是,由于這個數據集的題目固定且被拿來反復使用,很可能出現數據污染——用于測試的例子同時也被包含在了模型的訓練數據中。所以,即使測試結果變得更好了,也不能確認這些大語言模型的數學推理能力真的提高了。

微調題庫,測試應變能力

今年10月,蘋果公司發布的一項測評證實了這一質疑的合理性。為避開GSM8K可能導致的數據污染,蘋果公司的研究人員想出了一個好辦法,他們給出了一個在GSM8K基礎上進行微調的測試系統GSM-Symbolic。微調方式主要有3種:替換題目中的專有名詞;改變其中的數字;添加無關信息。

舉個例子,假設原題庫中的題目是這樣的:

小明周五釣了6條魚,周六釣了15條魚,周日釣到的魚是周五的2倍,問小明總共收獲了多少條魚?

GSM-Symbolic對這道題采取以下3種方式進行微調:或是把原題中的小明換成小麗;或是把原題中6換成9,15換成23;或是增加一些無關信息,比如增加條件“周日釣到的魚中,有5條魚的重量低于平均值”。當然,還可能把這幾種微調綜合在一起?;谶@些微調,從GSM8K數據集中的題目出發,GSM-Symbolic可以千變萬化出更多題目來對大語言模型進行評估。

從人類的視角來看,這些微調策略就是我們常說的“換湯不換藥”,做過小學數學題的讀者們再熟悉不過了。所謂“不換藥”,是說微調完全沒有涉及這些數學問題的邏輯結構,只是調整了一些無關參數。

正確率大幅下滑

但正是這樣的微調,卻造成了大語言模型輸出答案正確率的大幅下滑。其中,無關信息的添加會導致所有最先進的大語言模型的性能大幅下降,降幅高達65%。

蘋果公司的研究人員基于這些測評得出結論:大語言模型既不理解這些問題中的數學概念,也不能進行邏輯推理,而僅僅是將面對的問題和訓練數據中的問題進行比較而已。

目前來看,大語言模型所得出的正確答案,主要體現了系統的記憶和匹配能力,這種應答機制更像一種模式匹配,這與人類推理的機制完全不同,也沒有遵循邏輯。

人類才懂“萬變不離其宗”

那么,人類在做小學數學推理題時,究竟啟用了哪些隱藏技能?

筆者理解至少有兩條,一是透過現象看本質的能力:人類能夠抓取或識別表層語言背后的一般性運算和推理的規律;二是由內及外、活學活用的能力:人類能夠通過非關鍵因素(比如前面提到的3種微調因素)的替換和變化展開千變萬化的實際應用。

這兩條綜合起來,就是我們常說的“萬變不離其宗”。

(作者張立英系中國科學院哲學研究所教授)

來源: 科普時報