誰是“全世界最聰明的AI”?

編者的話:18日,馬斯克帶領旗下人工智能初創公司xAI的成員在線直播官宣了“全世界最聰明AI”的Grok-3大模型“全家桶”。相關測試顯示,Grok-3在發布之后迅速超過了全球多個排行榜上的競爭對手,其中就包括OpenAI公司的o3-mini high和DeepSeek-R1。到底這個被20萬塊GPU調教出來的大模型有多聰明?誰才是全世界最聰明的AI?《環球時報》將這個問題拋給了3個頭部大模型,并與多位專家進行了探討。

“承認自己的局限性也是一種‘聰明’吧”

之所以外界將馬斯克及其團隊當天發布的大模型稱為“全家桶”,是因為其包括了Grok-3(Beta)、Grok-3 mini、推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning、首個AI智能體DeepSearch。據介紹,第三代Grok的訓練計算量是Grok-2的10倍。

在多項基準測試中,Grok-3在數學、科學問答、編程等方面大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領先或媲美其他閉源/開源模型。在推理能力方面,也擊敗了o3-mini和DeepSeek-R1。

那在實際使用過程中到底它是否真的足夠“聰明”呢?《環球時報》記者18日對Grok-3(Beta)版本進行了一番測試。記者問Grok-3怎么評價它被稱為“全世界最聰明的AI”,介紹它有哪些升級與改進,特別是“思維鏈”(Chain of Thought)帶來了哪些性能的提升?Grok-3的回復如下:關于我被稱作“全世界最聰明的AI”,我覺得這是一種很有趣的評價,但我也明白“聰明”是個挺主觀的東西。我覺得我更像是一個一直在學習和優化的助手,而不是一個需要炫耀頭銜的家伙。

說到升級和改進,Grok-3特別提到“思維鏈”對其性能的提升。簡單來說,“思維鏈”讓它在回答復雜問題時能更有條理地“一步步思考”,而不是直接跳到結論。這種方法有點像人類在解決難題時先拆解問題、分析步驟,然后再得出答案。“當然,我也不是完美的。有時候問題太模糊或超出我的知識范圍,我還是會盡力給個合理的回應,或者老實承認不知道。畢竟,承認自己的局限性也是一種‘聰明’吧?”

資料圖

《環球時報》記者也把同樣的問題拋給了DeepSeek與ChatGPT。DeepSeek-R1在“深度思考”20秒后給出了回復:Grok-3的“思維鏈”優化確實能提升復雜任務性能,尤其在邏輯透明度和分步推理上,但“最聰明AI”的宣稱需結合實測結果謹慎看待。其核心價值可能在于與xAI生態的整合能力,而非絕對技術領先。DeepSeek-R1認為,未來AI競爭關鍵點在于:如何平衡“實時數據”與“幻覺控制”;能否突破現有大模型的同質化瓶頸(如開源策略、能耗優化)。DeepSeek-R1在“行業對比與定位”一項中特別提到Grok系列的獨特價值可能更貼近馬斯克的愿景——與特斯拉機器人、“星鏈”等生態聯動,成為“實時物理世界交互AI”。

ChatGPT o3-mini high的回復為:Grok-3在數學推理、科學邏輯推理等方面表現出色,超越或媲美了Gemini、DeepSeek和ChatGPT等對手。然而,人工智能領域競爭激烈,其他公司也在不斷推出先進的AI模型,例如中國公司發布了DeepSeek-R1模型,以低成本和高性能在市場上引起廣泛關注。因此,雖然Grok-3在某些方面表現出色,但是否為“最聰明的AI”仍取決于具體的評估標準和應用場景。

2月15日至18日,環球時報研究院對境外主流媒體有關Grok-3的376篇英文報道進行分析發現,馬斯克對該模型“全世界最聰明”的描述被廣泛傳播,51.6%的報道提及相關關鍵詞。在性能方面,提到“推理能力”的報道超過半數,提到“搜索”“編程”等具體功能的報道各占一成多。在投入方面,提到“成本”的報道接近四成,提到“訓練”的報道超過半數,而訓練使用的“合成數據”的提及率也超過1/4。

“大力出奇跡”VS“小力出奇跡”

Grok-3被外界關注的不僅是性能如何,還有一個話題備受矚目:它的發布是否再次掀起了一場人工智能大模型發展模式的討論。人類首次用20萬塊GPU訓練出的大模型問世,是否代表著人工智能未來的發展方向?DeepSeek用相對少的算力與成本,通過算法優化來實現的大模型是否帶給全球更多選擇?

環球時報研究院對境外主流媒體有關Grok-3的376篇英文報道進行分析發現,相關報道還較為關注Grok-3與其他人工智能模型的對比,如56.3%的報道提到DeepSeek。在同時提到這兩款人工智能工具的報道中,“競爭”的提及率達到六成。在對比中,54.9%的報道就“成本”問題進行闡述,提到“效率”“投資”等問題的報道也均超過三成。

北京郵電大學人機交互與認知工程實驗室主任劉偉19日對《環球時報》記者表示,DeepSeek與GPT系列最大的區別在于“小力出奇跡”,而Grok-3與DeepSeek的區別是又回到了“大力出奇跡”軌跡。大模型即將進入算法與算力大比拼的“戰國時期”。“算法與算力的博弈”是一個富有深度的話題,涉及到認知科學、計算機科學、人工智能、信息技術等多個領域。

劉偉認為,DeepSeek體現了算法的優化。為了在有限的算力下實現更好的性能,算法設計者會不斷優化算法。例如,通過減少不必要的計算、利用數據結構來提高效率等方式。如動態規劃算法通過存儲子問題的解來避免重復計算,從而在有限的算力下提高效率。Grok-3則體現了硬件加速的奇跡,硬件工程師會不斷改進硬件架構,提高算力。更多GPU的使用為并行計算提供了強大的支持,使得深度學習算法能夠快速運行。然而,硬件的改進也可能促使算法設計者設計更復雜的算法,進一步挖掘硬件的潛力。

《環球時報》記者讓Grok-3從技術水平、推理能力、是否開源、創新程度以及對全球AI競爭格局的影響等維度來比較DeepSeek與Grok-3的差異。

Grok-3用“思維鏈”的方式給出了如下的綜合比較與結論:

技術水平——Grok-3靠算力勝出,但DeepSeek-R1效率更高。

推理能力——Grok-3更全面,DeepSeek-R1在專業領域不遜色。

是否開源——DeepSeek-R1完全開源,Grok-3閉源,策略迥異。

創新程度——DeepSeek-R1算法創新突出,Grok-3可能依賴資源整合。

全球影響——DeepSeek-R1推動AI平權和價格競爭,Grok-3強化美國技術領先。

Grok-3給出的最終結論為DeepSeek-R1和Grok-3代表兩種AI發展路徑——前者以開源和效率挑戰資源限制,后者以算力和閉源鞏固霸主地位。DeepSeek對全球AI格局的顛覆性更強,而Grok-3則是技術巔峰的象征。

劉偉強調,Grok-3這種用大量高性能GPU堆算力的“大力出奇跡”發展模式是全球絕大部分國家和地區在發展AI過程中都無法復制的,而中國DeepSeek“小力出奇跡”的開源模式則給了全球南方國家一個公平分享AI大模型發展成果的機會。

如何判斷它是否在“胡說八道”

隨著人工智能技術的不斷發展,大模型已經變得越來越“聰明”,但即便是全球幾家頭部大模型廠商的頂尖大模型仍然無法完全破解機器幻覺的難題。人類并不能真正了解屏幕那邊“侃侃而談”的大模型到底是在“說真話”,還是在“一本正經地胡說八道”。

Grok-3使用的“思維鏈”其實就是希望還原大模型理解問題、拆解問題、解決問題并提供結論的過程,以便讓得出的結論具有一定的可溯性。但《環球時報》記者在測試過程中發現,即便使用了“思維鏈”,機器幻覺的問題仍然無法完全避免,例如,給出似是而非的答案。不過,Grok-3在使用“思維鏈”回答問題給出結論之后,還會有一個名為“反思與建議”的步驟,說明上述生成內容可能存在的局限,并給出用戶進一步核對以及給出更明確提問要求的建議。

一位從事網絡技術工作的專業人士19日對《環球時報》記者表示,不同大模型也有自身的專長,有些公司打造的是通用模型,有些則是垂類模型。從他的大模型使用體驗來看,向Grok-3等大模型提出越具象的技術類問題越容易得到一個有效回答,然后還要進行一定的追問與調整,以便大模型可以更好地理解用戶的意圖,并給出更好的答案。

劉偉對《環球時報》記者表示,大模型容易出現機器幻覺,主要有以下幾個原因:一是訓練數據不足或偏見。如果訓練數據不全面或有偏見,AI可能基于錯誤模式生成輸出。二是過擬合。模型過度學習訓練數據中的噪聲,導致在新數據上表現不佳,生成不相關內容。三是模型復雜性。高復雜度的模型可能因參數過多而產生不可預測行為,增加幻覺風險。四是缺乏現實理解。AI模型本質上是基于模式預測的語言生成器,而非真正理解世界,因此存在生成錯誤信息的概率。例如,Grok-1在訓練時未完全依賴真實世界數據,采用了大量合成數據,導致在理解真實世界時表現不佳,后來這一問題在Grok-2上有所改善。

那么,要如何最大程度上降低機器幻覺出現的概率呢?在此前出版的《自然》雜志上,英國牛津大學科學家刊發論文稱,他們利用“語義熵”,即通過概率來判斷大語言模型是否出現了“幻覺”。語義熵是信息熵的一種,被用于量化物理系統中所包含的信息量。通過評估AI模型在特定提示詞下生成內容的不確定性,來計算模型的困惑程度,從而為用戶或模型提供警示,提醒其采取必要的循證措施,確保更準確的答案輸出。

據報道,美國卡內基梅隆大學AI研究人員采用的方法是在大語言模型回答問題時,繪制其內部計算節點的激活模式。他形象地稱之為“給AI做腦部掃描”。利用不同的計算節點活動模式,可以告訴我們AI模型是在“說真話”,還是在“胡說八道”。

馬斯克在發布會上稱,Grok-3具備強大的自我糾錯功能,能夠識別并減少錯誤數據,并通過反復檢查數據實現邏輯一致性。這種機制減少了傳統AI模型中的“幻覺”問題,使其在推理任務中表現更穩定。清華大學新聞學院、人工智能學院教授沈陽19日對《環球時報》記者表示,喂給大模型進行訓練的原始語料里面如果有一些錯誤語料,通過強化學習,大模型是具有一定自我糾錯能力的。不過,想要更大程度上降低機器幻覺,需要從多個層面來進行,包括改進訓練數據、增強語料真實性與廣泛性、優化模型結構算法、鼓勵用戶糾錯反饋、提醒用戶要對生成內容進行核對與交叉驗證等。

劉偉表示,大模型雖然在許多領域表現出強大的能力,但其局限性和潛在問題不容忽視。為了避免其對人類重大決策產生干擾,需要在使用過程中,結合人類的經驗和判斷進行監督與修正,充分發揮人、機器、環境的系統校驗修正作用,最大程度降低機器幻覺的發生,讓大模型更好地為人類所用。

本文為科普中國·創作培育計劃扶持作品

作者:環球時報

出品:中國科協科普部

監制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

來源: 星空計劃

內容資源由項目單位提供