在通用智能體領域,AI 正從單一任務執行邁向具備推理、多模態交互與自主學習的綜合能力,但現有強化學習訓練方法常與代理執行機制緊密耦合、遷移困難,且對系統侵入性高。

Agent Lightning 框架應運而生,實現了訓練與執行的完全解耦,幾乎無需改動代碼即可集成多種 Agent 架構,并通過統一接口與軌跡分解,將復雜交互轉化為可訓練數據,支持多場景下的靈活 RL 微調。

為了讓更多用戶了解學術界在人工智能領域的最新動態,HyperAI 超神經官網(hyper.ai)現已上線「最新論文」板塊,每天都會更新 AI 前沿研究論文。以下是我們為大家推薦的 5 篇熱門 AI 論文,同時我們還為大家總結了論文架構的思維導圖,一起來速覽本周 AI 前沿成果吧 ??

本周論文推薦

1 Agent Lightning: Train ANY AI Agents with Reinforcement Learning

本文提出了一個靈活且可擴展的框架 Agent Lightning,可對任意 AI Agent 進行基于強化學習的大語言模型訓練。與現有方法將 RL 訓練與 Agent 緊密耦合,或依賴帶掩碼的序列拼接不同,Agent Lightning 實現了 Agent 執行與訓練的完全解耦,能夠無縫對接通過多種方式開發的現有 Agent,幾乎無需修改任何代碼。

模型架構圖

論文思維導圖

2 AlphaEarth Foundations: An embedding field model for accurate and efficient global

mapping from sparse label data

本文介紹了一種名為 AlphaEarth Foundations 的地球觀測數據處理模型,旨在從稀疏標注的數據中高效準確地生成全球地圖和監測系統。該模型通過學習不同來源的空間、時間及測量數據之間的關系,生成一個通用的地理空間表示,從而在不重新訓練的情況下,在一系列的地圖評估任務中表現優于所有先前的特征化方法。

模型架構圖

論文思維導圖

3 Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

本文提出了 Cognitive Kernel-Pro,一個完全開源且在最大程度上免費的多模塊智能代理框架,旨在推動先進人工智能代理的開發與評估的民主化。實驗結果表明,Cognitive Kernel-Pro 在開源且免費的代理系統中達到當前最優水平,并超越此前領先的系統如 WebDancer 和 WebSailor,為可獲取、高性能的人工智能代理樹立了新的性能標桿。

模型架構圖

論文思維導圖

4 Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

本文提出了 LearnerAgent,一個基于大語言模型的新型多 Agent 框架,旨在模擬逼真的教學環境。為探索類人學習動態,研究團隊構建了具有心理學依據的學習者畫像,并設立無畫像的通用學習者以檢驗基礎 LLM 的默認行為。通過模擬「每周知識獲取」「每月策略選擇」「階段性測試」與「同伴互動」,研究團隊能夠跟蹤學習者為期一年的動態學習歷程。

模型架構圖

論文思維導圖

5 villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

本文提出了 villa-X,一種新型視覺-語言-潛在動作框架,旨在提升潛在動作建模能力,從而學習可泛化的機器人操作策略。實驗結果表明,villa-X 在 SIMPLER 與 LIBERO 等模擬環境中,以及在兩種真實機器人平臺上均取得了優異性能。

模型架構圖

論文思維導圖

來源: HyperAI超神經