最近,Figure AI 發布了首個通用視覺-語言-行動(VLA)模型——Helix,其能像人類一樣推理,將感知、語言理解和學習控制融為一體,可以通過自然語言直接控制人形機器人整個上半身。
Helix 可以在沒有任何特定任務演示或大量手動編程的情況下,快速生成長程、協作性的靈巧操作。其實現了多個“首個”:
完整的上半身控制:Helix 是首個能夠對整個人形上半身(包括手腕、軀干、頭部和單個手指)輸出高速率連續控制的 VLA。
多機器人協作:Helix 是首個可在兩個機器人上同時運行的 VLA,使它們能夠解決共享的長程操作任務,操作它們從未見過的物品。
可直接商用:Helix 是首個在完全板載嵌入式低功耗 GPU 上運行的 VLA,可立即投入商業部署。
配備了 Helix 的 Figure 機器人只需根據自然語言提示,就能拾取幾乎任何小型家用物品,包括數以千計它們從未見過的物品。
例如,當被要求“拾起沙漠中的物品”時,Helix 會識別出玩具仙人掌,選擇最近的手,并執行精確的運動指令將其牢牢抓住。
與之前的方法不同,Helix 使用一組神經網絡權重來學習所有行為——拾取和放置物品、使用抽屜和冰箱以及跨機器人交互——而無需針對具體任務進行微調。
Figure AI 在 X 上表示,“機器人的功能如果不發生重大變化,就無法進入家庭領域,現在,我們的機器人幾乎可以處理任何家庭用品。”
人形機器人的“New Scaling”
家庭是機器人技術面臨的最大挑戰。與受控的工業環境不同,家庭中充斥著無數物品——精致的玻璃器皿、皺巴巴的衣物、散落的玩具——每件物品的形狀、大小、顏色和質地都難以預測。機器人要想在家庭中發揮作用,就必須能夠按需生成智能的新行為,尤其是針對它們從未見過的物體。
當前的機器人技術如果不作出重大改變,就無法在家庭中使用。目前,即使是教機器人學會一種新行為,也需要大量的人力:要么是數小時的博士級專家手工編程,要么是數千次的演示。如果考慮到家庭問題的實際規模,這兩種方式的成本都非常高。
圖|獲取機器人新技能的不同方法的 Scaling 曲線。在傳統的啟發式操作中,技能會隨著手動編寫腳本的博士們而增長;在傳統的機器人模仿學習中,技能隨著收集到的數據增長;而在 Helix 中,新技能可以用語言即時指定。
Figure AI 團隊認為,人工智能的其他領域已經掌握了這種即時泛化的方法,如果能夠簡單地將視覺語言模型(VLM)中捕捉到的豐富語義知識直接轉化為機器人動作,將從根本上改變機器人技術的發展軌跡。
突然間,只需用自然語言與機器人對話,就能立即獲得曾經需要數百次演示的新技能。但關鍵問題是:他們如何從 VLM 中提取所有這些常識性知識,并將其轉化為可通用的機器人控制呢?
于是,他們構建了 Helix。
Helix:用于整個上半身控制的“系統 1、系統 2”VLA
Helix 是首創的 “系統 1、系統 2 ”VLA 模型,用于對整個仿人上半身進行高速、靈巧的控制。
之前的方法面臨著一個基本的權衡:VLM 骨架通用但不快速,而機器人視覺運動策略快速但不通用。Helix 通過兩個互補系統解決了這一問題,這兩個系統經過端對端訓練,可以進行通信:
系統 2:經過互聯網訓練的板載 VLM,工作頻率為 7-9 Hz,用于場景理解和語言理解,可廣泛應用于各種物體和環境。
系統 1:快速反應視覺運動策略,將系統 2 生成的潛在語義表征轉化為 200 Hz 的精確連續機器人動作。
這種解耦架構允許每個系統以其最佳時間尺度運行。系統 2 可以“慢思考”高層次目標,而系統 1 則可以“快思考”實時執行和調整動作。例如,在協作行為中,系統 1可快速適應伙伴機器人不斷變化的動作,同時保持系統 2 的語義目標。
與現有方法相比,Helix 的設計具有幾大優勢:
速度和通用性:Helix 的速度可與專門的單任務行為克隆策略相媲美,同時還能對數千個新測試對象進行零樣本泛化。
可擴展性:Helix 可直接輸出高維動作空間的連續控制,避免了先前 VLA 方法中使用的復雜動作 token 化方案,這些方案在低維控制設置中取得了一定成功,但在高維仿人控制中面臨擴展挑戰。
結構簡單:Helix 使用標準架構——系統 2 使用開源、開放權重的 VLM,系統 1 使用基于 transformer 的簡單視覺運動策略。
關注分離:將系統 1 和系統 2 分離開來后,可以分別對每個系統進行迭代,而不必受制于尋找統一的觀察空間或動作表示法。
模型和訓練細節
1.數據
他們收集了一個高質量、多機器人、多操作員的數據集,其中包含各種遠程操作行為,總計約 500 小時。為了生成受自然語言約束的訓練對,他們使用了自動標注 VLM 來生成后見(hindsight)指令。VLM 處理來自機載機器人攝像頭的分段視頻片段,并給出提示:“你會給機器人下達什么指令,以實現視頻中的動作?所有在訓練過程中處理過的項目都不在評估范圍內,以防止污染。
2.架構
這一系統由兩個主要部分組成:系統 2 是 VLM 骨干,系統 1 是潛條件視覺運動 transformer。系統 2 基于一個 7B 參數的開源、開放權重 VLM,并在互聯網規模的數據上進行了預訓練。它將單目機器人圖像和機器人狀態信息(包括手腕姿勢和手指位置)投射到視覺語言嵌入空間后進行處理。結合指定所需行為的自然語言指令,系統 2 將所有與任務相關的語義信息提煉為一個連續的潛在向量,并將其傳遞給系統 1,作為其底層動作的條件。
系統 1 是一個 8000 萬參數的交叉注意力編碼器-解碼器 transformer,用于處理底層控制。它依靠一個完全卷積、多尺度的視覺骨干網進行視覺處理,該骨干網由完全在模擬中完成的預訓練初始化而成。系統 1 接收與系統 2 相同的圖像和狀態輸入,但處理頻率更高,以實現反應更靈敏的閉環控制。來自系統 2 的潛向量被投射到系統 1 的 token 空間,并與來自系統 1 視覺骨干的視覺特征沿序列維度進行串聯,從而提供任務條件。
系統 1 以 200hz 的頻率輸出完整的上半身仿人控制,包括所需的手腕姿勢、手指彎曲和外展控制,以及軀干和頭部方向目標。他們在動作空間中添加了一個合成的“任務完成百分比”動作,使 Helix 能夠預測自己的終止條件,從而更容易地對多個學習行為進行排序。
3.訓練
Helix 采用完全端到端訓練方式,通過標準回歸損耗將原始像素和文本指令映射為連續動作。梯度通過用于調節系統 1 行為的潛在通信向量從系統 1 反向傳播到系統 2,從而對兩個組件進行聯合優化。Helix 無需針對特定任務進行適應性調整;它只需保持單一的訓練階段和單一的神經網絡權重集,而無需單獨的動作頭或每個任務的微調階段。
在訓練過程中,他們會在系統 1 和系統 2 輸入之間添加一個時間偏移。該偏移量經過校準,與系統 1 和系統 2 部署推理延遲之間的差距相匹配,確保在訓練中準確反映部署過程中的實時控制要求。
4.優化的流推理
Helix 的訓練設計可在 Figure 機器人上實現高效的模型并行部署,每個機器人都配備了雙低功耗嵌入式 GPU。推理流水線分為系統 2(高級潛規劃)和系統 1(低級控制)模型,每個模型都在專用 GPU 上運行。系統 1 作為異步后臺進程運行,消耗最新觀測數據(機載攝像頭和機器人狀態)和自然語言指令。它不斷更新共享內存中的潛在向量,該向量對高級行為意圖進行編碼。
系統 1 作為一個獨立的實時進程執行,維持著整個上半身平滑動作所需的關鍵 200Hz 控制回路。它同時獲取最新的觀測數據和最新的系統 2 潛在向量。系統 2 和系統 1 推理之間固有的速度差異自然會導致系統 1 以更高的時間分辨率處理機器人的觀察結果,從而為反應控制創建更緊密的反饋回路。
這種部署策略有意反映了訓練中引入的時間偏移,最大限度地縮小了訓練-推理分布差距。異步執行模型允許兩個進程以各自的最佳頻率運行,允許以最快的單任務模仿學習策略速度運行 Helix。
表現怎么樣?
1.精細的 VLA 整個上半身控制
Helix 能以 200Hz 的頻率協調 35-DoF 的動作空間,控制從單個手指運動到末端執行器軌跡、頭部注視和軀干姿勢等一切動作。頭部和軀干控制帶來了獨特的挑戰,因為它們的移動會同時改變機器人所能觸及的范圍和所能看到的范圍,從而形成反饋回路,這在歷史上曾造成不穩定。
機器人在調整軀干以獲得最佳觸及范圍的同時,還能用頭部平穩地跟蹤雙手,同時保持手指的精確控制以進行抓取。從歷史上看,在如此高維的動作空間中實現如此高的精確度,即使是對單個已知任務而言,也是極具挑戰性的。研究團隊表示,目前還沒有任何 VLA 系統能夠在保持跨任務和跨對象通用能力的同時,實現如此程度的實時協調。
2.零樣本多機器人協調
他們在一個極具挑戰性的多機器人操控場景中將 Helix 推向了極限:兩個 Figure 機器人之間的協作零樣本雜貨存儲。
結果顯示,機器人成功地操縱了全新的雜貨——在訓練過程中從未遇到過的物品——展示了在不同形狀、尺寸和材料上的強大泛化能力。此外,兩個機器人使用相同的 Helix 模型權重進行操作,無需進行特定的機器人訓練或明確的角色分配。它們通過自然語言提示實現協調,例如“將一袋餅干遞給你右邊的機器人”或“從你左邊的機器人手中接過一袋餅干并將其放入打開的抽屜”。這標志著首次展示了多個機器人使用 VLA 進行靈活、擴展的協作操縱,特別是在成功處理全新物體方面意義重大。
3.智能涌現——“撿起任何東西”
他們發現,配備 Helix 的 Figure 機器人只需接收“拿起 [X]”的指令,就能拿起幾乎任何小型家用物品。在系統測試中,機器人成功處理了雜亂物品中的數千件新奇物品——從玻璃器皿和玩具到工具和衣物——而無需任何事先演示或定制編程。
尤其值得注意的是,Helix 是如何在互聯網規模的語言理解和精確的機器人控制之間架起橋梁的。例如,當提示“拿起沙漠中的物品”時,Helix 不僅能識別出符合這一抽象概念的玩具仙人掌,還能選擇最近的手,并執行精確的運動指令,牢牢地抓住它。
這種通用的“從語言到行動”的抓取能力為在非結構化環境中部署人形機器人開辟了令人興奮的新可能性。
“僅僅觸及了可能的表面”
在這項研究中,Helix 展現出了訓練效率高且僅需要單一權重集的特點。
在訓練效率方面,Helix 以極少的資源實現了強大的對象泛化能力。研究團隊總共使用了約 500 小時的高質量監督數據對 Helix 進行訓練,其規模僅為之前收集的 VLA 數據集的一小部分(<5%),并且不依賴于多機器人-具身收集或多階段訓練。他們注意到,這種收集規模與現代的單任務模仿學習數據集更相近。盡管對數據的要求相對較低,但 Helix 仍能擴展到更具挑戰性的上半身人形控制動作空間,并提供高速率、高維度的輸出。
同時,Helix 只需一個統一的模型,就能在不同任務中實現強大的性能。只需使用一組神經網絡權重(系統 2 為 7B,系統 1 為 8000 萬),Helix 就能在各種容器中拾取和放置物品,操作抽屜和冰箱,協調靈巧的多機器人交接,并操控數千種新奇物品。
研究團隊表示,雖然這些早期成果確實令人興奮,但這僅僅觸及了可能的表面。他們急切地想知道,當他們將 Helix 的規模擴大 1000 倍甚至更多時會發生什么。
整理:學術君
來源: 學術頭條