整理撰文:
趙維杰(NSR編輯部)
袁燁(華中科技大學教授)
當馬斯克高調押注“具身智能”,當“人形機器人半馬”火遍全網,一輪新的科技浪潮正席卷而來。
然而,這一輪具身智能熱潮背后的科學支撐是否堅實?
“端到端具身大模型”“智能通用機器人”等熱門概念究竟是何含義?
具身智能產業,尤其是智能機器人產業,究竟能走多遠?
我們是否真的能在幾年內實現“一家一機器人”,從而深刻改變人類的生產與生活方式?
在這次由《國家科學評論》編委、華中科技大學丁漢院士主持的討論中,七位活躍在具身智能和機器人領域的頂尖研究者齊聚一堂,圍繞以機器人為載體的具身智能領域,就其技術基礎、發展形勢、當前挑戰等展開深入討論。
討論專家
丁漢(主持)
華中科技大學機械科學與工程學院教授,中國科學院院士
王耀南
湖南大學電氣與信息工程學院教授,中國工程院院士
陳啟軍
同濟大學電子與信息工程學院教授,中國自動化學會具身智能專業委員會主任委員
方勇純
南開大學副校長、人工智能學院教授
王 鶴
北京大學計算機學院助理教授,北京銀河通用機器人公司創始人、CTO
熊 蓉
浙江大學控制科學與工程學院教授
徐 靜
清華大學機械工程系長聘副教授
人工智能,讓機器人智能化、通用化
丁漢:具身智能是一個廣義的科學概念,任何具備物理形態,并可以感知外界環境、與外界進行交互的智能系統,都可以歸入具身智能的范疇。它強調智能體通過物理身體與環境的動態交互實現認知和行動的統一,認為物理身體不僅是智能的載體,還通過與環境的物理交互影響智能的發展和表現。
我們今天的討論重點關注智能機器人領域,因為機器人是具身智能的代表性載體,而且智能機器人已處于技術突破前夜,已展現出廣闊的應用前景。
讓我們首先來討論,在具身智能范疇內,人工智能是如何賦能乃至變革機器人這一載體的?
丁漢團隊研制的“荊楚一號”人形機器人(供圖:丁漢)
徐靜:傳統機器人通常依賴預設的精確模型和固定程序來執行特定任務。比如,各類工業機器人通常只能完成特定的動作序列,或加工特定類型的零件。這種模式限制了機器人的靈活性,使之難以適應復雜多變的現實場景。
相比之下,人工智能的一大特點是它具有強大的泛化能力,可以處理沒有接觸過的新場景和新任務。所以引入人工智能方法后,機器人將可以在變化的場景下自主調整行為模式,從而處理更加多樣化的任務,展現出更強的適應性和靈活性。也就是說,人工智能將推動機器人系統向更加智能化、通用化的方向發展。
王鶴:從具身智能模型的角度看,目前國際和國內的關注點主要有兩類。第一類是針對某類特定任務的“視覺驅動的具身泛化小模型”。比如我們訓練一個模型來控制靈巧手抓取物體[靈巧手:與人手結構類似、可以實現靈活操作的機械手],它就可以依據采集到的視覺信號,去抓取具有不同形狀、不同位置和不同姿態的各種物體,包括在訓練過程中沒有見過的物體。
另一類則是目前討論非常熱烈的、不針對特定任務的“端到端具身大模型”。所謂端到端,是指打破傳統機器人“感知-決策-規劃-執行”的任務步驟,利用人工智能模型,直接從傳感器信號的輸入,來輸出最終的執行操作。
端到端概念的火爆,很大程度上是由于它在自動駕駛領域的成功。目前特斯拉的端到端自動駕駛,可以從傳感器輸入直接輸出方向盤的瞬時轉動角度和油門、剎車的大小。國內幾家智駕車企的端到端模型,也已經有非常不錯的表現。
現在普遍認為,端到端是自動駕駛的最終解決方案。所以人們也開始認為,端到端的具身大模型,搭配上通用的人形機器人本體,可能會是一種很有競爭力的智能機器人的終極解決方案。
這種端到端的具身大模型,目前常被稱為“視覺語言動作模型”(Vision-Language-Action model,簡稱VLA模型)。也就是說,它可以使機器人理解人類語言發出的命令,并基于視覺信號,來執行相應任務,可以包括抓東西、擰瓶蓋、炒菜等等。
VLA這個概念是2023年谷歌發布RT-2(Robotics Transformer 2)模型時最先提出的,目前許多團隊都在積極參與研發。谷歌做出了55B參數的大規模VLA,我所在的銀河通用也開發了2.7B的端到端大模型。
目前具身大模型的研發面臨著數據量不足等一些難點,但我相信在未來,它有望統一各種泛化小模型,最后實現涌現,讓通用的人形機器人成為可能。到那時,我們可以在開放的場景中,用自然語言命令機器人去做各種任務。對于新的任務,只需要給它一個例子,它就可以舉一反三、快速學會技能,而不需要再去針對每一種技能逐一研發。
陳啟軍:引入智能技術后,我們需要思考的一個問題是,**未來機器人系統的架構應該是什么樣子的?**我認為,智能技術的飛速發展正在重構機器人系統的理論根基與架構范式。正如王鶴所說,從控制架構演進來看,傳統“感知-決策-規劃-執行”的級聯閉環正在被端到端學習模型重塑,形成一種從感知到行動之間的新的“外環”結構——這種新型“感知-行為”外環本質上建立了從多模態輸入到電機扭矩輸出的高維非線性映射,實現了由任務、環境與身體協同驅動的機器人運動模式。這要求我們超越基于微分方程的經典控制理論,發展能兼容數據驅動范式的新型系統方法。
我認為,未來的系統架構將呈現雙重變革。
第一,在控制理論層面,形成物理模型驅動與數據驅動協同的雙軌架構。在底層執行層保留經典控制方法保障基礎穩定性;在高層決策層則通過引入先進的學習策略實現復雜工況下的魯棒性與適應性。我們需探索新的數學工具,將神經網絡的泛化能力與李雅普諾夫穩定性分析有機結合。
第二,在系統拓撲層面,“腦體分離”趨勢推動計算資源動態重構,已有研究表明,采用聯邦強化學習框架時,將計算負載遷移至云端可以顯著提升本體控制器參數的更新效率。但可能需要建立新的評價體系量化網絡時延對系統穩定性的影響,以合理優化網絡通信,動態調度云端與本地的計算與交互,以獲得最優的系統性能。
專用智能機器人,已經登場
丁漢:應用于特定任務的具身泛化小模型,與各類機器人本體結合,目前已經有了一些應用實例,各位老師可以介紹一下自己團隊的進展。
陳啟軍:我的實驗室名為“機器人與人工智能實驗室(RAIL)”,通過30多年的長期積累,形成了一支穩定的研究隊伍,擁有工業機器人、服務機器人、仿人機器人、無人駕駛汽車、高性能服務器及各類測試驗證儀器、裝備和工具軟件。從早期的傳統機器人控制、到端到端感知與決策,再到如今的大模型驅動范式,我們始終致力于利用人工智能算法解決機器人的實際問題。
目前,我們團隊正在研發智能巡檢與救災機器人。盡管機器人用于巡檢與救災已經是比較常規的操作,但仍缺乏足夠的靈活性和自主性。在極端情況下,通過視覺語言機制引入人類應對不確定性的能力可能是最高效的解決途徑。我們嘗試開發了端到端的視覺語言引導機制,讓機器人也可以像人類一樣基于現場的實際情況自主決策,靈活應對各類突發和極端狀況,從而提高復雜場景下的任務完成效率。
RAIL團隊自主研發的各類移動機器人(供圖:陳啟軍團隊)
方勇純:我介紹兩項工作。首先是我們研發了一系列可以用于地下空間探索等任務的蛇形機器人。利用大模型等技術,它可以實現多模態感知,并進行路線規劃、完成控制執行。目前這些蛇形機器人已經在徐州等地進行了一些實際測試。
第二是我們正在與徐州重工合作,對吊車等移動工程機械進行具身智能化研發。希望能夠結合大語言模型和視覺模型等,讓機械能夠直接理解人類語言的命令,并根據實時的視覺感知信號,去完成復雜任務。
在這些工作的基礎上,我們正在考慮組建一個具身智能機器人實驗室,去推進各類機器人在各種環境下的學習、推理和執行能力。
南開大學團隊研制的蛇形機器人(供圖:方勇純團隊)
熊蓉:視覺伺服控制是許多機器人的一項基礎能力,是指機器人在識別到特定視覺信號后去進行某項操作。我們利用機器學習方法優化了這一過程,使之能夠在不同的場景下,高效識別具有不同特征的對象,并進行相應操作,取得了比傳統控制方法更好的效果。而且我們的系統也更能適應外部參數的變化:傳統方式中,我們把攝像機安裝到機器人身上的特定位置后,需要進行精確標定才能開展工作;而現在我們把攝像機安放在任意位置,甚至可以不安裝在機器人身上,就能直接運行。
在力學伺服控制方面,我們對經典的?Peg-in-Hole任務實現了智能化[Peg-in-Hole:釘孔裝配,指將一個物體(釘)插入另一物體(孔)]。我們通過仿真學習和真機上的強化學習,讓這個系統不再需要復雜的專家編程,就可以快速學會插拔不同形狀的對象。在真機上,對于沒有見過的新形狀的對象,一個小時的學習就可以達到99.99%的成功率,容差小于0.1毫米,并可以在實踐中繼續進化。這些參數都優于DeepMind的同類系統,達到了國際領先水平。我們的這一系統已經在2024年5月正式應用于華為的產線。
王鶴:我博士期間的主要工作是面向機器人操作的三維視覺,包括如何對已知屬于某一類別但沒有CAD模型的物體進行六維位姿估計等[位姿:位置和姿態]。2021年回到北大以后,我開始從位姿估計出發,打通后續的運動控制環節。2022年,我帶領學生參加ICLR機器人ManiSkill挑戰賽并獲得了無標注賽道的全球冠軍。這個挑戰賽設置了開抽屜、開櫥柜門、推椅子、移動水桶等4個任務,每個任務都有多達數十個不同的物體實例。
此外在靈巧手對不同物體的抓取方面,我們開發的泛化強化學習策略也獲得了計算機視覺頂會ICCV的最佳論文候選。
丁漢:近幾年,國內外涌現出大量靈巧手企業,使靈巧手的性能快速提升,價格顯著下降。人類的雙手是非常精細和神奇的造物,如果未來靈巧手經過硬件和軟件的迭代,能夠完成更多現在只有人手才能完成的精巧操作,那將是具身智能落地應用的一個標志性案例。
通用智能機器人:人形是答案?
丁漢:剛剛王鶴講到,端到端通用具身智能大模型適配的載體很可能是人形機器人。近幾年人形機器人備受關注,各類動作性表演讓大家眼前一亮。熊蓉老師團隊是國內最早開始做人形機器人的團隊之一。我們請熊老師來談一談對人形機器人發展的看法。
熊蓉:謝謝丁院士。現在人形機器人的研究確實非常熱,包括丁院士團隊在內,許多團隊都在做人形機器人,也各有特色。
可以說,人形機器人是具身智能最佳的載體,也是最大的挑戰。說它是最佳載體,是因為人形是一種通用的形態,可以在各種場景下完成各種任務。而由于人形的復雜性,它的結構自由度特別多,傳感器的數量和類型也特別多,要把它做好、讓它能夠完成更多的實際任務也就非常有挑戰性。
具身智能技術的引入,為人形機器人的發展提供了非常好的機遇。非具身的大模型是從虛擬世界中的語言、文本等數據中學習,從而獲得推理等能力;而具身智能是要從載體與環境的交互中去學習,來形成機器人的感知、規劃、決策等方面的智能。以人形機器人的行走為例,我們就是基于由物理仿真平臺生成的機器人運動數據,以及它和環境交互的數據,通過模仿學習、強化學習等方法,讓機器人學會如何行走。而且,這種擬人化的行走在魯棒性等方面的表現,已經顯著優于傳統控制方法的效果。
完成了基本的行走之后,下一步就是讓人形機器人學習更多技能、開展實際作業。我們也在這方面做了一些工作,包括研究如何將人形機器人的上下肢運動整合起來,讓它在上肢進行操作的同時保持身體穩定等。
人形機器人NAVIAI 雙臂手協同完成PCB涂覆作業(供圖:熊蓉)
王耀南:人形機器人發展很快,正處于從實驗室走向實際應用的關鍵階段。但大家也都意識到,在能夠完成一些炫酷的動作之外,當前的人形機器人在完成實際操作任務方面,與我們的期望還有很大差距。
丁漢:確實如此,我們做機器人,最終還是希望能用機器人替代人工去完成各項工作,提高生產效率、服務人類生活。在過去,工業機器人已經取代了汽車生產線上大量的焊接工人和噴漆工人,在解放人力的同時也大大降低了汽車成本。可以說如果沒有這些工業機器人,我們現在就買不到這么便宜的汽車。
而在未來,機器人要走向通用、人形機器人要場景落地,我們對它的期望應該是,它將能夠替代現在的許多“靈巧女工”,去高效率、高質量地完成各類細致的技能性的工作。這個替代肯定不會在一夜之間發生,而是需要一個一步一步慢慢發展的過程。而當前的具身智能技術發展,已經讓我們看到了希望。
難點與挑戰
【實時性、精確性、安全性】
方勇純:在將人工智能算法用于機器人領域時,我們要注意到,雖然人工智能強大的推理和交互能力,可以為機器人領域帶來巨大的提升,但是二者也具有不同的特征。當前的大模型并不能滿足機器人的一些要求,主要包括實時性、精確性和安全性。
當前的大模型通常對實時性沒有很高的要求,但是機器人的操作對此要求很高,它不能工作到一半,需要停下來想一想再繼續操作。要提升實時性,我認為可能需要在將大模型部署到本地的過程中,對其進行一定的小型化處理,通過知識蒸餾等方式,來提升響應速度。
GPT和DeepSeek等大模型的一個特點是它有一定的容錯性,你問它一個問題,它可以給出很多種相似但不相同的答案,但是機器人操作需要精確,需要給出一個“最優解”。
此外還有安全性和可靠性的問題,當前的大模型還不能保證給出的答案不出錯,不會在現實世界中引發問題。目前已經有了一些提升具身智能安全性的方法,包括引入時空約束、時序邏輯等,通過讓機器人的操作滿足這些物理約束——包括不同層級的,可能非常緊也可能相對寬松的約束——來確保操作的安全性。
【數據瓶頸:合成數據與遙操作】
王鶴:在模型開發方面,目前最主要的問題就是訓練數據不足。而解決這一問題,目前主要的思路有兩條:第一是通過真人遙操作來采集數據,第二是通過合成數據來獲取大量的虛擬數據。
特斯拉目前選擇的是第一種方式,他們雇傭了幾百、上千人去進行大規模的遙操數據采集。國內也有許多公司在進行類似的工作。但是我認為,單靠遙操作很難采集到足夠多、能夠支撐具身大模型的數據量。真人遙操可能可以獲得幾百萬條數據,但要完成通用具身大模型,很可能需要十億甚至百億量級的數據,才能獲得比較好的效果。
在自動駕駛領域,用戶在實際駕駛中的操作數據可以有效支撐模型的不斷進化。但是機器人領域不同,我們不能把一個沒有訓練好的“半成品”交付給用戶,然后要求用戶幫你去產生數據。
所以我和銀河通用的觀點是,我們應該用好仿真和合成手段。我們也堅信利用合成大數據,完全可以完成具身大模型的預訓練。我們已經發布了世界上第一個靈巧手抓取的大規模合成數據集,由此訓練的端到端VLA模型,可以接受人類語言指令,對各種各樣的物品進行抓取,無論是大象、訂書機,或者是一些很偏僻的機械領域的詞匯,比如鉸接線,它都可以很好的完成。
當然這里面還有一個問題,就是我們對視覺數據的仿真和合成已經比較成熟,但對觸覺、溫覺、聲覺等其他模態數據的仿真,還不成熟。這也是數據和模型領域的一個瓶頸。
Galbot雙臂協同用衣架掛衣服(供圖:銀河通用)
徐靜:在具身智能模型的訓練過程中,一個很重要的環節是Sim2Real,也就是如何將從仿真數據中學習到的成果遷移到現實世界中。這個過程需要探索如何將仿真信號和物理信號的差別壓縮到最小、如何讓仿真器產生的數據符合物理定律。當前的人工智能對于物理規律的理解還不足夠,所以引入相關約束是非常必要的。我的團隊也在這方面做了一些工作,開發了適用于視覺信號和觸覺信號的Sim2Real平臺,顯著提高了從虛擬到現實的遷移效率。
【多模態感知與交互:觸力覺是難點】
丁漢:機器人需要對環境進行多模態感知,視覺是其中最重要的,但肯定還需要觸覺、聲覺等其他模態。舉例來說,目前的達芬奇手術機器人主要是基于視覺的,但是人類醫生在手術中其實非常依賴手上的力學感受。如果將來能夠很好地將力學信號融入進去,我相信手術機器人的能力也會再上一個臺階。
熊蓉:機器人要完成精細操作,就不可避免地要與操作對象之間發生直接接觸,并基于接觸產生的觸力覺信號來調整操作。但是目前的觸力覺仿真平臺,包括英偉達的Isaac、卡耐基梅隆大學聯合二十多個院校推出的Genesis等,雖然已經有了很大進展,但在模擬真實性等方面的能力仍然有限。這極大地制約了機器人學習執行各項精細任務的能力。
徐靜:要提升具身智能的觸覺感知能力,也不能只依靠模型,本體的硬件也很重要。我們團隊就在從觸覺傳感器出發,嘗試構建高分辨率、高速頻響、具備實時處理能力的觸覺感知系統。
【本體技術創新】
丁漢:剛才陳啟軍老師講到,目前機器人的操作還是要依靠電機。直到今天,電機仍然是最有效的驅動方式,我們仍未找到其他高能量密度的有效替代方案。氣動肌肉等新型驅動技術,可以發表頂刊文章,但距離工業應用,路還很長。在機器人本體的基礎技術方面,一點點的進步都是非常困難的。
徐靜:目前機器人的執行確實依賴電機,但是在自然界,生物體的執行方式其實是非常多樣和有趣的。比如八爪魚等軟體動物,它們在抓取物品時利用的是觸手的物理屬性。它們柔性的觸手可以適應物體的形狀并完成抓取,而不需要通過算法去精確規劃關節的運動。包括人手,其實也是具有一定柔性的,可以在抓取過程中更好地適應對象的形狀和材質。
所以我們在機器人設計的過程中,應該更多地去借鑒這些大自然的柔性化設計,讓機器人本體更加靈活多樣。當然,這些柔性設計通常也需要精細的觸覺感知和控制,這就又回到了我們之前提到的問題。
王耀南:機器人載體對于具身智能至關重要。做好載體,才可能做好具身智能。對于物理系統的研究和創新始終不能放松。
展望未來
【原始創新:多學科交叉創造機遇】
王耀南:具身智能領域一定要注重多學科的交叉,包括信息科學、材料科學、生命科學等等。腦科學、認知科學、材料科學等領域的新發現、新技術,都應該被快速吸納到具身智能領域中來。
徐靜:確實如此。比如說,動物產生智能、進行決策的方式其實和現有的人工智能系統很不一樣。線蟲只有三百多個神經元,就可以完成很復雜的智能行為。而現有的人工智能系統需要用大量的人工神經元、大量的GPU算力才能進行決策,在能量效率、時效性等方面還都遠遠比不上生物智能。
我一直對這些問題很感興趣,也在與我們學校腦科學的老師合作進行一些研究,去探索動物的決策和學習方法。我相信對于生物智能,以及更多物理世界運行機制的理解,將可以對具身智能領域產生很大的觸動。
丁漢:生物智能非常先進也非常復雜,要在這方面有所發現并應用于具身智能系統,可能不是短期內能夠完成的事情。但是即便我們只關注短期內可以取得進展的、面向應用的具身智能領域,也非常需要來自各個領域的智慧。只有計算機、控制、機械、材料科學、腦科學等各個學科的人才聚在一起,圍繞具體的應用目標共同研究,才可能取得大的突破。
【走向實用:中國大有機會】
王耀南:在具身智能領域,我希望能聽到更多的中國聲音。在數字化轉型、新能源汽車、人工智能等新興領域,中國近年來都有非常亮眼的表現,已經實現了從跟跑到并跑,在某些細分領域甚至實現了領跑。這樣的實際案例告訴我們,在具身智能領域,中國同樣有機會提出自己創新的思路、觀點和技術路線,有機會引領整個行業的發展、率先實現產品落地。
方勇純:中國有非常好的產業鏈、非常豐富的應用場景,以及非常好的數據資源。所以我也相信,在智能駕駛、智能機器人(包括工業機器人、康復機器人等等),以及多智能體等應用領域,我國的具身智能產業都將有快速的發展。
陳啟軍:在具身智能的發展浪潮中,我們不僅要推動技術進步,還要探索創新性的應用場景。我們應當發揮想象力,充分利用具身智能學習、推理和交互能力的優勢,在工業、安全、服務、救災等領域挖掘新的突破點,并實現一些過去未曾設想的應用,讓機器人和智能系統更好地解決實際問題。
丁漢:我非常同意大家的觀點。具身智能領域的下一步發展,一定是以具體應用為導向的。在具身智能領域,中國要獲得國際影響力,我認為需要在兩個方面進行突破。
第一是要在學術上提出新的架構。傳統的架構已經不適應具身智能體系,而新的架構會是什么樣的?是端到端的方案還是其他?細節上又會怎么?這方面有很大的創新機遇。
第二是要注重系統的成本效率性價比,要能夠針對具體的應用需求,用最低成本的方式去達到最可靠的效果。
當前比較亮眼的具身智能成果,大多還是在具體的“點”上取得的進展和突破,還沒有像自動駕駛一樣,形成全面的能力和真正的社會影響力。我們所追求的,可以在各種工業和生活場景中,甚至是深海、深空等未知場景中靈活工作的未來的通用智能機器人,距離實現還有很長的路要走。
我期待看到更多的年輕人進入這個非常有前途,也非常有挑戰性的領域,為具身智能和智能機器人的發展帶來新的思路和突破。我也相信未來幾年一定是具身智能發展的一個絕佳時機,在原理和應用層面,都很可能會迎來真正的突破。
【本文是《國家科學評論》(National Science Review, NSR)Forum文章“Development of Intelligent Robots in the Wave of Embodied Intelligence”的中文版本。】
來源: 《中國科學》雜志社