“從AI開(kāi)發(fā)框架到AI芯片,再到大語(yǔ)言模型與智能體,人工智能已取得了一系列關(guān)鍵性技術(shù)突破。推理大模型使用思維鏈以及思維樹(shù)的方法,可以進(jìn)一步提高它的零樣本或者少樣本的學(xué)習(xí)能力。在自動(dòng)駕駛、通用人形機(jī)器人、科學(xué)智能等新的應(yīng)用領(lǐng)域,人工智能也在加速拓展,未來(lái)必將給我們帶來(lái)非常多的改變和影響。” 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、清華大學(xué)人工智能研究院視覺(jué)智能研究中心主任鄧志東,近日在中國(guó)科協(xié)推出的學(xué)術(shù)欄目——國(guó)家科技傳播中心學(xué)術(shù)發(fā)展講堂上發(fā)表如上觀點(diǎn)。人*工智能的迭代演進(jìn)方向*****
人工智能迭代演化路徑,從單模態(tài)的多語(yǔ)種,發(fā)展到多模態(tài),又進(jìn)一步延伸到?jīng)Q策推理與動(dòng)作空間,構(gòu)成了所謂的具身智能。由多模態(tài)大型語(yǔ)言模型(LLM)與具身智能去完成對(duì)人類(lèi)的模仿學(xué)習(xí)之后,可以進(jìn)一步通過(guò)與世界的交互學(xué)習(xí),最終發(fā)展為通用的智能體。
如今,單模態(tài)大型語(yǔ)言模型的性能持續(xù)增強(qiáng),主要關(guān)注的是其中的生成式大模型,其性能從GPT 3發(fā)展到GPT 4,實(shí)現(xiàn)了更強(qiáng)的文本閱讀理解能力。推理大模型使用思維鏈以及思維樹(shù)的方法,可以進(jìn)一步提高它的零樣本或者少樣本的學(xué)習(xí)能力。在從頭開(kāi)始的預(yù)訓(xùn)練階段,我們可進(jìn)一步增加視覺(jué)、聽(tīng)覺(jué)、信號(hào)等多種模態(tài),通過(guò)模態(tài)中實(shí)體或?qū)嵗摹胺衷~”與轉(zhuǎn)換,即可將輸入的原始模態(tài)轉(zhuǎn)換到一個(gè)隱含的連續(xù)向量空間。這個(gè)向量空間把不同的模態(tài)進(jìn)行了統(tǒng)一的學(xué)習(xí)表達(dá),進(jìn)行了語(yǔ)義對(duì)齊,就可實(shí)現(xiàn)交叉理解。這種交叉理解非常重要,也就是不僅可以針對(duì)文本的世界,還可以針對(duì)視覺(jué)的世界以及聽(tīng)覺(jué)的世界實(shí)現(xiàn)語(yǔ)義水平的理解,這樣就完成了從文本的閱讀理解到多模態(tài)的閱讀理解。**隨著多模態(tài)具身智能的快速演進(jìn),具有多模態(tài)感知與理解能力的大型語(yǔ)言模型,通過(guò)拓展動(dòng)作空間,進(jìn)一步增加手、腳,模擬人類(lèi)的移動(dòng)與操作行為與動(dòng)作,如此就可以讓LLM與生成式人工智能獲得“具身”。**利用多模態(tài)通用大模型,通過(guò)對(duì)下游感知、策略與動(dòng)作任務(wù)的微調(diào),不僅可實(shí)現(xiàn)基于多種模態(tài)的交叉理解,而且還可以實(shí)現(xiàn)復(fù)雜邏輯推理或策略?xún)?yōu)化,以及行為與動(dòng)作的生成,賦能包括自動(dòng)駕駛與人形機(jī)器人在內(nèi)的真實(shí)物理世界。在決策推理上,讓人工智能獲得復(fù)雜的邏輯推理與策略?xún)?yōu)化能力;在行為與動(dòng)作模擬上,讓它模擬人類(lèi)的移動(dòng)與操作能力,這樣就可以構(gòu)建人形機(jī)器人、自動(dòng)駕駛等等具身智能體。然而,有了智能體還不夠。智能體只是進(jìn)行了理解與模仿,也就是以人類(lèi)作為標(biāo)桿,比如我們寫(xiě)了一本書(shū),畫(huà)了一幅圖,做了一個(gè)電影,完成了一個(gè)動(dòng)作,它就把這些作為標(biāo)桿或作為自監(jiān)督訓(xùn)練樣本,在對(duì)任務(wù)及對(duì)多模態(tài)輸入進(jìn)行理解之后,跟人類(lèi)產(chǎn)生的各種文本、圖像、視頻或行為動(dòng)作進(jìn)行對(duì)齊,這就叫做模仿學(xué)習(xí)。模仿學(xué)習(xí)的意思是語(yǔ)義對(duì)齊人類(lèi)的理解與生成,這自然需要對(duì)齊特定任務(wù)中人類(lèi)的最高或較高水平。這就是預(yù)訓(xùn)練集需要高質(zhì)量數(shù)據(jù)的應(yīng)有之義。
在智能體模仿學(xué)習(xí)之后,它還要做到“青出于藍(lán)而勝于藍(lán)”,這就需要智能體以角色的方式進(jìn)入到真實(shí)世界里,與其他智能體,與物理世界,與人類(lèi)進(jìn)行交互學(xué)習(xí),也就是通過(guò)相互作用,再利用獎(jiǎng)勵(lì)模型對(duì)產(chǎn)生的后果進(jìn)行獎(jiǎng)勵(lì)或懲罰完成強(qiáng)化學(xué)習(xí)。通過(guò)這種自主的交互式學(xué)習(xí),就有可能做到“青出于藍(lán)而勝于藍(lán)”,對(duì)齊我們?nèi)祟?lèi)的最高水平,甚至超過(guò)人類(lèi)的水平。也就是說(shuō),要讓智能體利用深度強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法進(jìn)行最優(yōu)策略的自主探索,以獲得更為強(qiáng)大的通用性及泛化能力。
多模態(tài)交互式智能體貴在交互,我們要讓智能體在統(tǒng)一表達(dá)的隱含連續(xù)空間,利用對(duì)任務(wù)及對(duì)時(shí)空?qǐng)鼍暗母兄c理解,在模仿學(xué)習(xí)的基礎(chǔ)上,最終通過(guò)基于深度強(qiáng)化學(xué)習(xí)的交互式學(xué)習(xí)的導(dǎo)入,自主獲得人類(lèi)或超過(guò)人類(lèi)水平的決策、規(guī)劃及行動(dòng)能力,實(shí)現(xiàn)真正的物理智能。在模仿學(xué)習(xí)、交互式學(xué)習(xí)之后,我們最關(guān)注的能力是通用性和泛化能力。這兩者也等價(jià)于智能體的環(huán)境與任務(wù)的適應(yīng)性及自主性問(wèn)題,也就是大模型及智能體能夠以極高的成功率自主適應(yīng)任何任務(wù)及環(huán)境的變化。具體而言,通用性意味著智能體能夠應(yīng)對(duì)各種環(huán)境與任務(wù)的變化,而不是局限于某些固定的操作對(duì)象及某些特定的任務(wù)。泛化則是指跨任務(wù)、跨場(chǎng)景、跨行業(yè)、跨領(lǐng)域的推斷應(yīng)用,也就是智能體能夠在任何環(huán)境與任務(wù)中進(jìn)行適應(yīng),并能以極高的成功率可靠穩(wěn)定地運(yùn)行。
通用性與泛化能力是人類(lèi)最重要的能力和特征之一。人類(lèi)無(wú)疑是這方面的最高標(biāo)桿。**而超強(qiáng)的通用性與泛化能力也是人工智能最鮮明的特征,是所有具身智能體追求的最高目標(biāo)。**我們關(guān)注通用人工智能(AGI),它的寬度正在不斷的擴(kuò)大。在2012年開(kāi)始的弱人工智能時(shí)代,一個(gè)模型只能完成一個(gè)任務(wù)。而在AGI之下,一個(gè)大模型可以通過(guò)微調(diào)不斷適配各種下游任務(wù),任務(wù)的個(gè)數(shù)可稱(chēng)之為AGI的寬度,因此取值可以是從2直到無(wú)窮大。這個(gè)寬度值一方面取決于大模型的能力上限及任務(wù)的復(fù)雜程度,另一方面則受限于各種高效微調(diào)方法與增強(qiáng)技術(shù)的發(fā)展。人類(lèi)能夠完成全方位或稱(chēng)最大寬度的多樣化任務(wù),但也不是所有任務(wù)任何人都能完成,比如一些極限任務(wù)。類(lèi)似地,通用人工智能的寬度可以從1、2、3、4、5,一直擴(kuò)大到人類(lèi)的最大寬度,這時(shí)就出現(xiàn)了人類(lèi)智能發(fā)展的奇點(diǎn),AGI跨越為強(qiáng)人工智能。強(qiáng)人工智能再往前發(fā)展,就會(huì)出現(xiàn)以指數(shù)級(jí)增長(zhǎng)的智力發(fā)展,邁進(jìn)到超級(jí)人工智能的最高階段。
人工智能的前沿問(wèn)題
人工智能現(xiàn)在研究的熱點(diǎn)和前沿首要問(wèn)題就是多模態(tài)的具身智能與性能增強(qiáng)技術(shù)。
我們首先關(guān)注從VLM(視覺(jué)-語(yǔ)言模型)到VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)。VLM就是有視覺(jué)、有文本(語(yǔ)言),可以進(jìn)行感知/理解與生成。以前我們主要關(guān)注狀態(tài)空間(或者叫觀察空間)、感知空間的理解與生成,現(xiàn)在則進(jìn)一步拓展到了VLA。VLA除了有視覺(jué)、有語(yǔ)言,還有動(dòng)作空間,增加了動(dòng)作模型以及從感知空間到動(dòng)作空間的決策推理,是真正能賦能真實(shí)物理世界的多模態(tài)大模型框架。由動(dòng)作空間到感知空間,或者從感知空間到動(dòng)作空間的映射,后者對(duì)應(yīng)了非常重要的決策推理,或者叫邏輯推理。這里的邏輯推理也就是強(qiáng)化學(xué)習(xí)的策略。強(qiáng)化學(xué)習(xí)是要學(xué)習(xí)最優(yōu)策略,學(xué)習(xí)這種映射關(guān)系。VLA的映射關(guān)系如此重要,比如我們?cè)陂_(kāi)車(chē)時(shí)看到前方行人橫穿馬路,這時(shí)采用的動(dòng)作是靠推理來(lái)進(jìn)行的。為此我們采用端到端的模型,即輸入是不斷涌入的3D視頻流,在進(jìn)行理解后馬上產(chǎn)生動(dòng)作。**所以VLA為我們開(kāi)辟了一個(gè)新的研發(fā)范式,不僅是狀態(tài)空間,還要關(guān)注動(dòng)作空間,尤其要關(guān)注決策推理,還要增加精細(xì)化的動(dòng)作模型。這些可以真正賦能我們真實(shí)的物理世界,所以叫物理的人工智能。**感知空間,動(dòng)作空間,還有感知空間到動(dòng)作空間之間的映射,它們之間的相互關(guān)系是從感知空間到動(dòng)作空間,還是從動(dòng)作空間到感知空間?這是我們需要關(guān)注的重點(diǎn)問(wèn)題之一。此外,我們還需要關(guān)注三大任務(wù):具身理解、具身動(dòng)作生成與具身推理。其中具身理解是要作用在感知空間,具身動(dòng)作生成是把任務(wù)作用在動(dòng)作空間,兩者之間的關(guān)系稱(chēng)之為具身推理。基于基礎(chǔ)大模型,針對(duì)上述三大任務(wù),就可以?xún)?yōu)化訓(xùn)練出更多的下游微調(diào)模型。三個(gè)任務(wù)中最難做的是具身推理。這是一個(gè)智商高低的問(wèn)題,尤其要做到人類(lèi)符號(hào)水平的推理。在大模型應(yīng)用中,需要從多模態(tài)通用大模型微調(diào)到通用具身智能體,再微調(diào)到垂域任務(wù)的智能體,而模型的高效微調(diào)(或稱(chēng)后訓(xùn)練)是一個(gè)非常好的發(fā)展大模型應(yīng)用的路徑。微調(diào)訓(xùn)練數(shù)據(jù)集通常不大,AI算力需求較低。微調(diào)智能體可以針對(duì)特定的任務(wù)來(lái)訓(xùn)練優(yōu)化。從微調(diào)訓(xùn)練數(shù)據(jù)的來(lái)源以及訓(xùn)練優(yōu)化的方法來(lái)看,大模型的微調(diào)有如下三個(gè)技術(shù)路線:
**監(jiān)督微調(diào)(SFT):**用人工標(biāo)注的微調(diào)訓(xùn)練數(shù)據(jù),利用傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法,對(duì)大模型進(jìn)行微調(diào)。
**人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF):**主要特點(diǎn)是把人類(lèi)的反饋,通過(guò)強(qiáng)化學(xué)習(xí)的方式,引入到對(duì)大模型的微調(diào)中,使大模型生成的結(jié)果對(duì)齊人類(lèi)的安全價(jià)值期望。
**AI反饋強(qiáng)化學(xué)習(xí)(RLAI):**可解決反饋系統(tǒng)的效率問(wèn)題,原理上與RLHF大致相同,但反饋信息源來(lái)自于AI。
根據(jù)范式的不同,大型語(yǔ)言模型的微調(diào)方法也可劃分為提示微調(diào)和參數(shù)微調(diào)。
示微調(diào)是根據(jù)改變?nèi)蝿?wù)適配模型的范式,進(jìn)行上下文演示樣本、少樣本、零樣本學(xué)習(xí)等。提示微調(diào)也可細(xì)分為硬提示和軟提示方法,它們分別在離散的文本符號(hào)空間和連續(xù)的隱向量空間進(jìn)行。后者通過(guò)引入誤差反向傳播等學(xué)習(xí)算法,可完成基于學(xué)習(xí)的提示微調(diào)優(yōu)化。
參數(shù)****微調(diào)是對(duì)大型語(yǔ)言模型的全部參數(shù)或部分參數(shù)進(jìn)行微調(diào)訓(xùn)練。在部分參數(shù)微調(diào)方法中,可將原有模型中的部分參數(shù)進(jìn)行凍結(jié),對(duì)其他部分參數(shù)進(jìn)行微調(diào)優(yōu)化,也可通過(guò)增加各種任務(wù)頭、改變輸入嵌入編碼器和添加Transformer的各種結(jié)構(gòu)單元(適配器或注意力機(jī)制)來(lái)完成。
這里我們關(guān)心的是具身感知與理解,也就是使用感知空間中的本體感知+視覺(jué)或具身多感官的語(yǔ)義分詞器,實(shí)現(xiàn)長(zhǎng)程與大范圍的時(shí)空理解,也就是空間智能。本體感知是對(duì)于自身狀態(tài)的感知,例如機(jī)器人末端執(zhí)行器的位姿、智駕汽車(chē)的位姿。
視覺(jué)是指利用預(yù)訓(xùn)練主干模型(如殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet或DINO V2和SigLIP + MLP Projector)作為視覺(jué)分詞器,將相機(jī)的圖像塊序列投影為視覺(jué)嵌入token序列。
此外,如今的多模態(tài)基礎(chǔ)大模型正在不斷突破它的能力上限,我們可以發(fā)展各種性能增強(qiáng)技術(shù),不斷提高復(fù)雜的邏輯推理能力。性能增強(qiáng)技術(shù)需要結(jié)合特定任務(wù)聚焦各種AI增強(qiáng)方法,包括深入研究提示增強(qiáng)(類(lèi)似OpenAI o1中使用的思維鏈CoT)、檢索增強(qiáng)(RAG)、知識(shí)增強(qiáng)與邏輯增強(qiáng)技術(shù)等。其中,知識(shí)增強(qiáng)是指可以將很多垂直領(lǐng)域中專(zhuān)業(yè)的私有知識(shí)組成輸入數(shù)據(jù)無(wú)關(guān)的持久記憶。這些數(shù)據(jù)不需要上傳做預(yù)訓(xùn)練,如此可以保護(hù)我們的數(shù)據(jù)安全、數(shù)據(jù)隱私。
人工智能的第二個(gè)前沿問(wèn)題是直覺(jué)本能的快思維與符號(hào)水平的慢思維。
快思維即快速的本能與直覺(jué),無(wú)需深思熟慮的思考。智能體要模仿人類(lèi)的快思維需要輸入為視覺(jué)(類(lèi)人的深度相機(jī)、非人類(lèi)感官形態(tài)的激光點(diǎn)云等)或聽(tīng)覺(jué)理解,在結(jié)合文本任務(wù)理解及其系列子任務(wù)分解的推理決策下,輸出為行為與動(dòng)作(向量軌跡)。
慢思維即深思熟慮的決策理性思維,如沉思、對(duì)比、反思、權(quán)衡等思維方式,主要涉及模擬人類(lèi)復(fù)雜的邏輯推理能力,包括任務(wù)理解,特別是任務(wù)規(guī)劃或任務(wù)分解,適合于處理挑戰(zhàn)性復(fù)雜任務(wù)以及對(duì)人類(lèi)高級(jí)智能活動(dòng)的模擬。
一般而言,技能性簡(jiǎn)單任務(wù)適合于直覺(jué)本能的快思維,特點(diǎn)是針對(duì)簡(jiǎn)單視聽(tīng)覺(jué)任務(wù)或緊急任務(wù),能夠利用智能體過(guò)去積累的經(jīng)驗(yàn)(長(zhǎng)期記憶)和策略進(jìn)行迅速的反應(yīng)。深思熟慮的決策理性思維則需要使用慢思維,特點(diǎn)是針對(duì)復(fù)雜任務(wù)進(jìn)行深入的分析,特別是理解任務(wù)的本質(zhì),優(yōu)化完成任務(wù)的解決方案。
快思維與慢思維通過(guò)相互補(bǔ)充與結(jié)合,可以更好地完成從簡(jiǎn)單到復(fù)雜的多樣化任務(wù),兩者均可通過(guò)端到端的學(xué)習(xí)方法來(lái)實(shí)現(xiàn)。
符號(hào)水平的慢思維是人類(lèi)特有的鮮明特征。我們關(guān)注的強(qiáng)大的邏輯推理能力需要基于學(xué)習(xí)獲得符號(hào)水平的規(guī)則。
慢思維的邏輯推理能力是針對(duì)觀察空間與給定任務(wù),首先進(jìn)行感知與理解,而后以抽象、分析、沉思、對(duì)比、反思、權(quán)衡等方式,基于理性的邏輯方法,進(jìn)行任務(wù)規(guī)劃或任務(wù)分解,并獲得最優(yōu)決策推理路徑與行為序列。通常慢思維的高級(jí)邏輯推理能力,僅適合于挑戰(zhàn)性復(fù)雜任務(wù)的完成。基于推理方向,即依據(jù)其是從特殊到一般,還是從一般到特殊,又或者是從特殊到特殊,通常可相應(yīng)劃分為歸納推理、演繹推理與類(lèi)比推理等。
人工智能的第三個(gè)前沿問(wèn)題是世界模擬與交互式多智能體。
利用Sora這樣的工具就可以實(shí)現(xiàn)世界模擬,即能夠根據(jù)文本指令或文本提示+圖像/視頻,創(chuàng)建出大量逼真的高質(zhì)量合成視頻數(shù)據(jù),可用于補(bǔ)充多模態(tài)大型語(yǔ)言模型的聯(lián)合預(yù)訓(xùn)練或微調(diào)優(yōu)化。
Sora的重大突破表明,端到端的數(shù)據(jù)驅(qū)動(dòng)方法能夠構(gòu)建世界模型,特別是能夠模擬真實(shí)世界的物理學(xué)運(yùn)動(dòng)規(guī)律,這對(duì)于我們重新認(rèn)識(shí)世界和發(fā)展通用人工智能,意義重大。
此外,人工智能還需要與其他的智能體、與人類(lèi)、與世界進(jìn)行交互,在模仿學(xué)習(xí)的基礎(chǔ)之上,利用深度強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法,在虛實(shí)平行世界中實(shí)現(xiàn)更高效率的自主探索學(xué)習(xí)與最優(yōu)策略遷移,獲得接近或超過(guò)人類(lèi)智能的能力。
通用人工智能的
發(fā)展路徑及未來(lái)趨勢(shì)
在通用人工智能發(fā)展路徑與未來(lái)的趨勢(shì)中,需要特別關(guān)注大模型的應(yīng)用。大模型的價(jià)值在于實(shí)際的應(yīng)用,只有在多樣化的實(shí)際應(yīng)用場(chǎng)景中賦能智能經(jīng)濟(jì)與智能社會(huì)的發(fā)展,才能找到產(chǎn)業(yè)價(jià)值,同時(shí)也才能成就大模型自身。
大模型的應(yīng)用,一方面需要提升大型語(yǔ)言模型,特別是多模態(tài)的通用大模型的上限能力,但這需要超大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),超大規(guī)模的AI算力,還需要高端的人才。另一方面,我們可以找一個(gè)性能先進(jìn)的多模態(tài)基礎(chǔ)或通用大模型,在此之上發(fā)展高效微調(diào)方法,微調(diào)不需要巨大的后訓(xùn)練數(shù)據(jù)與AI算力。微調(diào)完成行業(yè)大模型后之后去做產(chǎn)業(yè)化的部署,去發(fā)展垂域特定任務(wù)的大模型。
**此外,在一些具身智能體的大模型應(yīng)用中,要特別聚焦技術(shù)變革,關(guān)注新范式、新導(dǎo)向的發(fā)展,尤其在自動(dòng)駕駛領(lǐng)域。**自動(dòng)駕駛領(lǐng)域目前特別關(guān)注單段式或單模型的自動(dòng)駕駛解決方案,即關(guān)注大模型的一體化的端到端的新范式,以增強(qiáng)自動(dòng)駕駛的環(huán)境適應(yīng)能力和自主性。
總的看來(lái),大模型的發(fā)展從原來(lái)的問(wèn)答聊天、AIGC等互聯(lián)網(wǎng)空間的NLP任務(wù),迭代演化到通用人形機(jī)器人與自動(dòng)駕駛等面向物理世界的具身任務(wù),目前要重點(diǎn)突破多模態(tài)大模型與具身智能的實(shí)際應(yīng)用,特別是面向真實(shí)物理空間的產(chǎn)業(yè)落地應(yīng)用,通過(guò)聚焦對(duì)實(shí)體經(jīng)濟(jì)的支撐,形成中國(guó)人工智能發(fā)展的新優(yōu)勢(shì)。
基于現(xiàn)有的多模態(tài)通用大模型微調(diào)訓(xùn)練出專(zhuān)用模型,可以大力推動(dòng)千行百業(yè)垂域?qū)S媚P偷漠a(chǎn)業(yè)落地,從而通過(guò)場(chǎng)景應(yīng)用創(chuàng)新與產(chǎn)品研發(fā),打造國(guó)際一流的大模型應(yīng)用生態(tài),賦能智能制造與新型工業(yè)化的發(fā)展。在大模型的應(yīng)用落地過(guò)程中,我國(guó)在應(yīng)用場(chǎng)景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢(shì),會(huì)充分體現(xiàn)出來(lái),形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式,以此重建我們?cè)贏I大模型時(shí)代下的新優(yōu)勢(shì)。
從更大尺度上看,人工智能可以分成弱人工智能、通用人工智能、強(qiáng)人工智能、超級(jí)人工智能等不同的演化階段。全球范圍內(nèi)的大模型的發(fā)展、大模型的應(yīng)用才剛剛開(kāi)始,更多的驚喜在后面。
要賦能真實(shí)世界與新型工業(yè)化,需要大數(shù)據(jù)與大算力的支撐。在數(shù)據(jù)上,真實(shí)物理世界中行為與動(dòng)作數(shù)據(jù)的采集成本高、效率低,且數(shù)據(jù)稀疏。例如,發(fā)展通用人形機(jī)器人要采集機(jī)器人的動(dòng)作數(shù)據(jù),而現(xiàn)實(shí)空間中的示教有限,要得到高性能和強(qiáng)泛化能力,在理論與實(shí)踐上都是巨大的挑戰(zhàn)。在算力方面,文本是一維的,而視覺(jué)作為高階的模態(tài)其token序列會(huì)更長(zhǎng),造成視覺(jué)-文本的合體模型規(guī)模會(huì)更大,因此需要更大的算力。AI算力不是人人都需要,我們可以走微調(diào)應(yīng)用的路徑,來(lái)找到新的產(chǎn)業(yè)發(fā)展范式。
**另外,我們還需要關(guān)注一體化端到端的新范式,推動(dòng)L4自動(dòng)駕駛與通用人形機(jī)器人的協(xié)同進(jìn)化。**這種方法強(qiáng)調(diào)一體化。以往的傳統(tǒng)方案是人為地分段為感知、預(yù)測(cè)、決策、規(guī)劃、控制,而新方案則是一體化貫通,徹底的單段式端到端,中間沒(méi)有分段,通過(guò)在輸入端輸入圖片,輸出端可直接生成動(dòng)作。這使得感知空間、動(dòng)作空間和決策推理都在一個(gè)大模型內(nèi)針對(duì)同一個(gè)給定任務(wù)進(jìn)行微調(diào)。此后,還可以繼續(xù)針對(duì)下游各種任務(wù)進(jìn)行微調(diào)優(yōu)化。新范式的核心是引入了基于學(xué)習(xí)的決策推理與規(guī)劃。總之,相對(duì)于從頭開(kāi)始預(yù)訓(xùn)練的原生多模態(tài)領(lǐng)域或行業(yè)大模型,基于微調(diào)訓(xùn)練完成新范式的研發(fā),所需AI算力與數(shù)據(jù),要小得多。
進(jìn)一步,我們看到隨著人形機(jī)器人與L4自動(dòng)駕駛的不斷發(fā)展,兩大改變世界的端到端研發(fā)范式會(huì)相互協(xié)同演進(jìn)。一方面,通用人形機(jī)器人會(huì)逐漸走上生產(chǎn)線,也會(huì)進(jìn)入家庭,從生產(chǎn)領(lǐng)域邁進(jìn)到服務(wù)領(lǐng)域,帶來(lái)無(wú)限的產(chǎn)業(yè)想象空間,其創(chuàng)新技術(shù)可推動(dòng)自動(dòng)駕駛的落地應(yīng)用。另一方面,基于大模型的自動(dòng)駕駛不斷進(jìn)化,也會(huì)降維應(yīng)用并推動(dòng)通用人形機(jī)器人的發(fā)展,進(jìn)一步催生人形機(jī)器人與人類(lèi)共融社會(huì)的形成與演進(jìn)。
來(lái)源: 中國(guó)科協(xié)科學(xué)技術(shù)傳播中心、中國(guó)科協(xié)之聲