當我們用手機和智能設備調(diào)用ChatGPT、文心一言等大語言模型(LLM)時,一個關鍵問題常被忽略——這些“巨無霸”模型的算力需求遠超手機等終端設備的處理能力。直接上傳數(shù)據(jù)到云端雖能解決算力問題,卻面臨隱私泄露、延遲高等挑戰(zhàn)。怎么辦?

我國浙江大學聯(lián)合之江實驗室的最新研究給出了新方案:通過“動態(tài)分層拆分+強化學習”技術,讓大模型在手機(用戶設備,UE)和邊緣節(jié)點(如基站)間靈活分工,既降低終端算力壓力,又保障推理性能,訓練時間更從24天縮短到7.7分鐘。

大模型邊緣部署的“兩難”:算力與性能的拉鋸戰(zhàn)
大語言模型(如LLAMA2-7B、Mistral-7B)通常有幾十到上百層,每層計算都需要大量算力。直接在手機等終端運行,可能因算力不足導致延遲高、耗電快;若全部依賴云端,又需傳輸大量中間數(shù)據(jù),在無線網(wǎng)絡中易受噪聲干擾(如信號衰減、丟包),影響模型輸出質(zhì)量(用“困惑度PPL”衡量,值越小性能越好)。

傳統(tǒng)方法通過固定分層拆分(比如前5層在手機,后27層在云端)平衡算力,但無線網(wǎng)絡條件瞬息萬變——用戶從開闊地走進電梯,信號可能從“滿格”驟降為“弱網(wǎng)”,此時固定拆分要么讓手機“累癱”,要么因數(shù)據(jù)傳輸噪聲導致模型“犯迷糊”。

動態(tài)“拆層”:用強化學習當“智能調(diào)度員”
研究團隊想到,既然網(wǎng)絡條件在變,拆分策略也該“隨機應變”。他們將問題轉化為一個“動態(tài)決策游戲”——用強化學習(RL)算法當“調(diào)度員”,根據(jù)實時網(wǎng)絡狀態(tài)(如噪聲強度、信號衰減程度)調(diào)整拆分層數(shù),目標是讓模型性能(PPL)和手機算力負載“雙達標”。

但直接訓練強化學習模型需要反復測試不同拆分策略的效果,耗時又耗資源(傳統(tǒng)方法需24天)。為此,團隊引入“獎勵替代模型”:先用少量真實數(shù)據(jù)訓練一個神經(jīng)網(wǎng)絡,模擬大模型在不同拆分點和網(wǎng)絡條件下的PPL表現(xiàn)。這樣,強化學習無需每次都調(diào)用大模型實測,而是通過替代模型快速評估策略效果,訓練時間從24天暴降至7.7分鐘,資源消耗從16.3GB降至不足1GB。

實驗驗證:手機“輕裝上陣”,模型“少犯迷糊”
在LLAMA2-7B模型和WikiText-2數(shù)據(jù)集(含4355句日常文本)的測試中,該方法展現(xiàn)了強大的適應性:

弱網(wǎng)場景(丟包率0.1-0.3):當信號變差時,算法會自動將更多層“搬”到云端,減少手機算力壓力,同時通過云端更強的抗干擾能力保持模型性能。實驗顯示,此時模型PPL僅比理想狀態(tài)(無噪聲)高約5%,遠低于傳統(tǒng)固定拆分的15%以上。
強網(wǎng)場景(丟包率0-0.1):算法則傾向于讓手機多跑幾層,減少數(shù)據(jù)傳輸量,手機算力負載降低30%,但模型PPL幾乎與全云端運行持平。
更關鍵的是,訓練后的算法能在4毫秒內(nèi)完成一次拆分策略調(diào)整,真正實現(xiàn)“實時響應”。

未來:讓大模型“聰明”適應千變?nèi)f化的網(wǎng)絡
這項研究為大語言模型的邊緣部署提供了“動態(tài)適配”的新思路,未來或可應用于智能城市(如實時對話助手)、工業(yè)物聯(lián)網(wǎng)(如設備狀態(tài)分析)等場景,既保護用戶隱私,又降低云端壓力。

論文作者表示,下一步將優(yōu)化算法在高速移動場景(如高鐵、無人機)的適應性,并探索支持更多大模型架構(如GPT-4、Gemini)的通用方案。隨著技術成熟,或許不久的將來,我們用手機調(diào)用大模型時,背后的“拆層策略”會像“智能管家”一樣,自動根據(jù)網(wǎng)絡信號調(diào)整分工,讓體驗更流暢、更省電。

來源: 信息與電子工程前沿FITEE