當你用手機和“AI助手”聊天時,背后可能藏著一場“算力接力賽”——大語言模型(LLM)的部分計算在手機本地完成,另一部分則通過無線網絡傳到基站或云端處理。但這場“接力”常遇麻煩:手機算力不足會卡頓,傳輸出錯又會讓AI“答非所問”。如何讓大模型在邊緣設備上既快又準?

我國浙江大學聯合之江實驗室的最新研究給出關鍵解法:用“動態分層拆分+強化學習”技術,讓大模型像“智能調度員”一樣,根據實時網絡狀態調整計算分工,訓練效率提升超萬倍,為大模型“落地”手機、物聯網設備等邊緣場景按下加速鍵。

大模型邊緣部署的“卡脖子”難題:算力與傳輸的兩難
如今,ChatGPT、LLaMA等大語言模型已深度融入生活,但它們的“體型”也越來越大——LLaMA2-7B有32層,參數量達70億,單是一層計算就需要海量算力。直接讓手機等終端設備(UE)跑完整模型,就像“小馬拉大車”,容易卡頓甚至死機;若把所有計算放到云端,又需傳輸大量中間數據,而無線網絡易受噪聲干擾(如信號衰減、數據包丟失),導致AI輸出質量下降(用“困惑度PPL”衡量,值越大越“迷糊”)。

傳統方法靠“固定拆層”緩解矛盾(比如前5層在手機,后27層在云端),但網絡條件瞬息萬變——用戶從開闊地走進電梯,信號可能從“滿格”驟降為“弱網”,此時固定拆層要么讓手機“累癱”,要么因傳輸噪聲讓AI“犯糊涂”。

動態“拆層”:強化學習當“智能裁判”,替代模型加速訓練
研究團隊另辟蹊徑:既然網絡條件在變,拆分策略也該“隨機應變”。他們將問題轉化為一個“動態決策游戲”——用強化學習(RL)算法當“裁判”,實時監測網絡狀態(如噪聲強度、信號衰減程度),動態調整大模型的拆分層數,目標是讓AI輸出質量(PPL)和手機算力負載“雙達標”。

但直接訓練強化學習模型需要反復測試不同拆分策略的效果,耗時又耗資源(傳統方法需24天,消耗16.3GB資源)。為此,團隊引入“獎勵替代模型”:先用少量真實數據訓練一個神經網絡,模擬大模型在不同拆分點和網絡條件下的PPL表現。這樣,強化學習無需每次都調用大模型實測,而是通過替代模型快速“打分”,訓練時間暴降至7.7分鐘,資源消耗降至不足1GB。

實驗驗證:手機“輕裝上陣”,AI“少犯迷糊”
在LLaMA2-7B模型和WikiText-2數據集(含4355句日常文本)的測試中,該方法展現了“隨機應變”的能力:

弱網場景(丟包率0.1-0.3):當信號變差時,算法會自動將更多層“搬”到云端,減少手機算力壓力,同時利用云端更強的抗干擾能力保持AI輸出質量。實驗顯示,此時AI的PPL僅比理想狀態(無噪聲)高約5%,遠低于傳統固定拆分的15%以上。
強網場景(丟包率0-0.1):算法則讓手機多跑幾層,減少數據傳輸量,手機算力負載降低30%,但AI的PPL幾乎與全云端運行持平。
更厲害的是,訓練后的算法能在4毫秒內完成一次拆分策略調整,真正實現“實時響應”——相當于“眨一下眼”的時間,就能根據網絡變化優化計算分工。

未來:讓大模型“聰明”適應千變萬化的網絡
這項研究為大語言模型的邊緣部署提供了“動態適配”的新思路,未來或可應用于智能城市(如實時對話助手)、工業物聯網(如設備狀態分析)等場景,既保護用戶隱私(減少數據上傳),又降低云端壓力(部分計算本地完成)。

論文作者表示,下一步將優化算法在高速移動場景(如高鐵、無人機)的適應性,并探索支持更多大模型架構(如GPT-4、Gemini)的通用方案。隨著技術成熟,或許不久的將來,我們用手機調用AI時,背后的“拆層策略”會像“隱形管家”一樣,自動根據網絡信號調整分工,讓對話更流暢、設備更省電。

來源: 信息與電子工程前沿FITEE