2月25日,DeepSeek在“開源周”的第二日開源了DeepEP通信庫。DeepSeek表示,這是第一個用于MoE(專家)模型訓練和推理的開源EP通信庫。
“高效、優化的全員溝通;節點內和節點間均支持NVLink和RDMA(遠程直接內存訪問,一種通信技術);用于訓練和推理預填充的高吞吐量內核;用于推理解碼的低延遲內核;原生FP8調度支持;靈活的GPU(圖形處理器)資源控制,實現計算與通信重疊。”DeepSeek如此介紹DeepEP的特點。
EP即expert parallelism(專家并行),是一種在大規模分布式AI模型訓練中使用的技術,能用于提升模型并行處理能力和訓練效率。DeepSeek表示,對于延遲敏感的推理解碼任務,DeepEP包含有一組使用純RDMA的低延遲內核,可以用于將延遲最小化,DeepEP還引入一種通信與計算重疊的方法,這種方法可以不占用SM(流處理器)資源。簡而言之,DeepEP也是用于提升GPU(圖形處理器)利用效率的關鍵技術之一。
有位軟件工程師激動地表示,“DeepSeek在MoE模型上所達到的優化水平,令人印象深刻,因為MoE模型因其規模和復雜性而廣為人知,難度非常大。而DeepEP能夠如此精確地處理這些問題,使用像NVLink和RDMA這樣的先進硬件,并且支持FP8,真是太牛了。”
有網友稱,DeepSeek再次突破了AI基礎設施的極限。這種創新方法或將改變AI領域的溝通方式。從此,AI開發者也許能有效突破大規模AI模型的界限。
性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3訓練出來的模型,DeepSeek-V3此前就以不大規模使用最先進的英偉達GPU、低訓練預算著稱。為了在已有的GPU上訓練大模型,DeepSeek進行了諸多創新,以高效利用GPU算力。有學界人士此前就解讀了DeepSeek-V3實現計算與通信重疊的重要作用。
清華大學計算機系長聘教授翟季冬在解讀DeepSeek的相關技術時表示,DeepSeek-V3為了訓練效率提升,做了四方面的優化,包括負載均衡、通信優化、內存優化和計算優化。為此,DeepSeek團隊充分挖掘了算法、軟件和硬件協同創新的潛力,例如為了降低通信開銷想了很多辦法,包括精細化編排計算和通訊。“DeepSeek提出一種流水線并行算法DualPipe,通過精細控制分配給計算和通信的GPU SM數量,實現計算和通信完全重疊,從而提高GPU資源的利用率。期間,DeepSeek團隊使用了英偉達底層的PTX語言來控制SM的使用。” 翟季冬表示。中存算半導體董事長陳巍解析DeepSeek-V3和R1訓練結構的獨特優勢時也指出,DeepSeek設計了DualPipe算法來實現更高效的流水線并行,并通過計算與通信的重疊隱藏了大模型訓練過程中的大部分通信開銷。此外,DeepSeek開發了跨節點All-to-All通信內核,以充分利用InfiniBand和NVLink帶寬,對顯存使用進行了優化,使得DeepSeek無需使用昂貴的張量并行即可訓練DeepSeek-V3。就開源DeepEP通信庫的影響詢問DeepSeek后,它的回答是,DeepEP能顯著提升MoE模型的訓練和推理效率,顯著降低計算資源消耗,開源DeepEP有助于降低AI技術的開發成本,且有助于減少重發開發。
DeepSeek此前宣布,本周會陸續開源5個代碼庫。加上2月24日開源的代碼庫FlashMLA,DeepSeek已開源了2個代碼庫,接下來還有3個代碼庫待開源。
來源: 第一財經、之江實驗室