要說近期AI圈什么最火,絕對非ChatGPT莫屬。這個基于OpenAI最新大語言模型GPT-4的史上最強聊天機器人,幾乎從誕生第一天起就已「火爆出圈」,成為了從用戶到資本競相追逐的香餑餑,幾乎每天都會占據AI新聞的頭條。
ChatGPT的橫空出世,離不開背后大語言模型GPT-4的支撐,這個坐擁全球海量用戶數據,匯聚高效訓練算法的大模型,堪稱過去數年來形形色色大模型中的扛鼎之作。
圖片來源:pixabay
大模型這個名字本身足夠直白。這里的「大」指的是機器學習模型的規模,最主要的量度是模型包含的參數量。
實際上,自谷歌于2017年首次提出Transformer模型以來,大模型就開始走上了一條快速發展之路。與以往的大模型相比,ChatGPT可以通過學習自然語言中的邏輯和上下文關系,做到近乎實時地完成對話生成和機器翻譯等語言處理任務。
一、BERT首開先河
以Transformer的面世為契機,谷歌在接下來的很長時間里都走在了大模型領域的前列。
2018年,谷歌發布基于Transformer的BERT,成為NLP大模型發展的里程碑和分水嶺。在參數量方面,BERT 12層模型參數量達到1.1億,24層模型更是達到了3.4億。與傳統的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預訓練相比,BERT采用新的掩碼語言建模(MLM),能生成深度的雙向語言表征。
新方法帶來了立竿見影的性能提升,BERT在11個NLP任務中獲得了最好的SOTA結果,幾乎把能刷的榜單刷了個遍,引發業界震動。
BERT的問世,在全球范圍內迅速掀起了一股大模型的狂潮。越來越多的科技巨頭開始在大模型上發力,而BERT的3.4億參數,僅僅是個起點。
從十億,到萬億
2019年,OpenAI推出了15億參數的GPT-2,具備生成連貫文本和初步的閱讀理解、機器翻譯等功能。緊接著,英偉達發布了威震天(Megatron-LM),參數達到83億;谷歌推出T5模型,參數達到110億;微軟推出「Turing-NLG」模型,參數量增至170億。
從十億級到百億級,大模型在一年內邁出了重要步伐。之后,大模型進一步躍升,完成了從百億到千億、萬億參數的三次飛躍。OpenAI于一段時間后推出了1750億參數的GPT-3,它不僅能寫文章、回答問題、翻譯,還具備多輪對話、敲代碼、進行數學計算等多種能力。
隨后,谷歌發布了Switch Transformer架構,將語言模型的參數量擴展到了1.6萬億,再次刷新了大模型的參數紀錄。后來,谷歌大腦的Jeff Dean與斯坦福大學副教授、基礎模型創始人Percy Liang等人發表論文,指出大模型具有「涌現」效應,通過擴大模型參數,讓大模型獲得之前不具備的新能力,這一過程是不可預測的。該論文為大模型參數進一步擴大提供了理論依據。
除了國外科技企業,國內企業和科研機構也投入大量資源。百度發布了預訓練大模型文心ERNIE 1.0,后來將其應用到搜索業務,賦予搜索相關性、深度問答和內容理解等功能。
隨后,中國AI學界推出了第一個超大規模預訓練模型「悟道」。不久后,1.75萬億參數的「悟道 2.0」問世,在預訓練模型架構和微調算法上實現了理論創新,在多個AI性能測試榜單上取得了領先地位。
目前,華為、阿里巴巴、浪潮等國內企業都相繼推出了自己的大模型,一時間已成百花齊放、遍地開花之勢。
三、AI新賽道前途無量
最近,IDC發布《2022中國大模型發展白皮書》。數據顯示,自2020年起,國內大模型數量驟增,僅2020年到2021年,便從2個增至21個,和美國量級同等,大幅領先于其他國家。
IDC預測,2026年中國人工智能軟件及應用市場規模將達到211億美元,對于開發門檻高、應用場景復雜多樣、對場景標注數據依賴等問題,大模型可能成為最有效的解決方法。
而針對模型規模過大,訓練成本太高等問題,國內外的企業和研究機構正朝著專一化、精細化的應用落地方向不斷探索。
由于大模型「一次開發,終身使用」的特性,后續應用無需投入大量標注數據及從頭訓練調參,應用效率明顯提升。另一方面,大模型的出色泛化能力,也為其在不同領域大展身手創造了條件。
放眼未來,可以預見的是,千億萬億級參數的「巨無霸」不再是高高在上的龐然大物,而會化作一個個天才作家、畫家、音樂家和詩人,為人類文明添磚加瓦。
文章由科普中國-星空計劃(創作培育)出品,轉載請注明來源。
作者:管心宇 科普作者
審核:于旸 騰訊玄武實驗室負責人
來源: 星空計劃
內容資源由項目單位提供