將地球“裝進”神經網絡,實現虛擬環球旅行需要幾步?
近日,北京航空航天大學史振威教授和鄒征夏教授團隊研發一種“數字地球(MetaEarth)”遙感生成式模型。可生成全球任意地理位置多分辨率、無界的遙感圖像。
MetaEarth生成式遙感基礎模型團隊用“整顆”地球的衛星遙感影像,訓練深度神經網絡,克服了多種要素特征泛化、表征一致性等難題,最終在六億參數規模的網絡中創造覆蓋全球的“平行世界”。
近年來,Stable Diffusion、Sora等多種AI視覺生成模型引起了學術界和工業界的廣泛關注。結合特定領域知識,生成逼真且多樣的專業圖像和視頻數據,已成為各垂直領域的發展趨勢。特別是在航空航天遙感領域,發展具有遙感特色的視覺生成模型,對于城市規劃等應用具有重要的價值。
MetaEarth在生成全球范圍內、多分辨率、無界和虛擬無限的遙感圖像方面具有強大的能力
現有生成模型的規模仍局限于日常人類活動場景,生成圖像的分辨率和信息容量有限。在本項目中,研究者們從遙感俯拍視角出發,提出并構建了“數字地球(MetaEarth)”遙感生成式基礎模型,實現了世界范圍內的遙感圖像生成。同時考慮了城市、森林、沙漠、海洋、冰川和雪地等廣泛的地貌特征。
MetaEarth作為一種神經網絡驅動的數據引擎,有望為衛星等空天無人系統平臺提供一個逼真的虛擬環境,并在城市規劃、環境監測、災害管理、農業優化等領域廣泛應用;除此之外,MetaEarth在構建生成式世界模型方面也具有巨大潛力,為未來的研究提供新的可能。
在研究中都遇到了哪些挑戰?研究團隊又是如何解決的呢?
和我一起了解——
如何覆蓋整個地球的信息量
“天高地迥,覺宇宙之無窮”,從雪山巔峰到遼闊海面,從廣袤原野到茂密叢林,生成全球尺度的圖像需要包括廣泛的地理特征。僅對于同一地區,在不同的緯度、氣候和文化環境下,也會表現出巨大差異,這對生成模型的容量提出了很高的要求。
在過去的研究中,盡管出現了圖像生成技術在遙感領域的嘗試,但此類方法通常僅在小規模的數據集上進行訓練,缺少地貌的多樣性。為解決上述問題,團隊構建了一種超過6億參數的概率擴散模型,并收集了大規模遙感數據集用于模型的訓練,包括來自覆蓋全球大多數區域的多個空間分辨率的圖像及其地理信息(緯度、經度和分辨率)。
全球各種土地特征圖像,包括水體、山脈、沙漠、農田、城市和鄉村地區
如何生成可控分辨率的圖像
在俯拍圖像成像過程中,地物特征的展現受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準生成的能力。
MetaEarth框架圖
為此,作者提出一種分辨率引導的自級聯生成框架。不同于過去的單級生成方法,所提出的框架以多層級的方式,依次生成給定地理位置的低分辨率到高分辨率的圖像。具體而言,研究者們在不同級聯階段之間構建了一個統一模型,共享相同的網絡權重,由前一階段生成的低分辨率圖像及其空間分辨率指導生成更高分辨率的圖像。隨著級聯層數的積累,生成的遙感圖像在分辨率和內容上都表現出多樣性。
由MetaEarth生成的大尺寸高分辨率圖像示例
如何生成無界圖像
在遙感領域,現有的圖像生成方法通常只能生成有限尺寸的圖像(如 512x512 像素),對于如何生成尺寸更大、場景更廣的圖像的研究還較少。與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長可能達到數萬像素。如果簡單地“拼接”每個獨立生成的圖像會導致視覺上的不連續,因此生成連續、任意大小的無界圖像仍然是一個待解決的重要問題。
怎樣實現“絲滑”連接呢?北航團隊提出一種內存高效的滑動窗口生成方法和噪聲采樣策略。該策略將生成的圖像切分成重疊的圖像塊作為條件,通過特定的噪聲采樣策略,使相鄰圖像塊的共享區域生成相似的內容,從而避免拼接縫隙。此外,這種噪聲采樣策略,也使得模型能在實現任意尺寸的無界圖像生成時,消耗更少的顯存資源。
生成無界圖像流程圖
論文鏈接:https://arxiv.org/abs/2405.13570
團隊簡介
史振威
教授 博士生導師
鄒征夏
教授 博士生導師
北航史振威教授和鄒征夏教授團隊面向民生保障等國家重大需求,長期從事遙感圖像處理相關研究。團隊在《電氣與電子工程師協會會報(Proceedings of the IEEE)》《IEEE模式分析與機器智能匯刊(TPAMI)》《IEEE地球科學與遙感匯刊(IEEE Transactions on Geoscience and Remote Sensing)》等IEEE重要學術期刊上發表科研論文120余篇(ESI高被引論文17篇),論文被引用1萬余次。在進行學術研究的同時,團隊注重將理論研究與實際應用相結合,承擔了高分五號衛星地面處理、資源/高分系列衛星地物分類/變化監測和目標檢測識別、巴基斯坦首顆遙感衛星云雪識別等系統的研制,研究成果已應用于20余型衛星,在民生領域得到廣泛應用。
來源: 北京航空航天大學