作為多視角視頻壓縮的核心標準,MV-HEVC 不僅解決了 3D 視頻高碼率、高冗余的挑戰,更以其層級編碼與視差預測能力,為沉浸視頻奠定了技術底座。本篇將深入解析 MV-HEVC 的編碼機制與關鍵技術,揭示其如何在有限帶寬下實現高質量沉浸體驗。
MV-HEVC 是 HEVC (H.265) 標準的多視角擴展編碼技術。HEVC 最初(版本1)僅支持傳統單視角2D視頻編碼,而在2014年的版本2中,引入了多視角擴展 MVHEVC,將 HEVC 的范圍拓展到 3D 視頻領域[3]。MV-HEVC 旨在高效壓縮由多個視角(如左眼和右眼攝像機)捕獲的同一場景視頻,在有限帶寬下實現高質量的 3D /多視角視頻傳輸[4]。下面將詳細闡釋其編碼機制和關鍵技術要素,包括多視角視頻的編碼機制、深度數據的引入與處理,以及多視圖融合與 3D 渲染等,并比較其相對傳統 HEVC 的區別與優勢。

1、多視角視頻的編碼機制

在 MV-HEVC 中,多路攝像機捕獲的視角視頻并非彼此獨立編碼,而是被整合進同一個多層比特流進行聯合壓縮。具體而言,編碼器會選定其中一個視角(如左眼畫面)作為主視圖(基層),按常規 HEVC 進行編碼;其他視角(如右眼畫面)作為從視圖(增強層),主要記錄相對于主視圖的差異信息 [5]。如圖1所示,不同視角間存在大量重疊和相似內容——同一場景的物體在左右眼畫面中基本相同,僅存在視差位移。因此,MV-HEVC 利用這些視角相關的冗余:從視圖幀不僅參考自身視角的之前幀,還可以引用主視圖的對應幀作為參考。主視圖提供了完整畫面的基準,而增強層則以較低碼率僅編碼兩視圖差異部分。

圖2 MV-HEVC 多視角視頻編碼結構示意。

灰色I/P幀為關鍵幀或參考幀,白色B/b幀為預測幀。藍色箭頭表示跨視角參考(右視圖幀參考同期左視圖幀),黑色箭頭表示幀間預測參考[4]

例如,在 stereoscopic 3D 場景下,MV-HEVC 讓左眼和右眼的圖像分別存儲于獨立的層中,每只眼的視圖都保持完整分辨率。右眼視圖的大部分內容可通過參考左眼視圖高效預測,僅需記錄視差導致的少量差異。這種利用不同視角之間圖像內容的相似性,通過從主視圖向從視圖傳遞預測信息,有效壓縮多視角視頻中的冗余數據的跨視角預測編碼機制極大提高了壓縮效率——相較于將左右眼視頻分別獨立編碼,MV-HEVC 可在保持相同視覺質量前提下節省約30%的比特率[6]。

在播放器或解碼端,支持 MV-HEVC 的設備可以解碼兩層并分別送往左右眼顯示,實現 3D 視覺;如果解碼器不支持多視角擴展,也可退化為僅解碼基層,輸出單眼 2D 視頻畫面,從而保持一定的向下兼容性(即在不支持 MV-HEVC 的設備上仍能以 2D 形式觀看)。總而言之,MV-HEVC 通過引入多層視角編碼,有效減少了 3D 視頻的冗余數據,為高分辨率沉浸視頻提供了可行的編碼方案。

2、深度數據的引入與處理

在多視角視頻技術的發展中,深度數據如**深度圖(Depth Map)的引入是提升沉浸感和壓縮效率的另一關鍵要素。MV-HEVC 標準在制定過程中已考慮支持深度圖的附加傳輸[3]:即在多視角視頻中輔以每個像素距離攝像機的深度信息。深度圖能夠描述場景的三維幾何結構,當與多視角彩色視頻結合時,被稱為多視角+深度****(MVD)**表示。

基于深度數據,編碼器和解碼器可以進行更智能的預測和渲染:一方面,深度信息可用于提升跨視角預測的準確性,使編碼器更高效地利用視差進行壓縮;另一方面,接收端借助深度可以重建或合成額外視角****的畫面,實現一定程度的自由視角觀看。例如,有了深度圖,系統可以在左右眼視圖基礎上插值生成不同視角的圖像,以響應用戶細微的頭部位移,增強真實感。這類技術在 HEVC 的更高級擴展中有所體現—— HEVC 后續制定了 3D-HEVC 標準,在 MV-HEVC 框架基礎上加入了專門針對 3D 視頻的新工具,以獲得比MVHEVC更高的壓縮效率。3D-HEVC 支持對多個視圖及其對應的深度圖同時編碼,能更充分地利用場景幾何信息[圖3]。

圖3 3D-HEVC 編解碼器框圖

對于 Apple 沉浸視頻目前的實現而言,主要采用雙攝像機 3D 視頻,并沒有公開傳輸獨立的深度圖層。但深度的概念依然隱含其中:3D 攝像頭捕獲的視差本質上提供了場景的深度線索,Apple 的系統會根據預先校準的攝像機參數計算出合適的 3D 顯示效果。此外,Apple 在 MV-HEVC 文件中加入了元數據來描述內容的關鍵參數,如視場角(FOV)、視差范圍、3D格式等[2]。這些元數據實際上和深度信息緊密相關:播放器據此才能將180°的全景畫面正確映射到頭顯的視野中,并確保不同視角圖像融合時深度感知自然、舒適。

圖4 MV-HEVC 通過視差表達深度信息

總的來說,**深度數據的處理為多視角編碼和渲染提供了重要支撐:無論是隱式利用視差還是顯式傳輸深度圖,結合深度的信息可以提升壓縮效率并為未來更高級的沉浸視頻(如6-DoF自由視角視頻)**奠定基礎。

3、多視圖融合與3D渲染

多視圖融合指的是**將來自多個攝像視角的圖像數據整合處理,以生成沉浸式、無縫的最終畫面。**由于 MV-HEVC 保留了每只眼獨立的全分辨率視圖,相比傳統將左右畫面擠壓合并的方案,用戶看到的圖像清晰度更高,視差信息也更加準確。這為 3D 渲染提供了良好基礎,使得最終的 3D 觀感自然舒適。在播放過程中,頭部追蹤技術允許用戶四處張望,看到沉浸視頻中不同方向的景物。

對于 Apple 當前提供的180°沉浸視頻,由于其覆蓋前方半球視野,用戶左右轉頭一定角度(例如±90°)以內都能一直看到視頻畫面而不至于超出范圍。在這個過程中,系統需要根據頭顯的朝向,將相應角度的 3D 畫面呈現在用戶眼前——這實際上利用了 MV-HEVC 文件中預先標定的視場角元數據[2],確保當用戶轉頭時,視頻畫面在虛擬球面上的映射位置是準確的,左右眼圖像也始終對齊于用戶視角。若未來引入全360°的視頻或更多視角,播放器還可能需要無縫拼接來自多攝像頭的全景視圖,這涉及多視圖內容在接縫處的融合算法,以避免圖像不連續或重影。不過目前 Apple 沉浸視頻均為前向180°,無需復雜拼接,重點在于左右眼圖像的融合顯示。

圖5 根據視場角元數據對齊用戶視角示意

除了視覺融合,音頻也是多視圖體驗的一部分:Apple 的沉浸視頻配套空間音頻,提供與畫面相對應的 3D 環繞聲場。系統通過頭部追蹤調整音頻渲染,使聲音聽起來始終來自其在畫面中的正確方向和距離,從而與3D影像融合,進一步增強沉浸感[1]。

4、與傳統HEVC的區別與優勢

MV-HEVC 相較傳統單視角 HEVC ,在多視角視頻應用中展現出顯著的技術優勢。下面將兩者的關鍵差異與優劣總結如下:

圖6 傳統單視角HEVC與MV-HEVC在3D/多視角視頻應用中的區別與優勢

由上表可見,MV-HEVC 通過多層次、跨視角預測的創新,在保持高兼容性的同時顯著提升了 3D 視頻的壓縮效率和質量,是傳統 HEVC 難以實現的。當然,實現這些優勢也要求編碼/解碼器具備更高的復雜度和多流處理能力,但得益于 MV-HEVC 主要在高層語法上擴展,核心解碼算法與HEVC一致,對硬件來說升級成本相對低廉。綜合而言,MV-HEVC 為沉浸視頻提供了一套高效且相對成熟的編碼方案,成為 Apple 等廠商在空間視頻時代的重要技術支撐。

來源: 中移科協