相信不少朋友已經體驗過文生圖這類模型,比如 MidJourney、Stable Diffusion 或 OpenAI 的 DALL·E 等。只需簡單輸入一段文字,就能獲得高質量的圖像,這也讓許多平面設計師倍感壓力。接下來,我們將深入探討這類模型的工作原理。乍一聽似乎很復雜,但其實基本概念相當直觀。

主流的文生圖模型大多采用了一種名為“擴散”(Diffusion)的技術。擴散的概念源自物理學領域,可以這樣理解:想象一杯清水,當一滴墨水滴入水中時,墨水會逐漸與水混合,最終使得整杯水變色。這個過程中,墨水分子與水分子均勻混合,正是擴散現象的體現。文生圖模型的核心思想正是基于這樣的擴散過程。

以一張小貓的圖片為例。首先,我們可以通過向圖片中添加隨機像素(即噪點),使其變得模糊不清。隨著噪點數量的增加,圖片將逐漸失去原有的細節,最終呈現出類似電視信號不佳時出現的雪花狀畫面。這種完全隨機的像素分布被稱為“白噪聲”。

假設上述過程是可逆的,即我們可以從白噪聲開始,逐步去除噪點,使原本模糊的畫面逐漸恢復清晰。在這個過程中,隱藏在白噪聲中的圖像逐漸浮現,就像是小貓的輪廓逐漸顯現一樣。因此,文生圖模型的擴散過程實際上是一種逆向操作——即“去噪”。

不過,這里還有一個問題:我們如何將文本信息融入這一過程中?答案將在后續的解釋中揭曉。

讓我們回到剛才討論的去噪過程。假設我們現在要訓練一個大模型,我們可以暫且稱其為“圖像生成器”。該模型的功能是從含噪圖像中移除噪聲,從而生成清晰的圖像。具體來說,模型中的藍色部分負責實現從含噪圖像到清晰圖像的轉換。

但這只是開始。為了使模型能夠根據文本描述生成相應的圖像,我們需要賦予它文本理解的能力。因此,我們需要另一個模型來實現這一點。這個模型將通過大量的帶注釋圖像進行訓練——每張圖像都配有一段描述性的文本。

例如,一張“小狗在草地上奔跑”的圖片會配上相應的文字描述。通過訓練,模型將學會理解文本與圖像之間的關聯。

簡單來說,當模型接收到“一只躺著的貓”這樣的文本輸入時,它會在其內部生成與之匹配的圖像,而不會生成不相關的圖像,比如“在草地上奔跑的小狗”。

最終形成的“文本轉圖像”(Text-to-Image)模型包含了多個子模型。具體來說,模型首先需要具備文本理解能力,然后接收一個初始的含噪圖像作為“畫布”。接下來,模型中的“去噪”部分(即圖像生成器)根據文本內容移除噪聲。最后,生成的圖像數據通過圖像解碼器轉換成可視化的圖像。

通過這種方式,模型可以根據提供的文本描述生成相應的圖像,無論是山水畫還是小貓。這個過程類似于在一張充滿隨機噪聲的畫布上,根據給定的文字描述逐步去除噪聲,最終呈現出清晰的圖像。

同樣的原理也可以應用于視頻生成。視頻本質上是由一系列連續的靜態圖像組成,快速播放時給人以動態的感覺。因此,生成視頻的過程類似于連續生成多個靜態圖像,并將它們組合在一起形成連續的畫面。在這個過程中,同樣會用到diffusion技術。

幾個月前SORA大模型出現后有人認為,SORA已經能夠理解物理世界,通用人工智能(AGI)將在一兩年內實現。這種觀點往往出自一些知名人士或意見領袖。然而,面對這樣的說法,我們不能盲目跟風,而是要用批判性思維來進行深入分析。

我們先來看看嬰兒是如何在短短幾個月內學會理解物理世界的。嬰兒出生時就像一張白紙,但到八九個月大時,他們已經掌握了基本的物理規則。例如,當嬰兒看到物體違背了重力法則而懸浮時,他們會表現出明顯的驚訝,這意味著他們已經理解了物體不應無故懸浮的基本原則。

人類之所以能夠在短時間內迅速學習這些知識,很大程度上歸功于我們擁有的多種感官——視覺、聽覺、嗅覺、觸覺和味覺。通過這些感官,我們可以全方位地感知周圍環境。舉個例子,當一個嬰兒觸摸到裝有熱水的杯子時,他不僅能看到杯子,還能感受到水的溫度,并在燙手時立即縮回手。杯子落地摔碎時,他不僅能聽到聲音,還能看到碎片四散的場景。所有這些感官體驗共同作用,促進了大腦的發展,并幫助我們理解物理世界。

相比之下,當前的SORA大模型,主要依靠大量的視頻數據進行訓練。這些模型僅具備視覺輸入,缺乏嗅覺、觸覺和味覺等其他感官信息。如果我們將這些模型與嬰兒進行類比,那么可以想象,如果一個嬰兒被限制在一個透明箱子里,只能通過視覺來觀察世界,而無法使用其他感官,那么他將難以發展出全面的理解能力。因此,在目前的技術條件下,期望這些模型能夠像人類那樣理解物理世界顯然是不切實際的。

獲取更多內容,請關注“孫老師聊人工智能”公眾號。

來源: 孫老師聊人工智能