在上一期中,我們介紹了GAN模型,以及通過GAN模型可以產生逼真的圖片。不過,GAN模型也存在很嚴重的問題。因為本身存在復雜的對抗行為,GAN很難訓練,有的時候模型學習過程中會卡住或者崩潰,性能直接回復到原點。另外,GAN的通用性很低,如果想生成一類圖片需要預先找到大量真實的同類圖片作為訓練數據,這也妨礙了GAN在不同的場景的大規模應用。

圖片來源:pixabay

一、民用化、預訓練的生成式模型

新的模型很大程度上解決了這一問題。2021年1月,美國研究機構OPEN AI 發布了DALL·E,OPEN AI 隨后又在2022年4月公布了DALL·E 2。和GAN相比,DALL·E是預先訓練好的大模型,也有理解人類語言的能力,所以只需要用戶輸入一段文字,就能直接生成對應的圖片,不再需要每次都根據對應數據集重新訓練。

因為不再需要訓練模型的專業知識,直接輸入文字就能生成效果驚人的圖片,DALL·E 2在國外的社交網絡上引起了巨大轟動。大家紛紛嘗試用各種各樣奇怪的文字輸入模型,再把生成的圖片公布出來,一度形成了網絡迷因。

DALL·E 2不僅能準確地生成各種實體,比如動物、植物、建筑、人,還能按照要求改變繪畫風格,從寫實照片到數字藝術,從油畫到簡筆畫,從梵高到安迪霍爾,從中國國畫到日本浮世繪,從毛線織物到橡皮泥風格。只需要在輸入文字中加入一兩個描繪風格的詞,DALL·E 2就能自動生成符合這種風格的圖片。

更令人驚訝的是,DALL·E對語言的內涵經常有非常準確的理解,因此在面對一些完全虛構的場景時,也能生成帶有復雜邏輯的驚人圖片。例如:

二、DALL·E 2是如何被訓練出來的呢?

首先,OPEN AI 獲取了幾億張圖片和對應的圖片說明,并訓練了一個名為CLIP的模型。

這個模型可以同時把文字和圖片投射到一個復雜的高維空間里。如果圖片和文字有對應關系,那么在空間中代表兩者的點就會非常接近;反之則會有較大的距離。直觀地說,這個模型可以捕捉到人類語言和圖片中的語義,也可以根據給定的文字,找到符合文字語義的圖片。

CLIP模型可以把語義相近的圖片和文字匹配到高維空間里距離較近的點上

隨后,生成的圖片表示會經過一個叫GLIDE的擴散模型,增加和去除隨機噪音。因為整個過程加入了隨機因子,所以一句輸入的文字可以生成多張不同的圖片——每一張圖片都符合文字的語義。

除了OpenAI,谷歌也隨后推出了自己的模型Disco Diffusion。在技術原理上它和DALLE很類似,但允許藝術家在輸入主題文字外,還能控制一些圖片參數。

DALLE·2和Disco Diffusion誰更強?看起來他們各有千秋,暫時難分伯仲。而比較兩者的作品更是成為國外科技圈和設計圈流行文化。總體來說,它們的風格區別還是很明顯。DALLE生成的圖片更有邏輯、更寫實。照片風格的圖片,也不太會因為失真讓人反感。而另一方面Disco Diffusion的圖片想象力更足,更有自己的風格,也更有“藝術感”。

雖然這些模型都很強大,但卻不能理解中文,也難以生成有中國特色的圖片,例如國畫。因此,很多中國的機構也在訓練有創作能力的模型。百度于2022年8月發布了文心一格,不僅可以接受中文輸入,還能生成中國國畫或帶有古詩詞意境的圖片。

百度的文心一格生成的圖片“江南水鄉”

三、生成圖片的不足之處

當然,在欣賞AI作品的同時,我們也不能忽略人工智能在作畫時產生的問題。首先是作品質量問題。雖然人工智能作品充滿了沖擊力和視覺張力,但和幾乎所有其他的深度學習模型一樣,在理解知識、推理、邏輯方面做得都不夠好。例如“畫一張世界上最大的貓科動物的圖片”,甚至是“一只狗坐在一只貓的左邊”,都不會產生符合邏輯或常識的圖片。在生成偏寫實風格的人類圖片的時候,有時候會因為微小的偏差產生恐怖谷效應,到了讓人不適的程度。

另一個已經被廣泛注意到的問題,是人工智能經常會生成奇形怪狀的手。這種現象的原因很可能是手部是人類身體上形狀最豐富的結構之一。人的一只手有超過20個關節(相較而言,臉上只有一個關節)。

而且在大部分用來訓練的圖片中,手部經常不是最核心的部位,所以角度不同、距離不同、手勢不同、還會被陰影和其他物體遮擋。

圖注:手部有豐富的姿勢

甚至還有些更加奇特的“手”,它們的手的形狀和手指數都不相同。這些圖片都會被標注成“手”,讓模型覺得它們的形狀——以及它們形狀的平均形態,可能都是合理的,也就因此產生了各種崎嶇的手。

圖注:甚至這些也可以被標注為“手”

除了質量問題外,人工智能生成的內容還有可能產生各種倫理問題。比如在語言模型上時常會出現的偏見和刻板印象,在圖片生成中也有體現,例如生成“大公司CEO”大概率會出現一個白人成熟男性的形象。

更大的擔憂在于技術能降低生成虛假內容的門檻。一個例子是一家公司的團隊照片幾乎都是通過人工智能技術生成的。如果仔細看的話,還是能發現一些線索。比如,第一排坐起第二個人只帶了一個耳環,第二排左起第二個人的耳朵輪廓不太正常。

文章由科普中國-星空計劃(創作培育)出品,轉載請注明來源。

作者:管心宇 科普作者

審核:于旸 騰訊玄武實驗室負責人

來源: 星空計劃

內容資源由項目單位提供