ChatGPT之后,AI(人工智能)生圖工具如雨后春筍般涌現。從專業的Stable Diffusion(AI繪畫生成工具),到大眾化的文心一言、即夢,AI繪圖越來越沒有“門檻”了。當然,也有不少人發現,輸入相同指令AI生成的圖片卻千差萬別,甚至同一個人在同一個平臺重復相同命令,結果也可能天壤之別。
AI繪圖為何如此“任性”?其背后有什么技術原理呢?
從“復印機”到“藝術家”的演變
要理解AI的“任性”,得先了解其技術發展歷程。
早期的AI生圖技術就像高級復印機,只能復制已有圖像,缺乏真正的創造力。如今主流技術基于“擴散模型”,讓AI有了“創意生成”的能力。這就像從一團隨機彩色噪點開始,經過無數次去噪和優化,最終“雕琢”出一幅完整圖像。而且每次生成圖片時,系統會以“隨機種子”為起點,不同的種子會生成不同圖像,就像種花時不同種子開出不同花朵。
AI模型學習的是數據的概率分布,而不是確定性的映射關系。當輸入“一只可愛的小貓”,AI激活的不是某張特定的貓咪圖片,而是關于“可愛小貓”的無數種可能性,然后從中隨機選擇一個方向創作。
這種隨機性并不是技術缺陷,反而是AI技術的核心優勢。也正是這種不可預測性,讓AI有了無限的創意,成為創作者的伙伴。
給“任性”的AI套上可控韁繩
雖然隨機性是AI創作的特色,但用戶可以通過一些技巧讓結果更可控。
精確化提示詞是直接的辦法。與其輸入“一個美麗的風景”,不如詳細描述為“陽光明媚的春日午后,櫻花盛開的公園小徑,水彩畫風格”。越具體的描述,AI理解越準確,生成結果就越接近期望的樣子。
參數調優能顯著改善結果。通過調整采樣步數、引導強度等參數,用戶可以在創意性和可控性之間找到平衡。引導強度越高,AI就越嚴格遵循提示詞,但可能會損失一些創意。
選擇合適的采樣器也很重要,不同采樣器就像不同畫筆,有的追求速度,有的追求質量,有的則在兩者之間平衡;迭代優化是專業用戶的常用策略,能基于初始生成結果,不斷調整提示詞和參數,往往能獲得出色結果。
對于想要更精確控制的用戶,還有一些高級技巧。比如ControlNet(控制擴散模型生成結果)技術,可以像給AI提供“設計圖紙”一樣,通過草圖、人體姿態圖或深度圖精確控制生成結果的構圖和布局。圖生圖功能則讓用戶基于現有圖片修改和優化,既保持原有基礎結構,又能加入新元素……
此外,實際使用中還有一些容易被忽視的細節。不同顯卡和內存配置可能對生成結果產生細微影響;同一AI工具的不同版本可能產生不同結果;有時調整描述詞的先后順序也會影響最終效果;逗號、句號等標點符號在某些情況下也會影響AI的理解。
跟AI的“創造性偶然”共舞
隨著技術進步,AI圖像生成正朝著更可控的方向發展。
未來,我們或許能看到更智能的AI助手,它們不僅能生成圖像,還能主動建議優化方案?;诖笳Z言模型的提示詞優化工具也會不斷完善,幫助用戶更好地與AI溝通。
但我們也必須明白,AI的“任性”特質,反映了AI的一個重要特征:它不是簡單的工具,而是具有創造性的伙伴。
最好的AI藝術作品,往往來自人類創意想法與AI隨機創造力的完美結合。學會與AI的“任性”共舞,才能在充滿可能性的創作世界中發現獨特風格。
(作者劉延嘉系中國科學院計算技術研究所工程師)
來源: 科普時報