无码91精品A在线观看免费,国产精品AV,日日躁躁狠狠躁高潮喷水

浙里科技前沿② | AI視頻時代，誰在聞風而動

浙江省科學技術協會上傳時間：2025-07-15

AI 人工智能前沿科技 AI視頻

圖文簡介：如今，學界、業界已在眺望AI視頻迎來“技術奇點”的時刻。我們該如何理解視頻生成模型的核心突破意義？它又會給生產生活帶來什么影響？

人工智能（AI）推動視頻生成技術又邁出新的一步。一條發布在社交媒體平臺X上的AI視頻里，角色集體開口戲謔道：“我們不過是0和1的排列組合？醒醒吧，伙計。”

讓他們“開口說話”的是美國搜索引擎公司谷歌在今年5月發布的視頻生成模型Veo 3，其最大的特點是在視頻中融合音頻，直接生成話語流暢、口型自然的人物，且自帶符合場景特征的音效。而此之前，AI視頻一直是默片，需要后期配音，再借助工具讓角色嘴唇動作看起來合理。

2022年以來，以ChatGPT聊天機器人程序為代表的生成式人工智能引發關注，行業像被按下了快進鍵，幾乎每個月都有AI熱點出現。相比之下，視頻生成技術在最初一段時間里不溫不火。不過，歷經近3年的發展，AI視頻已逐漸從最初類似PPT、動圖的形態，進化至直接產出主體和場景一致的視頻。基座模型能力迭代，帶來了畫質、流暢度、真實感的提升，影響面不斷擴展、滲透性不斷增強。

快手旗下視頻生成AI產品可靈打造的全球首支用戶共創AI創意短片，亮相香港銅鑼灣SOGO（受訪者供圖）

如今，學界、業界已在眺望AI視頻迎來“技術奇點”的時刻。我們該如何理解視頻生成模型的核心突破意義？它又會給生產生活帶來什么影響？

忽如一夜春風來

2023年初，AI生成視頻與生成圖像，幾乎在同一時期進入公眾視野——英國人工智能公司Stability.ai的“穩定擴散”模型（Stable Diffusion）帶火了“文生圖”，美國人工智能公司Runway的視頻生成模型“Gen-1”則是激起了“人人都能制作電影大片”的無限遐想。

彼時，“穩定擴散”模型用時數月，讓AI生成的圖像幾近照片級真實。Runway創始人不由興奮：“我們已經看到了圖像生成模型的爆發，相信2023年將會是視頻之年。”

然而，圖像生成模型的成功并沒能引發AI生成視頻技術的同步成熟。

第27屆上海國際電影節，快手旗下視頻生成產品可靈展示AI生成的動畫作品（受訪者供圖）

起初，AI視頻主要分為兩條技術路徑：或是與“文生圖”的技術一脈相承，著重“還原呈現”，打上擴散模型（Diffusion Model）的烙印；或是沿用ChatGPT的技術脈絡，采用自回歸模型（Autoregressive model）方法，講究“邏輯推理”，靠大參數、大數據，從零開始構建模型體系。

“走純粹的自回歸路徑，至今尚未出現很好的產品。”浙江大學藝術與考古學院副教授沈華清說。同時，他認為更普遍的擴散模型“缺陷也明顯”。

這位自稱“無門無派、興趣廣泛的教書先生”，2006年起接觸AI，生成圖片、創作視頻，19年間從“好奇嘗鮮”變成“深度沉迷”。沈華清類比幀動畫原理，向記者解釋擴散模型的技術難點：“按最低的24fps（幀/秒）算，5秒的視頻需要120張圖。每張圖間都要保持相互的人物一致、動作連貫，連光影的斑駁細節都不能穿幫——這相當于讓120位畫家同時畫同一幅畫，每一幅每一筆都要嚴絲合縫。”

的確，靜態圖像生成只需解決“是什么”的問題。視頻卻要在此基礎上，在回答“如何變化”命題的同時，保證主體是統一的、運動是符合常識的。人們發現，2023年底美國人工智能初創公司“米德朱尼”（Midjourney）同名的“文生圖”工具已經能生成以假亂真的圖像，同期美國AI初創公司Pika labs發布的AI視頻產品Pika 1.0還局限在風格特定的3秒片段上。

沈華清回憶起那段使用經歷，即便先用“文生圖”模型生成了不錯的分鏡圖，再通過“圖生視頻”模型拼接成片，但在最終呈現的幾秒視頻里，人物總是畸形、畫面常有畸變，“這哪是人在動，分明是算法在抽搐，看得人脊背發涼”。

生成視頻技術始終“小步快走”，沒有根本性的突破。就在大家快失去耐心時，時間來到2024年2月：美國開放人工智能研究中心（OpenAI）繼ChatGPT后，再發布“文生視頻”模型Sora。

這一全新模型用ChatGPT背后的神經網絡架構（Transformer）替換傳統擴散模型中的卷積U-Net網絡，迭代出一條新的DiT（Diffusion Transformer）路徑，如此，Sora可以精準根據文本指令，生成最長為1分鐘的高清視頻，畫面逼真、絲滑連貫。

業內直言：“AI視頻的‘GPT時刻’，來了。”

忽如一夜春風來。眼下，騰訊“混元”、華為“諾亞”......各家廠商謀局落子，可謂“神仙打架”。其中，又以擁有海量視頻數據的字節跳動、快手增勢最為迅猛，其分別在2024年3月、6月推出的即夢和可靈，迅速躋身AI視頻產品的第一梯隊。

一位技術人員笑稱，這條DiT新路徑似乎達成了一個“成年”模型的“既要又要”——用大語言模型里學到的世界知識來幫助生成視覺世界。“視頻就這樣成了從大模型根上生長出來的一項功能，上升軌跡飛快。”

歷經發展，AI創作者羅翀用可靈AI等工具制作的AI非遺文化主題片《瓷韻》人物逼真（受訪者供圖）

但即便是Sora問世一年后的今天，一鍵“文生視頻”仍難有良品。“畢竟，語言是高度壓縮的信息。”沈華清說，一千個讀者眼中尚且有一千個哈姆雷特，將抽象文字直接轉為具體的時空連續體，這對算力和工程化的要求實在太高，“不是誰都能做的，也不是在短時間內就能做好的。”

是助手，更是共創者

AI技術的革新令人振奮，但技術終歸要落地產業，才能產生價值。

一位技術人員告訴記者，不同于此前大模型簡單直接的“文本輸入-文本輸出”交互邏輯，視頻生成技術因視覺模態的復雜性，用起來要棘手得多。而“能用”與“好用”之間，又橫亙著訓練數據、算力、成本控制等多重障礙。

眼下，單個的AI視頻生成工具還處在“宣傳視頻都很好，但實際一點都不好用”的階段。

“套用多種工具很有必要。”中國傳媒大學導演系科班出身的羅翀，拍過豆瓣8.3分傳記式宣傳片、拿過中國紀錄片學院獎……今年年初，他從杭州某大廠離開，轉型自由AI導演。在制作多個商片的過程中，他迅速摸到了生成視頻的一條路子。

AI創作者羅翀用可靈AI等工具制作的AI非遺文化主題片《瓷韻》，瓷器上的花紋細膩（受訪者供圖）

羅翀介紹，不同視頻生成模型有不同的優缺點，比如快手的可靈強于對多鏡頭、物理規律的理解；美國人工智能公司Runway的模型性價比更高，生成速度更快。

但畢竟AI生成如同“抽卡”，他告訴記者，即便套用了多個AI視頻產品不斷打磨、篩選，得到了比較滿意的結果，還是需要借助PS等編輯軟件再進行微調。“不過，最后成品完全可以和傳統商片掰掰手腕。”

“雖然缺少故事線，但未來，意識流的賽博視頻或將成為一個門類。”羅翀說，自己仿佛遇見了共創者，“我負責想象、嘗試，AI負責調整、展現，降本增效的同時，極大地拓寬創作的自由度。”

AI創作者羅翀用可靈AI等工具，制作了國漫風詩詞文化片《詩韻》（受訪者供圖）

院線影視講究起承轉合、質量要求更高。AI離這個目標仿佛還遠，但在浙江，AI好像又很近。一家老牌影視企業，便提供了可供分析的落地樣本。

第27屆上海國際電影節啟幕前夕，浙江博采傳媒有限公司一條3分鐘創意短片《兩代悟空對戰》，在B站傳播量近百萬。網友紛紛贊嘆所用技術之精妙——無論是六小齡童飾演的86版美猴王，還是網游《黑神話：悟空》的天命人，“大圣風采依舊”。

記者也去湊了個熱鬧。湖州市德清縣博采AI虛擬影視基地，導演的監視器中，兩代悟空對戰正酣，遠處宮殿群光影流動。但現場，只有兩位動捕老師，拿著特殊棍棒，在一塊“空地”“打”得激烈，無論是角色樣貌、服飾，還是建筑、云霧，都是LED顯示屏“附上”的畫面。工作人員用鼠標一點，上天入地，切換只在分秒間，演員置身其中，畫面真假難辨。

博采AI虛擬影視基地影棚內，虛實結合拍攝（受訪者供圖）

“單靠AI，肯定跑不出這樣的片子。”博采傳媒研發中心總監王偉東告訴記者，《兩代悟空對戰》融合了影視行業所用的4D掃描、Holo身體掃描、LED拍攝等技術，“我們稱之為‘虛擬制片’。”據他介紹，團隊專門開發了一套虛擬制片管理軟件Kmoke，融合各類AI工具，“效率直接提高了3倍、成本起碼節省了三分之一。”

博采傳媒總裁辦項目統籌牛聰說，在電影創作中，相比導演和制片，AI其實是做好了一份助理的工作——通過AI實時預演，讓創意的好壞“盡在眼前”；傳統影視的各個環節也從“線性等待”轉為“動態協同”，無論是調整劇本還是場景，在AI的“協同”下，都更加高效。

湖州市德清縣博采AI虛擬影視基地，LED虛擬拍攝大屏（受訪者供圖）

“今年，我們引入AI大模型，繼續迭代一整套AI創作系統‘墨客’，實現連貫性的劇本創作，并產出精準可控的視頻。”牛聰坦言，針對現在AI視頻像素細節不夠的問題，“通過改進的AI增分技術，也實現從720p躍升為5K，直接達到電影放映級畫面質量。”

拉平起始點，重新競爭

美國開放人工智能研究中心（OpenAI）在一份技術報告中，對AI視頻的定義是“世界模擬器”。這個遠景表明，AI視頻有潛力成為一種通用人工智能，理解世界、改變世界。

不可否認，這種顛覆性在技術細節中確有顯露。有從業者根據Sora產品表現出的不錯的“3D一致性”，推測它或許能通過參數的再疊加，沖破智能閾值，觸摸到對世界完整理解和創造的邊界。

“大力出奇跡”真能無往不利？學界對此的質疑聲也不少。

北京通用人工智能研究院院長朱松純曾明確：過去，“大數據+大算力+大模型”的思維定式，過度簡化了通用人工智能的復雜性。美國互聯網公司Meta（原Facebook）人工智能研究負責人楊樂昆更是直言：“生成式模型是建立世界模型的死胡同，通過生成像素來模擬世界的動作，既浪費又注定失敗。”

實踐也證明，AI視頻實現如此“暴力美學”的代價極高：運行一個動輒超百億參數規模的視頻生成模型，尖端顯卡要“跑”數十秒甚至數分鐘，才能制作一個一分鐘、分辨率高達1080p的視頻，算力成本高昂得驚人。

不可忽視的還有生成式人工智能的固有癥結——“幻覺”。從“0.8＜0.09”的數學對答，到四條腿的螞蟻圖，再到在跑步機上倒著跑的人，AI擅長計算卻拙于糾錯，因為它沒有自主意識，對現實世界“知之甚少”。北京大學新聞與傳播學院教授胡泳坦言，幻覺或許會在技術的迭代中減少，但永遠無法徹底修復，失敗風險始終存在。

技術障礙外，高質量訓練數據又從何而來？一如ChatGPT問世引發的深度造假、版權侵權、隱藏偏見等法律倫理爭議，AI視頻同樣繞不開這些熟悉而嚴重的“老問題”。

但不可否認，AI視頻正加速被市場接納，其價值與影響力持續攀升。《2025中國廣告主營銷趨勢調查報告》顯示：今年4月，超50%的廣告主已將生成式AI納入創意生產，AI營銷內容占比超過10%。

也是在4月，美國電影藝術與科學學院宣布，2026年第98屆奧斯卡金像獎將正式允許AI參與創作的電影參評，這標志著AI正式進入主流評價體系。但評審標準中，“將綜合考慮人類創作者在創意創作過程中所發揮的核心作用，來決定最終的獲獎者”的微妙表述，也暗示著人類藝術本質的不可替代性。

AI視頻正處落地的“中場哨”階段。熱潮過后，玩家紛紛沉下心來，打磨產品的基礎能力、拓寬模型的適應邊界、重構與用戶的長期關系。

其中，可以確定的是，AI正成為創作的基底。正如快手聯合創始人程一笑將可靈定位為“更多行業創作的新基礎設施”，AI將拉平所有人的起始點。

采AI虛擬影視基地影棚內，如今已能通過技術快速呈現之前需要花重金制作的特效（受訪者供圖）

“我們不要放大AI的影響，也不要低估AI的長期影響。”5年前，沈華清選擇將AI帶入課堂，鼓勵學生借助工具嘗試不同風格的拓展、延伸、融合，從中吸取靈感。他認為，在這個技術愈發平權的時代，競爭已轉向快速捕捉創意并落地的原創能力，考驗的是使用者的積累——“擁有審美、分析、判斷能力，成為跨領域、跨學科的融合通才，是AI時代的新要求”。

亚洲激情小说另类欧美,无码在线播放一区,99 久久国产欧美,污视频网站在线观看二区

浙里科技前沿② | AI視頻時代，誰在聞風而動

科普中國系列品牌網站

入駐科普號

合作機構

亚洲 激情 小说 另类 欧美,无码在线播放一区,99 久久 国产 欧美,污视频网站在线观看二区

浙里科技前沿② | AI視頻時代，誰在聞風而動

科普中國系列品牌網站

入駐科普號

合作機構

亚洲激情小说另类欧美,无码在线播放一区,99 久久国产欧美,污视频网站在线观看二区