正在閱讀:

半年過去,AI視頻卷到哪兒了?

掃一掃下載界面新聞APP

半年過去,AI視頻卷到哪兒了?

國產版Sora,誰最強?

文|定焦 王璐

編輯|魏佳

自從今年年初Sora露面后,國內國外都想用AI顛覆好萊塢,近期的AI視頻圈更是十分熱鬧,產品一個接一個發(fā)布,都喊著要趕超Sora。

國外兩家AI視頻初創(chuàng)公司率先開打,舊金山人工智能科技公司Luma推出Dream Machine視頻生成模型,并扔出堪稱電影級別的宣傳片,產品也給用戶免費試用;另一家在AI視頻領域小有名氣的初創(chuàng)公司Runway,也宣布將Gen-3 Alpha模型向部分用戶開啟測試,稱能將光影這樣的細節(jié)生產出來。

國內也不甘示弱,快手推出的可靈Web端,用戶能生成長達10秒的視頻內容,還具備首尾幀控制和相機鏡頭控制功能。其原創(chuàng)AI奇幻短劇《山海奇鏡之劈波斬浪》也在快手播出,畫面均由AI生成。AI科幻短劇《三星堆:未來啟示錄》也在近期播出,為字節(jié)旗下的AI視頻產品即夢制作。

AI視頻如此快的更新速度讓不少網友直呼,“好萊塢可能又要來一次大罷工了。”

如今在AI視頻賽道上,有谷歌、微軟、Meta,阿里、字節(jié)、美圖等國內外科技、互聯(lián)網巨頭,也有Runway、愛詩科技等新秀公司,據「定焦」不完全統(tǒng)計,僅國內,便有約20家公司推出了自研AI視頻產品/模型。

頭豹研究院數據顯示,2021年中國AI視頻生成行業(yè)的市場規(guī)模為800萬元,預計2026年,這一市場規(guī)模將達到92.79億元。不少業(yè)內人士相信,2024年生成視頻賽道會迎來Midjourney時刻。

全球的Sora們發(fā)展到什么階段了?誰最強?AI能干掉好萊塢嗎?

圍攻Sora:產品雖多,能用的少

AI視頻賽道推出的產品/模型不少,但真正能讓大眾使用的十分有限,國外的突出代表便是Sora,半年過去了還在內測,僅對安全團隊和一些視覺藝術家、設計師和電影制作人等開放。國內情況也差不多,阿里達摩院的AI視頻產品“尋光”、百度的AI視頻模型UniVG都在內測階段,至于目前正火的快手可靈,用戶想使用也需要排隊申請,這已經刨去了一大半產品。

剩下可使用的AI視頻產品中,一部分設置了使用門檻,用戶需要付費或懂一定技術。比如潞晨科技的Open-Sora,如果不懂一點代碼知識,使用者便無從下手。

「定焦」整理國內外公布的AI視頻產品發(fā)現(xiàn),各家的操作方式和功能差不多,用戶先用文字生成指令,同時選擇畫幅大小、圖像清晰度、生成風格、生成秒數等功能,最終點擊一鍵生成。

這些功能背后的技術難度不同。其中最難的是,生成視頻的清晰度和秒數,這也是AI視頻賽道各家在宣傳時比拼的重點,背后與訓練過程中使用的素材質量和算力大小密切相關。

AI研究者Cyrus告訴「定焦」,目前國內外大多數AI視頻支持生成480p/720p,也有少部分支持1080p的高清視頻。

他介紹,高質量素材越多,算力越高,訓練出來的模型能生成更高質量的視頻,但不代表有高質量的素材算力,就能生成高質量素材。而用低分辨率素材訓練的模型,若要強行生成高分辨視頻,會出現(xiàn)崩壞或者重復,比如多手多腳。這類問題可以通過放大、修復和重繪之類的方式解決,不過效果和細節(jié)一般。

很多公司也把生成長秒數當賣點。

國內大部分AI視頻支持2-3秒,能達到5-10秒算是比較強的產品,也有個別產品很卷,比如即夢最高長達12秒,不過大家都不及Sora,它曾表示最長能生成一段60秒的視頻,但由于還沒有開放使用,具體表現(xiàn)如何無法驗證。

光卷時長還不夠,生成的視頻內容也得合理。石榴AI首席研究員張恒對「定焦」表示:從技術上,可以要求AI一直輸出,毫不夸張地說,哪怕生成一個小時的視頻,也不是問題,但我們多數時候要的并不是一段監(jiān)控視頻,也不是一個循環(huán)播放的風景畫動圖,而是畫面精美有故事的短片。

「定焦」測試了5款國內比較熱的免費文生視頻AI產品,分別為字節(jié)的即夢、Morph AI的Morph Studio、愛詩科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI,給了它們一段相同的文字指令:“一個穿著紅裙子的小女孩,在公園里,喂一只白色的小兔子吃胡蘿卜?!?/p>

幾款產品的生成速度上差不多,僅需2-3分鐘,但清晰度、時長差得不少,準確度上更是“群魔亂舞” ,得到結果如下 :

藝映AI

Vega AI

即夢

Morph

Pix Verse各家的優(yōu)缺點很明顯。即夢贏在時長,但生成質量不高,主角小女孩在后期直接變形,Vega AI也是相同的問題。PixVerse的畫質比較差。

相比之下,Morph生成的內容很準確,但只有短短2秒。藝映畫質也不錯,但對文字理解不到位,直接把兔子這一關鍵元素弄丟了,且生成視頻不夠寫實,偏漫畫風。

總之,還沒有一家產品能給到一段符合要求的視頻。

AI視頻難題:準確性、一致性、豐富性

「定焦」的體驗效果和各家釋放的宣傳片相差很大,AI視頻如果想要真正商用,還有相當長的一段路要走。

張恒告訴「定焦」,從技術角度看,他們主要從三個維度考量不同AI視頻模型的水平:準確性、一致性、豐富性。

如何理解這三個維度,張恒舉了個例子。

比如生成一段“兩個女孩在操場看籃球比賽”的視頻。

準確性體現(xiàn)在,一是對內容結構理解的準確,比如視頻中出現(xiàn)的要是女孩,而且還是兩個;二是流程控制的準確,比如投籃投進后,籃球要從籃網中逐漸下降;最后是靜態(tài)數據建模準確,比如鏡頭出現(xiàn)遮擋物時,籃球不能變成橄欖球。

一致性是指,AI在時空上的建模能力,其中又包含主體注意力和長期注意力。

主體注意力可以理解為,在看籃球比賽的過程中,兩個小女孩要一直留在畫面里,不能隨便亂跑;長期注意力為,在運動過程中,視頻中的各個元素既不能丟,也不能出現(xiàn)變形等異常情況。

豐富性則是指,AI也有自己的邏輯,即便在沒有文字提示下,能生成一些合理的細節(jié)內容。

以上維度,市面上出現(xiàn)的AI視頻工具基本都沒能完全做到,各家也在不斷提出解決辦法。

比如在視頻很重要的人物一致性上,即夢、可靈想到了用圖生視頻取代文生視頻。即用戶先用文字生成圖片,再用圖片生成視頻,或者直接給定一兩張圖片,AI將其連接變成動起來的視頻。

“但這不屬于新的技術突破,且圖生視頻難度要低于文生視頻,”張恒告訴「定焦」,文生視頻的原理是,AI先對用戶輸入的文字進行解析,拆解為一組分鏡描述,將描述轉文本再轉圖片,就得到了視頻的中間關鍵幀,將這些圖片連接起來,就能獲得連續(xù)有動作的視頻。而圖生視頻相當于給了AI一張可模仿的具體圖片,生成的視頻就會延續(xù)圖片中的人臉特征,實現(xiàn)主角一致性。

他還表示,在實際場景中,圖生視頻的效果更符合用戶預期,因為文字表達畫面細節(jié)的能力有限,有圖片作為參考,會對生成視頻有所幫助,但當下也達不到商用的程度。直觀上說,5秒是圖生視頻的上限,大于10秒可能意義就不大了,要么內容出現(xiàn)重復,要么結構扭曲質量下降。

目前很多宣稱用AI進行全流程制作的影視短片,大部分采用的是圖生視頻或者視頻到視頻。

即夢的使用尾幀功能用的也是圖生視頻,「定焦」特意進行了嘗試,結果如下:

在結合的過程中,人物出現(xiàn)了變形、失真。

Cyrus也表示,視頻講究連貫,很多AI視頻工具支持圖轉視頻也是通過單幀圖片推測后續(xù)動作,至于推測得對不對,目前還是看運氣。

據了解,文生視頻在實現(xiàn)主角一致性上,各家也并非純靠數據生成。張恒表示,大多數模型都是在原有底層DIT大模型的基礎上,疊加各種技術,比如ControlVideo(哈工大和華為云提出的一種可控的文本-視頻生成方法),從而加深AI對主角面部特征的記憶,使得人臉在運動過程中不會發(fā)生太大變化。

不過,目前都還在嘗試階段,即便做了技術疊加,也還沒有完全解決人物一致性問題。

AI視頻,為什么進化慢?

在AI圈,目前最卷的是美國和中國。

從《2023年全球最具影響力人工智能學者》(簡稱“AI 2000學者”榜單)的相關報告可以看出,2020年-2023年全球“AI 2000機構”4年累計的1071家機構中,美國擁有443家,其次是中國,有137家,從2023年“AI 2000學者”的國別分布看,美國入選人數最多,共有1079人,占全球總數的54.0%,其次是中國,共有280人入選。

這兩年,AI除了在文生圖、文生音樂的方面取得較大進步之外,最難突破的AI視頻也有了一些突破。

在近期舉辦的世界人工智能大會上,倚天資本合伙人樂元公開表示,視頻生成技術在近兩三年取得了遠超預期的進步。新加坡南洋理工大學助理教授劉子緯認為,視頻生成技術目前處于GPT-3 時代,距離成熟還有半年左右的時間。

不過,樂元也強調,其技術水平還是不足以支撐大范圍商業(yè)化,基于語言模型開發(fā)應用所使用的方法論和遇到的挑戰(zhàn),在視頻相關的應用領域也同樣適用。

年初Sora的出現(xiàn)震驚全球,它基于transformer架構的新型擴散模型DiT再做擴散、生成的技術突破,提高了圖像生成質量和寫實,使得AI視頻取得了重大突破。Cyrus表示,目前國內外的文生視頻,大多數都沿用的是類似技術。

圖源 / Sora官網

此刻,大家在底層技術上基本一致,雖然各家也以此為基礎尋求技術突破,但更多卷的是訓練數據,從而豐富產品功能。

用戶在使用字節(jié)的即夢和Morph AI的Morph Studio時,可選擇視頻的運鏡方式,背后原理便是數據集不同。

“以往各家在訓練時使用的圖片都比較簡單,更多是對圖片存在哪些元素進行標注,但沒有交代這一元素用什么鏡頭拍攝,這也讓很多公司發(fā)現(xiàn)了這一缺口,于是用3D渲染視頻數據集補全鏡頭特征。”張恒表示,目前這些數據來自影視行業(yè)、游戲公司的效果圖。

「定焦」也嘗試了這一功能,但鏡頭變化不是很明顯。

Sora們之所以比GPT、Midjourney們發(fā)展得慢,是因為又搭了一個時間軸,且訓練視頻模型比文字、圖片更難?!艾F(xiàn)在能用的視頻訓練數據,都已經挖掘殆盡,我們也在想一些新辦法制造一系列可以拿來訓練的數據?!睆埡阏f。

且每個AI視頻模型都有自己擅長的風格,就像快手可靈做的吃播視頻更好,因為其背后有大量這類數據支撐。

石榴AI創(chuàng)始人沈仁奎認為,AI視頻的技術有Text to video(文本轉視頻),Image to video(圖片轉視頻),Video to video(視頻轉視頻),以及Avatar to video(數字人),能定制形象和聲音的數字人,已經運用到了營銷領域,達到了商用程度,而文生視頻還需要解決精準度和可控度問題。

此刻,無論是由抖音和博納合作的AI科幻短劇《三星堆:未來啟示錄》,還是快手原創(chuàng)的AI奇幻短劇《山海奇鏡之劈波斬浪》,更多是大模型公司主動找影視制作團隊進行合作,有推廣自家技術產品的需求,且作品也沒有出圈。

在短視頻領域,AI還有很長的路要走,干掉好萊塢了的說法更為時尚早。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

半年過去,AI視頻卷到哪兒了?

國產版Sora,誰最強?

文|定焦 王璐

編輯|魏佳

自從今年年初Sora露面后,國內國外都想用AI顛覆好萊塢,近期的AI視頻圈更是十分熱鬧,產品一個接一個發(fā)布,都喊著要趕超Sora。

國外兩家AI視頻初創(chuàng)公司率先開打,舊金山人工智能科技公司Luma推出Dream Machine視頻生成模型,并扔出堪稱電影級別的宣傳片,產品也給用戶免費試用;另一家在AI視頻領域小有名氣的初創(chuàng)公司Runway,也宣布將Gen-3 Alpha模型向部分用戶開啟測試,稱能將光影這樣的細節(jié)生產出來。

國內也不甘示弱,快手推出的可靈Web端,用戶能生成長達10秒的視頻內容,還具備首尾幀控制和相機鏡頭控制功能。其原創(chuàng)AI奇幻短劇《山海奇鏡之劈波斬浪》也在快手播出,畫面均由AI生成。AI科幻短劇《三星堆:未來啟示錄》也在近期播出,為字節(jié)旗下的AI視頻產品即夢制作。

AI視頻如此快的更新速度讓不少網友直呼,“好萊塢可能又要來一次大罷工了。”

如今在AI視頻賽道上,有谷歌、微軟、Meta,阿里、字節(jié)、美圖等國內外科技、互聯(lián)網巨頭,也有Runway、愛詩科技等新秀公司,據「定焦」不完全統(tǒng)計,僅國內,便有約20家公司推出了自研AI視頻產品/模型。

頭豹研究院數據顯示,2021年中國AI視頻生成行業(yè)的市場規(guī)模為800萬元,預計2026年,這一市場規(guī)模將達到92.79億元。不少業(yè)內人士相信,2024年生成視頻賽道會迎來Midjourney時刻。

全球的Sora們發(fā)展到什么階段了?誰最強?AI能干掉好萊塢嗎?

圍攻Sora:產品雖多,能用的少

AI視頻賽道推出的產品/模型不少,但真正能讓大眾使用的十分有限,國外的突出代表便是Sora,半年過去了還在內測,僅對安全團隊和一些視覺藝術家、設計師和電影制作人等開放。國內情況也差不多,阿里達摩院的AI視頻產品“尋光”、百度的AI視頻模型UniVG都在內測階段,至于目前正火的快手可靈,用戶想使用也需要排隊申請,這已經刨去了一大半產品。

剩下可使用的AI視頻產品中,一部分設置了使用門檻,用戶需要付費或懂一定技術。比如潞晨科技的Open-Sora,如果不懂一點代碼知識,使用者便無從下手。

「定焦」整理國內外公布的AI視頻產品發(fā)現(xiàn),各家的操作方式和功能差不多,用戶先用文字生成指令,同時選擇畫幅大小、圖像清晰度、生成風格、生成秒數等功能,最終點擊一鍵生成。

這些功能背后的技術難度不同。其中最難的是,生成視頻的清晰度和秒數,這也是AI視頻賽道各家在宣傳時比拼的重點,背后與訓練過程中使用的素材質量和算力大小密切相關。

AI研究者Cyrus告訴「定焦」,目前國內外大多數AI視頻支持生成480p/720p,也有少部分支持1080p的高清視頻。

他介紹,高質量素材越多,算力越高,訓練出來的模型能生成更高質量的視頻,但不代表有高質量的素材算力,就能生成高質量素材。而用低分辨率素材訓練的模型,若要強行生成高分辨視頻,會出現(xiàn)崩壞或者重復,比如多手多腳。這類問題可以通過放大、修復和重繪之類的方式解決,不過效果和細節(jié)一般。

很多公司也把生成長秒數當賣點。

國內大部分AI視頻支持2-3秒,能達到5-10秒算是比較強的產品,也有個別產品很卷,比如即夢最高長達12秒,不過大家都不及Sora,它曾表示最長能生成一段60秒的視頻,但由于還沒有開放使用,具體表現(xiàn)如何無法驗證。

光卷時長還不夠,生成的視頻內容也得合理。石榴AI首席研究員張恒對「定焦」表示:從技術上,可以要求AI一直輸出,毫不夸張地說,哪怕生成一個小時的視頻,也不是問題,但我們多數時候要的并不是一段監(jiān)控視頻,也不是一個循環(huán)播放的風景畫動圖,而是畫面精美有故事的短片。

「定焦」測試了5款國內比較熱的免費文生視頻AI產品,分別為字節(jié)的即夢、Morph AI的Morph Studio、愛詩科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI,給了它們一段相同的文字指令:“一個穿著紅裙子的小女孩,在公園里,喂一只白色的小兔子吃胡蘿卜?!?/p>

幾款產品的生成速度上差不多,僅需2-3分鐘,但清晰度、時長差得不少,準確度上更是“群魔亂舞” ,得到結果如下 :

藝映AI

Vega AI

即夢

Morph

Pix Verse各家的優(yōu)缺點很明顯。即夢贏在時長,但生成質量不高,主角小女孩在后期直接變形,Vega AI也是相同的問題。PixVerse的畫質比較差。

相比之下,Morph生成的內容很準確,但只有短短2秒。藝映畫質也不錯,但對文字理解不到位,直接把兔子這一關鍵元素弄丟了,且生成視頻不夠寫實,偏漫畫風。

總之,還沒有一家產品能給到一段符合要求的視頻。

AI視頻難題:準確性、一致性、豐富性

「定焦」的體驗效果和各家釋放的宣傳片相差很大,AI視頻如果想要真正商用,還有相當長的一段路要走。

張恒告訴「定焦」,從技術角度看,他們主要從三個維度考量不同AI視頻模型的水平:準確性、一致性、豐富性。

如何理解這三個維度,張恒舉了個例子。

比如生成一段“兩個女孩在操場看籃球比賽”的視頻。

準確性體現(xiàn)在,一是對內容結構理解的準確,比如視頻中出現(xiàn)的要是女孩,而且還是兩個;二是流程控制的準確,比如投籃投進后,籃球要從籃網中逐漸下降;最后是靜態(tài)數據建模準確,比如鏡頭出現(xiàn)遮擋物時,籃球不能變成橄欖球。

一致性是指,AI在時空上的建模能力,其中又包含主體注意力和長期注意力。

主體注意力可以理解為,在看籃球比賽的過程中,兩個小女孩要一直留在畫面里,不能隨便亂跑;長期注意力為,在運動過程中,視頻中的各個元素既不能丟,也不能出現(xiàn)變形等異常情況。

豐富性則是指,AI也有自己的邏輯,即便在沒有文字提示下,能生成一些合理的細節(jié)內容。

以上維度,市面上出現(xiàn)的AI視頻工具基本都沒能完全做到,各家也在不斷提出解決辦法。

比如在視頻很重要的人物一致性上,即夢、可靈想到了用圖生視頻取代文生視頻。即用戶先用文字生成圖片,再用圖片生成視頻,或者直接給定一兩張圖片,AI將其連接變成動起來的視頻。

“但這不屬于新的技術突破,且圖生視頻難度要低于文生視頻,”張恒告訴「定焦」,文生視頻的原理是,AI先對用戶輸入的文字進行解析,拆解為一組分鏡描述,將描述轉文本再轉圖片,就得到了視頻的中間關鍵幀,將這些圖片連接起來,就能獲得連續(xù)有動作的視頻。而圖生視頻相當于給了AI一張可模仿的具體圖片,生成的視頻就會延續(xù)圖片中的人臉特征,實現(xiàn)主角一致性。

他還表示,在實際場景中,圖生視頻的效果更符合用戶預期,因為文字表達畫面細節(jié)的能力有限,有圖片作為參考,會對生成視頻有所幫助,但當下也達不到商用的程度。直觀上說,5秒是圖生視頻的上限,大于10秒可能意義就不大了,要么內容出現(xiàn)重復,要么結構扭曲質量下降。

目前很多宣稱用AI進行全流程制作的影視短片,大部分采用的是圖生視頻或者視頻到視頻。

即夢的使用尾幀功能用的也是圖生視頻,「定焦」特意進行了嘗試,結果如下:

在結合的過程中,人物出現(xiàn)了變形、失真。

Cyrus也表示,視頻講究連貫,很多AI視頻工具支持圖轉視頻也是通過單幀圖片推測后續(xù)動作,至于推測得對不對,目前還是看運氣。

據了解,文生視頻在實現(xiàn)主角一致性上,各家也并非純靠數據生成。張恒表示,大多數模型都是在原有底層DIT大模型的基礎上,疊加各種技術,比如ControlVideo(哈工大和華為云提出的一種可控的文本-視頻生成方法),從而加深AI對主角面部特征的記憶,使得人臉在運動過程中不會發(fā)生太大變化。

不過,目前都還在嘗試階段,即便做了技術疊加,也還沒有完全解決人物一致性問題。

AI視頻,為什么進化慢?

在AI圈,目前最卷的是美國和中國。

從《2023年全球最具影響力人工智能學者》(簡稱“AI 2000學者”榜單)的相關報告可以看出,2020年-2023年全球“AI 2000機構”4年累計的1071家機構中,美國擁有443家,其次是中國,有137家,從2023年“AI 2000學者”的國別分布看,美國入選人數最多,共有1079人,占全球總數的54.0%,其次是中國,共有280人入選。

這兩年,AI除了在文生圖、文生音樂的方面取得較大進步之外,最難突破的AI視頻也有了一些突破。

在近期舉辦的世界人工智能大會上,倚天資本合伙人樂元公開表示,視頻生成技術在近兩三年取得了遠超預期的進步。新加坡南洋理工大學助理教授劉子緯認為,視頻生成技術目前處于GPT-3 時代,距離成熟還有半年左右的時間。

不過,樂元也強調,其技術水平還是不足以支撐大范圍商業(yè)化,基于語言模型開發(fā)應用所使用的方法論和遇到的挑戰(zhàn),在視頻相關的應用領域也同樣適用。

年初Sora的出現(xiàn)震驚全球,它基于transformer架構的新型擴散模型DiT再做擴散、生成的技術突破,提高了圖像生成質量和寫實,使得AI視頻取得了重大突破。Cyrus表示,目前國內外的文生視頻,大多數都沿用的是類似技術。

圖源 / Sora官網

此刻,大家在底層技術上基本一致,雖然各家也以此為基礎尋求技術突破,但更多卷的是訓練數據,從而豐富產品功能。

用戶在使用字節(jié)的即夢和Morph AI的Morph Studio時,可選擇視頻的運鏡方式,背后原理便是數據集不同。

“以往各家在訓練時使用的圖片都比較簡單,更多是對圖片存在哪些元素進行標注,但沒有交代這一元素用什么鏡頭拍攝,這也讓很多公司發(fā)現(xiàn)了這一缺口,于是用3D渲染視頻數據集補全鏡頭特征?!睆埡惚硎荆壳斑@些數據來自影視行業(yè)、游戲公司的效果圖。

「定焦」也嘗試了這一功能,但鏡頭變化不是很明顯。

Sora們之所以比GPT、Midjourney們發(fā)展得慢,是因為又搭了一個時間軸,且訓練視頻模型比文字、圖片更難。“現(xiàn)在能用的視頻訓練數據,都已經挖掘殆盡,我們也在想一些新辦法制造一系列可以拿來訓練的數據。”張恒說。

且每個AI視頻模型都有自己擅長的風格,就像快手可靈做的吃播視頻更好,因為其背后有大量這類數據支撐。

石榴AI創(chuàng)始人沈仁奎認為,AI視頻的技術有Text to video(文本轉視頻),Image to video(圖片轉視頻),Video to video(視頻轉視頻),以及Avatar to video(數字人),能定制形象和聲音的數字人,已經運用到了營銷領域,達到了商用程度,而文生視頻還需要解決精準度和可控度問題。

此刻,無論是由抖音和博納合作的AI科幻短劇《三星堆:未來啟示錄》,還是快手原創(chuàng)的AI奇幻短劇《山海奇鏡之劈波斬浪》,更多是大模型公司主動找影視制作團隊進行合作,有推廣自家技術產品的需求,且作品也沒有出圈。

在短視頻領域,AI還有很長的路要走,干掉好萊塢了的說法更為時尚早。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。