文|第一新聲 琳玉
今年2月Sora發(fā)布,一石激起千層浪,如今,只過去不到半年時(shí)間,國(guó)內(nèi)外已然進(jìn)入了視頻生成大模型的“百模大戰(zhàn)”。
國(guó)內(nèi)來看,前不久字節(jié)、快手等大廠出手入局,將行業(yè)推向了新的發(fā)展階段。隨后,創(chuàng)業(yè)公司緊跟腳步,動(dòng)作頻頻。僅7月份,就有生數(shù)科技Vidu正式上線、智譜AI獲億元融資并全面上線智譜清影、智象未來發(fā)布大模型2.0……
在國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的指導(dǎo)下,近年來,人工智能行業(yè)得到了政策方面的大力支持。去年《生成式人工智能服務(wù)管理暫行辦法》頒布之后,全國(guó)已有30余省份落實(shí)了生成式AI的細(xì)化政策及行動(dòng)方案。近日北京最新頒布的人工智能+行動(dòng)計(jì)劃甚至76次提到了大模型。可見,迅猛生長(zhǎng)的視頻生成大模型行業(yè),不僅在資本市場(chǎng)炙手可熱,更是未來國(guó)家需要搶占的戰(zhàn)略高地。
那么,萬眾矚目之下,國(guó)內(nèi)視頻生成大模型從技術(shù)、產(chǎn)品到應(yīng)用落地整個(gè)產(chǎn)業(yè)鏈的運(yùn)作情況和商業(yè)化進(jìn)程情況如何呢?
01 產(chǎn)品爆發(fā),行業(yè)打響PK戰(zhàn)
談到視頻生成大模型,Sora的地位毋庸置疑,但發(fā)布至今,OpenAI目前仍未計(jì)劃向公眾開放,業(yè)內(nèi)笑稱Sora是“一個(gè)只發(fā)視頻不發(fā)產(chǎn)品的巨型期貨”。
國(guó)外Stability AI、LumaAI、Runway、HaiperAI等明星企業(yè),雖然也相繼發(fā)布了各自的視頻生成大模型產(chǎn)品,但在使用上,一方面,國(guó)內(nèi)外在文化、語境等方面存在差異,另一方面,來自海外政府的限制使用風(fēng)險(xiǎn)仍然存在。然而,這些挑戰(zhàn)并未影響國(guó)內(nèi)AI視頻生成市場(chǎng)的增長(zhǎng)。
據(jù)QuestMobile發(fā)布的數(shù)據(jù),2024年第一季度,生成式AI(AIGC)成為移動(dòng)互聯(lián)網(wǎng)行業(yè)增速最快、收益最大的行業(yè);今年6月,AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬,同比增長(zhǎng)653.3%。另有頭豹研究院數(shù)據(jù)顯示,預(yù)計(jì)到2026年,中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模將達(dá)到92.79億元。外部風(fēng)險(xiǎn)和國(guó)內(nèi)市場(chǎng)的快速發(fā)展,成為國(guó)內(nèi)大廠和科技創(chuàng)業(yè)公司依據(jù)自身優(yōu)勢(shì),研發(fā)更具開放性、實(shí)用性的本土化視頻生成大模型的重要契機(jī)。據(jù)統(tǒng)計(jì),當(dāng)前國(guó)內(nèi)已有不少創(chuàng)業(yè)公司發(fā)布了視頻生成大模型,并且大部分為公開可用。
國(guó)內(nèi)主要視頻生成大模型對(duì)比高手過招,妙至毫巔。視頻生成大模型雖然還不能歸類于高成熟度產(chǎn)品,但各廠之間的迭代方向已經(jīng)非常細(xì)化,在視頻質(zhì)量、清晰度、生成時(shí)間、速度、多模態(tài)指令、運(yùn)動(dòng)幅度、創(chuàng)意策劃等維度的競(jìng)爭(zhēng)已經(jīng)拉開序幕。其中,快手可靈是近期的高熱產(chǎn)品,基于快手平臺(tái)海量的視頻數(shù)據(jù)優(yōu)勢(shì),可靈能夠快速生成符合中文語境和審美習(xí)慣的視頻,主打?qū)ξ锢硎澜缣匦缘母邚?qiáng)度模擬,還攻克了難倒眾多AI的“吃”的問題。
另一大廠字節(jié)旗下的剪映上線即夢(mèng)AI,在視頻生成的基礎(chǔ)上創(chuàng)新故事模式,能夠從提示詞到角色、場(chǎng)景,實(shí)現(xiàn)想法到成片的快速落地。此外,阿里達(dá)摩院的AI視頻產(chǎn)品“尋光”、百度的AI視頻模型UniVG雖然都在內(nèi)測(cè)階段,但從官方發(fā)布的信息來看,二者在可控編輯、語義一致性等方面值得期待。
同時(shí),國(guó)內(nèi)創(chuàng)業(yè)公司同樣也有優(yōu)秀的表現(xiàn)。近期,智譜AI發(fā)布升級(jí)后的視頻生成模型CogVideoX,C 端用戶可通過智譜清言的 AI 視頻生成功能“清影”免費(fèi)無限次使用,至此,智譜AI完成了與OpenAI全模型產(chǎn)品現(xiàn)的的全面對(duì)標(biāo)。
生數(shù)科技則聯(lián)合清華大學(xué)發(fā)布了國(guó)內(nèi)首發(fā)的全自研視頻大模型Vidu,由百度智能云提供訓(xùn)練服務(wù),憑借長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性收獲行業(yè)的關(guān)注。智象未來最新發(fā)布的智象大模型2.0,通過創(chuàng)新文字嵌入生成、劇本多鏡頭視頻生成、IP連貫一致性等能力引發(fā)市場(chǎng)的關(guān)注。
隨著生成技術(shù)日漸成熟,視頻大模型也正在加速通過測(cè)試階段,目前在商業(yè)端和非商業(yè)端均已有出圈案例。
在商業(yè)端,今年夏季關(guān)注度較高的綜藝節(jié)目《歌手2024》,其片頭的部分視頻畫面采用了AI視頻生成技術(shù),由上市公司萬興科技推出的“天幕”大模型提供技術(shù)支持。同時(shí),博納影業(yè)與抖音合作推出的科幻短劇集《三星堆:未來啟示錄》、快手原創(chuàng)上線的AI奇幻短劇《山海奇鏡之劈波斬浪》也成為視頻生成大模型在商業(yè)端的初步嘗試。截止目前,上述兩部短劇作品的播放量已經(jīng)分別累計(jì)達(dá)到5316.2w次和5241.3w次。
在非商業(yè)端,視頻生成對(duì)于C端用戶而言,作為內(nèi)容生產(chǎn)工具,可以極大程度的豐富各社交平臺(tái)、視頻平臺(tái)的內(nèi)容創(chuàng)作。近期,不僅跨越次元擁抱、AI復(fù)活與親人跨越時(shí)空互動(dòng)、明星換臉等內(nèi)容頻繁出現(xiàn)在熱門上,而且利用AI創(chuàng)作的熱梗視頻如甄嬛傳二創(chuàng)、表情包生成視頻等內(nèi)容也獲得了較好的傳播效果。questmobile數(shù)據(jù)顯示,剪映、快影兩大剪輯APP在上線AIGC類玩法后,月人均使用時(shí)長(zhǎng)分別達(dá)到50.2分鐘、45.2分鐘,同比提升7.1%和15.3%。
快手視覺生成與互動(dòng)中心負(fù)責(zé)人萬鵬飛公開表示,在可靈大模型上線后,視頻創(chuàng)作的效果和ROI大幅度提升,視頻創(chuàng)作者和消費(fèi)者界限逐漸模糊,越來越多消費(fèi)者變成創(chuàng)作者,對(duì)于視頻創(chuàng)作生態(tài)的繁榮是非常有價(jià)值的。
總體來看,國(guó)內(nèi)主要的視頻生成大模型產(chǎn)品已經(jīng)能夠達(dá)到1080p甚至4K的高清分辨率,單個(gè)鏡頭的視頻時(shí)長(zhǎng)在2-15秒左右,符合影視化的鏡頭時(shí)長(zhǎng)需求,但分鐘級(jí)的長(zhǎng)鏡頭在實(shí)現(xiàn)上還存在難度。提示詞方面,目前,圖生視頻、文生視頻、視頻生視頻均處在迭代階段,視頻生成趨勢(shì)正在由檢索生成、局部生成、走向依靠自然語言提示詞的全量生成,創(chuàng)作門檻更低、生成內(nèi)容更加靈活豐富。
02 “謹(jǐn)慎”的資本和“挑剔”的用戶
在持續(xù)奔涌的全球機(jī)會(huì)浪潮中,金融行業(yè)總是積極地奔走在風(fēng)口的最前端,視頻生成式AI能夠成為全球爆點(diǎn),資本在其中承擔(dān)著重要的助推作用。啟明創(chuàng)投數(shù)據(jù)顯示,2023年,一級(jí)市場(chǎng)中AI投資金額達(dá)到224億美元,超過前十年投資累計(jì)總和。
資本市場(chǎng),分秒必爭(zhēng),市場(chǎng)的任何變化都有可能影響投資方的態(tài)度。愛詩科技創(chuàng)始人兼CEO王長(zhǎng)虎曾向媒體表示,去年整個(gè)投資環(huán)境實(shí)際上對(duì)視頻生成沒有太大信心,要獲得投資人的認(rèn)可和投入并不容易?!癝ora出來之后,我們也有遺憾,如果在過去一年拿到了更多的資源,也許Sora會(huì)是我們自己做出來的?!?/p>
時(shí)間來到今年,Sora發(fā)布后,融資動(dòng)作明顯加速,除近期質(zhì)譜AI獲億級(jí)融資外,愛詩科技、生數(shù)科技也均在短時(shí)間內(nèi)連續(xù)獲兩筆億級(jí)資金。新入局的創(chuàng)業(yè)公司Sand AI在未發(fā)布產(chǎn)品的情況下,已經(jīng)拿到了數(shù)千萬美元A 輪融資。值得注意的是,今年的國(guó)內(nèi)視頻生成大模型投資方中,不乏螞蟻、百度、紅衫、高瓴等知名投資方。并且,從國(guó)內(nèi)外機(jī)構(gòu)調(diào)研中能夠觀察到,在大模型數(shù)量、投融規(guī)模等方面,中國(guó)已經(jīng)躋身世界前列??梢?,國(guó)產(chǎn)大模型的實(shí)力和來自市場(chǎng)的認(rèn)可。
但從投資人的視角來看,每只基金的投向受到多重限制。有投資機(jī)構(gòu)透露,目前大手筆投向大模型的案例仍是少數(shù)。此外,當(dāng)前在模型層面的技術(shù)爭(zhēng)論仍然比較激烈,大多數(shù)投資人對(duì)模型項(xiàng)目的態(tài)度保持相對(duì)謹(jǐn)慎,更傾向于尋找已經(jīng)找到或看到落地場(chǎng)景的應(yīng)用端項(xiàng)目。
智譜AI CEO張鵬在接受媒體采訪時(shí)表示:“現(xiàn)在(視頻生成大模型)的商業(yè)化仍處于非常早期的階段,而且成本實(shí)際上也非常高,后面會(huì)根據(jù)市場(chǎng)的反饋?zhàn)鲋鸩降!睋?jù)相關(guān)機(jī)構(gòu)及媒體的不完全統(tǒng)計(jì),當(dāng)前國(guó)內(nèi)的大模型數(shù)量超300個(gè),其中僅有140個(gè)左右完成了生成式人工智能服務(wù)備案。今年1-7月,僅35家大模型產(chǎn)業(yè)相關(guān)企業(yè)拿到了億元級(jí)的融資,大部分企業(yè)仍然處在融資早期,甚至尚未過審。
Founder Park在研報(bào)中分析到,大量早期AI應(yīng)用仍未獲得融資一方面是因?yàn)轫?xiàng)目的功能點(diǎn)單薄,產(chǎn)品商業(yè)化天花板較低;另一方面,項(xiàng)目需求的資金量小,需求的是天使投資在資本市場(chǎng)上相對(duì)稀缺。
而從產(chǎn)品應(yīng)用端來看,國(guó)內(nèi)大部分視頻生成式大模型都處在公測(cè)及體驗(yàn)階段,用戶反饋也仍然存在部分質(zhì)疑的聲音。比如,不少大模型生成的視頻成片存在明顯的扭曲問題;還有C端用戶反應(yīng),AI生成的視頻內(nèi)容過于機(jī)械、內(nèi)容不流暢、畫面過于夸張、脫離真實(shí)性等問題。甚至針對(duì)AI出錯(cuò),在短視頻上還形成了一個(gè)新的流量賽道。
據(jù)博納影業(yè)的反饋,即夢(mèng)AI作為短劇集《三星堆:未來啟示錄》創(chuàng)作中的重要助手,適用于制作主體高速運(yùn)動(dòng)的畫面,但不適合多人關(guān)系的畫面、不適合保持人臉一致性,在創(chuàng)作過程中需要調(diào)整提示詞及不同模式的搭配來優(yōu)化效果。
張鵬表示,多模態(tài)模型的視頻生成效果對(duì)物理世界規(guī)律的理解、高分辨率、鏡頭動(dòng)作連貫性以及時(shí)長(zhǎng)等,都有非常大的提升空間。模型本身還需要更具突破式創(chuàng)新的新模型架構(gòu)。另外,視頻生成大模型還存在隱私信息泄漏、生成內(nèi)容錯(cuò)誤引導(dǎo)等風(fēng)險(xiǎn),也因此,部分視頻平臺(tái)針對(duì)AI內(nèi)容有嚴(yán)格的管控措施。對(duì)于企業(yè)而言,這些都是需要規(guī)避和解決的問題。
03 需求沸騰,企業(yè)如何找準(zhǔn)PMF
盡管產(chǎn)品并不完美,但無論是企業(yè)、需求市場(chǎng)還是資本市場(chǎng)對(duì)視頻生成大模型的未來發(fā)展均抱有較高的期待。啟明創(chuàng)投主管合伙人周志峰在2024世界人工智能大會(huì)上將“3年內(nèi)AI視頻生成技術(shù)將全面爆發(fā)”作為2024生成式AI的十大展望之一。
而視頻生成之所以能夠在AI繪圖之后,成為下一個(gè)有明確落地應(yīng)用場(chǎng)景的行業(yè),一個(gè)重要的原因在于:“視頻”已經(jīng)成為互聯(lián)網(wǎng)時(shí)代下,C端用戶的最大內(nèi)容消費(fèi)形式。據(jù)量子位研究,在移動(dòng)互聯(lián)網(wǎng)的用戶使用時(shí)常占比中,短視頻占比達(dá)28%,移動(dòng)視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人均時(shí)常超64小時(shí)。
并且在成本端,有數(shù)據(jù)顯示,當(dāng)前Runway的生成價(jià)格為3美元/分鐘,即使按照100:1的生成可用率來計(jì)算,視頻制作的實(shí)際成本約為300美元/分鐘,遠(yuǎn)低于當(dāng)前動(dòng)畫動(dòng)漫數(shù)千美元/分鐘、甚至動(dòng)畫電影數(shù)十萬美元/分鐘的制作成本。行業(yè)背景和優(yōu)勢(shì)加持下,需求端的熱情非常明顯??焓挚伸`發(fā)布三個(gè)多月以來,申請(qǐng)?bào)w驗(yàn)用戶數(shù)量已突破 70 萬大關(guān),累計(jì)生成的視頻作品高達(dá) 700 萬份。愛詩科技的PixVerse大模型則在國(guó)內(nèi)上線88天后即達(dá)成了一千萬次視頻生成量的里程碑。國(guó)內(nèi)外頭部視頻生成大模型在使用時(shí),還一度出現(xiàn)長(zhǎng)時(shí)間排隊(duì)等待的情況。
期許之下,企業(yè)如何找準(zhǔn)PMF(Product Market Fit產(chǎn)品市場(chǎng)匹配度),最大程度的發(fā)揮自有產(chǎn)品優(yōu)勢(shì)呢?
五源資本副總裁石允豐表示,目前的視頻生成技術(shù)底座還沒有穩(wěn)固,找PMF的挑戰(zhàn)很大。張鵬在談及智譜AI技術(shù)在B端和C端的落地成果時(shí)也說到,目前PMF中M(Market)的新場(chǎng)景、新市場(chǎng),F(xiàn)(Fit)所代表的技術(shù)和產(chǎn)品的性價(jià)比,都沒做到極致。
在當(dāng)前國(guó)內(nèi)產(chǎn)品仍處在技術(shù)驅(qū)動(dòng)階段的環(huán)境下,第一新聲認(rèn)為,首先,保持技術(shù)的領(lǐng)先性是提升B端和C端交付能力的關(guān)鍵;其次,加強(qiáng)與用戶溝通,獲取一線真實(shí)、客觀的需求,積累早期用戶社群是企業(yè)下一階段的重要壁壘;此外,視頻生成大模型不應(yīng)僅限于視頻內(nèi)容的生成,統(tǒng)一多模態(tài)的生成和理解是通往通用人工智能的重要路徑。
但至少可見的是,AI視頻生成在影視、廣告、電商、社交媒體等領(lǐng)域具有廣泛的應(yīng)用前景。而且目前的視頻生成能力,已經(jīng)可以覆蓋相當(dāng)一部分特效、動(dòng)畫、廣告短片、商品動(dòng)態(tài)展示等需求。
未來,國(guó)產(chǎn)大模型還需夯實(shí)自主可控的技術(shù)底座,來迎接后OpenAI時(shí)代。
校對(duì)/竹心、Rita
策劃/Eason