界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪
9月24日,字節(jié)跳動(dòng)一口氣發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。
目前,新款豆包視頻生成模型正在即夢(mèng)AI內(nèi)測(cè)版小范圍測(cè)試,未來(lái)將逐步開(kāi)放給所有用戶(hù)。但從發(fā)布會(huì)現(xiàn)場(chǎng)展示的視頻生成效果來(lái)看,無(wú)論是語(yǔ)義理解能力,多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫(huà)面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型都表現(xiàn)出不錯(cuò)的效果。
比如,其中一個(gè)視頻輸入是,“特寫(xiě)?個(gè)??的面部,有些??,戴上了?副墨鏡,這時(shí)?個(gè)男?從畫(huà)?右側(cè)?進(jìn)來(lái)抱住了她?!币曨l畫(huà)面顯示,其不僅遵循了這個(gè)復(fù)雜指令,還能夠按指令的時(shí)序去完成連續(xù)的動(dòng)作,兩個(gè)主體之間也能比較順暢的進(jìn)行交互,而且人物表情也比較準(zhǔn)確傳達(dá)了指令所描述的情緒。
而一位提前拿到內(nèi)測(cè)資格的創(chuàng)作者體驗(yàn)生成的視頻也顯示,其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng),人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致,接近實(shí)拍效果。
一位多模態(tài)大模型科學(xué)家看完上述創(chuàng)作者使用豆包視頻生成的視頻后告訴界面新聞,如果demo效果保真的話(huà),豆包視頻生成大模型確實(shí)是相當(dāng)不錯(cuò)了。從學(xué)術(shù)角度或者模型能力角度來(lái)說(shuō),其肯定達(dá)到了Sora的水平,尤其在在人物動(dòng)作上非常棒。
字節(jié)跳動(dòng)旗下火山引擎總裁譚待在發(fā)布會(huì)接受界面新聞等媒體采訪(fǎng)時(shí)透露,豆包系列大模型并不是按照某個(gè)固定的時(shí)間計(jì)劃發(fā)布的,有好東西就盡快推出?!拔覀兊倪壿嬍峭瞥龅漠a(chǎn)品要質(zhì)量可靠,有充分用戶(hù)反饋,不能是半成品。就像視頻和語(yǔ)言模型發(fā)布一樣,不一定要搶第一,要推出成熟的產(chǎn)品。”
但在一位行業(yè)觀(guān)察人士看來(lái),這個(gè)節(jié)點(diǎn)一口氣發(fā)布兩款視頻生成模型,對(duì)字節(jié)跳動(dòng)更大的意義在于“擁有”。Sora發(fā)布之后,國(guó)內(nèi)從業(yè)者都期待字節(jié)跳動(dòng)能夠第一個(gè)做出來(lái)中國(guó)版Sora,最后卻是快手第一個(gè)做出來(lái)了“可靈”,而且效果還不錯(cuò),字節(jié)跳動(dòng)必然承受了一些壓力。
并未過(guò)多公布模型技術(shù)細(xì)節(jié)
據(jù)界面新聞了解,豆包視頻模型支持黑白、3D動(dòng)畫(huà)、2D動(dòng)畫(huà)、國(guó)畫(huà)、水彩、水粉等多種?格,同時(shí)支持1:1、4:3、16:9等多個(gè)比例,能夠適配電影、電視、電腦、手機(jī)等多場(chǎng)景。
相較于可靈等國(guó)內(nèi)其他視頻生成模型,豆包視頻模型技術(shù)細(xì)節(jié)上略顯神秘,并未對(duì)外公布太多信息。
此前,快手方面對(duì)外公布的信息顯示,可靈背后的技術(shù)原理和Sora類(lèi)似,都是把常用于視頻生成人工智能的擴(kuò)散模型與Transformer架構(gòu)相結(jié)合,這有助于其理解更大的視頻數(shù)據(jù)文件并更有效地生成結(jié)果。和Sora相比,可靈的一個(gè)關(guān)鍵優(yōu)勢(shì)是依托于快手短視頻平臺(tái),數(shù)億用戶(hù)上傳了大量可用于訓(xùn)練可靈的視頻數(shù)據(jù)。
據(jù)譚待介紹,豆包視頻模型經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景的持續(xù)打磨和迭代,深度優(yōu)化的Transformer結(jié)構(gòu),則大幅提升了豆包視頻生成的泛化能力。同時(shí),豆包視頻生成模型基于DiT架構(gòu),讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。
他強(qiáng)調(diào),在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性是豆包視頻生成模型的技術(shù)創(chuàng)新所在。
界面新聞從多位大模型從業(yè)者處了解到,人物動(dòng)作是當(dāng)下視頻生成模型共同面臨的挑戰(zhàn),Sora做得也不夠好。目前,Sora看起來(lái)主要還是以運(yùn)鏡和基礎(chǔ)動(dòng)作為主,復(fù)雜動(dòng)作比較差,豆包視頻模型生成的demo已經(jīng)有了明顯提升。
但這僅限于豆包視頻模型生成demo展現(xiàn)出的水準(zhǔn),幾位從業(yè)者均表示,實(shí)際的水準(zhǔn)比較難判斷。
譚待在采訪(fǎng)中明確表示,這兩款視頻生成模型并不是期貨,字節(jié)跳動(dòng)已經(jīng)在內(nèi)測(cè)API和應(yīng)用,預(yù)計(jì)國(guó)慶節(jié)后會(huì)公開(kāi)更多API。
已規(guī)劃視頻生成模型商用方向
界面新聞在發(fā)布會(huì)現(xiàn)場(chǎng)發(fā)現(xiàn),此次前來(lái)參加發(fā)布會(huì)的人多到嚴(yán)控進(jìn)場(chǎng)的程度,絕大多數(shù)參會(huì)者都是火山引擎的合作伙伴和對(duì)大模型有潛在需求的企業(yè)客戶(hù)。
譚待在發(fā)布會(huì)現(xiàn)場(chǎng)也向這些合作伙伴和潛在客戶(hù)介紹了豆包視頻生成模型的商用方向,包括電商營(yíng)銷(xiāo)、動(dòng)畫(huà)教育、城市文旅、微劇本等企業(yè)場(chǎng)景,同時(shí)也能為專(zhuān)業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。
這和此前可靈探索的商用方向基本一致,但字節(jié)跳動(dòng)更務(wù)實(shí)一些。可靈推出后,快手高調(diào)推出了由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯(lián)合李少紅、賈樟柯等9位知名導(dǎo)演啟動(dòng)了完全依托視頻生成大模型制作電影短片“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃,試圖以此來(lái)證明視頻生成大模型在影視制作領(lǐng)域的可用性。
從《山海奇鏡之劈波斬浪》的探索來(lái)看,可靈真正深入?yún)⑴c影視劇制作仍然有較大難度。和外界想象差異較大的是,這部微短劇雖然畫(huà)面均由AI生成,但整部影片并不是又AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時(shí)長(zhǎng)5秒的分鏡頭,再由后期剪輯團(tuán)隊(duì)人工剪輯而成。從成本降幅來(lái)看,其帶來(lái)的價(jià)值也不如外界預(yù)期的那么大,整體的降幅不超過(guò)四分之一。
豆包視頻生成模型的側(cè)重點(diǎn)在于電商營(yíng)銷(xiāo)等對(duì)視頻內(nèi)容質(zhì)量要求相對(duì)較低的場(chǎng)景中。在上述多模態(tài)大模型科學(xué)家看來(lái),從目前各個(gè)視頻生成模型的能力來(lái)看,它們距離商用影視創(chuàng)作有多遠(yuǎn)還有點(diǎn)難說(shuō),但應(yīng)用在電商營(yíng)銷(xiāo)等場(chǎng)景中已經(jīng)完全夠用。
字節(jié)跳動(dòng)并未在發(fā)布會(huì)上公布豆包視頻生成模型在商用場(chǎng)景的定價(jià)。譚待表示,視頻模型和語(yǔ)言模型應(yīng)用場(chǎng)景不同,定價(jià)邏輯也不同。要考慮新、老體驗(yàn)和遷移成本,而最終能否廣泛應(yīng)用取決于是否比以前生產(chǎn)力ROI提升很多。
但他強(qiáng)調(diào)大模型價(jià)格已不再是阻礙創(chuàng)新的門(mén)檻。今年5月,豆包大模型公布低于行業(yè)99%的定價(jià),引領(lǐng)國(guó)內(nèi)大模型開(kāi)啟降價(jià)潮?;鹕揭媾兜臄?shù)據(jù)顯示,截至9月,豆包語(yǔ)言模型的日均tokens使用量超過(guò)1.3萬(wàn)億,相比5月首次發(fā)布時(shí)猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬(wàn)張圖片和85萬(wàn)小時(shí)語(yǔ)音。
在譚待看來(lái),大模型的應(yīng)用成本已經(jīng)得到很好解決,行業(yè)要從卷價(jià)格走向卷性能,支持更大的并發(fā)流量正在成為大模型行業(yè)發(fā)展的關(guān)鍵因素。