文|硅谷101
Sora,OpenAI的人工智能AI生成式視頻大模型,在2024年2月15日一經(jīng)發(fā)布,就引發(fā)了全球關(guān)注,硅谷AI視頻論文作者(非Sora)這樣評(píng)價(jià):相當(dāng)好,這是毋庸置疑的No.1。
Sora好在哪里?生成式AI視頻的發(fā)展挑戰(zhàn)在哪里?OpenAI的視頻模型一定是正確的路線嗎?所謂的“世界模型”達(dá)成共識(shí)了嗎?這期視頻,我們通過(guò)與硅谷一線AI從業(yè)人員的采訪,深度聊聊生成式AI視頻大模型的不同派系發(fā)展史,大家的爭(zhēng)議和未來(lái)路線。
AI生成視頻這個(gè)題我們其實(shí)去年就想做了,因?yàn)楫?dāng)時(shí)跟很多人聊天,包括跟VC投資人聊的時(shí)候,發(fā)現(xiàn)其實(shí)大家對(duì)AI視頻模型和ChatGPT這種大語(yǔ)言模型的區(qū)別并不是很清楚。但是為啥沒做呢,因?yàn)樵谌ツ昴甑?,市?chǎng)中做得最好的也就是runway這家公司旗下的Gen1和Gen2兩種視頻生成視頻以及文字生成視頻的功能,但我們生成出來(lái)的效果... 有點(diǎn)一言難盡。
比如說(shuō),我們用runway生成的一個(gè)視頻,prompt提示詞是”super mario walking in a desert”(超級(jí)馬里奧漫步于沙漠中),結(jié)果出來(lái)的視頻是這樣的:
怎么看怎么像馬里奧跳躍在月球上。無(wú)論是重力還是摩擦力,物理學(xué)在這段視頻里好像突然不復(fù)存在。
然后我們嘗試了另外一個(gè)提示詞,“A group of people walking down a street at night with umbrellas on the windows of stores.”(雨夜的大街上,一群人走在商鋪窗戶檐的傘下)這段提示詞也是一個(gè)投資人Garrio Harrison嘗試過(guò)的,結(jié)果出來(lái)的視頻,是這樣的:
你看這空中漂浮的雨傘,是不是很詭異... 但這已經(jīng)是去年代表著最領(lǐng)先技術(shù)的runway了。之后華人創(chuàng)始人Demi Guo創(chuàng)立的Pika Labs火了一陣,被認(rèn)為比runway效果稍好一些,但依然受制于3-4秒的長(zhǎng)度顯示,并且生成的視頻仍然存在視頻理解邏輯、手部構(gòu)圖等缺陷問(wèn)題。
所以,在OpenAI發(fā)布Sora模型之前,生成式AI視頻模型并沒有像ChatGPT、Midjourney這樣的聊天和文生圖應(yīng)用一樣引發(fā)全球關(guān)注,很大原因就是因?yàn)樯梢曨l的技術(shù)難度非常高,視頻是二維空間+時(shí)間,從靜態(tài)到動(dòng)態(tài),從平面到不同時(shí)間片段下的平面顯示出的立體效果,不但需要強(qiáng)大的算法和算力,還需要解決一致性、連貫性、物理合理性、邏輯合理性等等一系列的復(fù)雜問(wèn)題。
所以,生成式視頻大模型這個(gè)選題,一直都在我們硅谷101的選題單上,但一直拖著沒做,想等生成式AI視頻模型有一個(gè)重大突破的時(shí)候,我們?cè)賮?lái)做這個(gè)選題,結(jié)果沒想到,這么快,這個(gè)時(shí)刻,就來(lái)了。
01 生成式AI視頻的ChatGPT時(shí)刻?
Sora的展示,毫無(wú)疑問(wèn)是吊打此前的runway和pika labs的。
首先,最大的突破之一,很直觀的就是:生成視頻長(zhǎng)度大大的延長(zhǎng)了。之前,runway和pika都只能生成出3-4秒的視頻,太短了,所以之前能出圈的AI視頻作品,就只有一些快節(jié)奏的電影預(yù)告片,因?yàn)槠渌枰L(zhǎng)一些素材的用途根本無(wú)法被滿足。
而在runway和pika上,如果需要更長(zhǎng)的視頻,你就需要自己不斷提示疊加視頻時(shí)長(zhǎng),但我們視頻后期剪輯師Jacob就發(fā)現(xiàn),這會(huì)出現(xiàn)一個(gè)大問(wèn)題。
Jacob,硅谷101視頻后期剪輯師:
痛點(diǎn)就是你在不斷往后延長(zhǎng)的時(shí)候,它后面的視頻會(huì)出現(xiàn)變形,就會(huì)導(dǎo)致前后視頻畫面的不一致,那這段素材就用不了了。
而Sora最新展示的論文和demo中表示,可以根據(jù)提示詞,直接生成1分鐘左右的視頻場(chǎng)景。與此同時(shí),Sora會(huì)兼顧視頻中人物場(chǎng)景的變換以及主題的一致性。這讓我們的剪輯師看了之后,也直呼興奮。
Jacob,硅谷101視頻后期剪輯師:(Sora)其中有一個(gè)視頻是一個(gè)女孩走在東京的街頭... 對(duì)我來(lái)說(shuō),這個(gè)是很厲害的。所以,就算在視頻動(dòng)態(tài)的運(yùn)動(dòng)情況下,隨著空間的移動(dòng)和旋轉(zhuǎn),Sora視頻中出現(xiàn)的人物和物體會(huì)保持場(chǎng)景一致性的移動(dòng)。
第三,Sora可以接受視頻,圖像或提示詞作為輸入,模型會(huì)根據(jù)用戶的輸入來(lái)生成視頻,比如,公布出demo中的一朵爆開的云。這意味著,Sora模型可以基于靜態(tài)圖像來(lái)制作動(dòng)畫,做到在時(shí)間上向前或者向后來(lái)擴(kuò)展視頻。
第四,Sora可以讀取不同的無(wú)論是寬屏還是垂直視頻、進(jìn)行采樣,也可以根據(jù)同一個(gè)視頻去輸出不同尺寸的視頻,并且保持風(fēng)格穩(wěn)定,比如說(shuō)這個(gè)小海龜?shù)臉悠?。這其實(shí)對(duì)我們視頻后期的幫助是非常大的,現(xiàn)在Youtube和B站等1920*1080p橫屏視頻,我們需要重新剪成垂直1080*1920的視頻來(lái)適配抖音和Tiktok等短視頻平臺(tái),但可以想象,之后也許就能通過(guò)Sora一鍵AI轉(zhuǎn)換,這也是我很期待的功能。
第五,遠(yuǎn)距離相干性和時(shí)間連貫性更強(qiáng)了。此前,AI生成視頻有個(gè)很大的困難,就是時(shí)間的連貫性,但Sora能很好的記住視頻中的人和物體,即使被暫時(shí)擋住或移出畫面,之后再出現(xiàn)的時(shí)候也能按照物理邏輯地讓視頻保持連貫性。比如說(shuō)Sora公布的這個(gè)小狗的視頻,當(dāng)人們走過(guò)它,畫面被完全擋住,再出現(xiàn)它的時(shí)候,它也能自然地繼續(xù)運(yùn)動(dòng),保持時(shí)間和物體的連貫。
第六,Sora模型已經(jīng)可以簡(jiǎn)單地模擬世界狀態(tài)的動(dòng)作。比如說(shuō),畫家在畫布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而持續(xù)存在,或者一個(gè)人吃漢堡的時(shí)候會(huì)留下漢堡上的咬痕。有比較樂(lè)觀的解讀認(rèn)為,這意味著模型具備了一定的通識(shí)能力、能“理解”運(yùn)動(dòng)中的物理世界,也能夠預(yù)測(cè)到畫面的下一步會(huì)發(fā)生什么。
因此,以上這幾點(diǎn)Sora模型帶來(lái)的震撼更新,極大地提高了外界對(duì)生成式AI視頻發(fā)展的期待和興奮值,雖然Sora也會(huì)出現(xiàn)一些邏輯錯(cuò)誤,比如說(shuō)貓出現(xiàn)三只爪子,街景中有不符合常規(guī)的障礙物,人在跑步機(jī)上的方向反了等等,但顯然,比起之前的生成視頻,無(wú)輪是runway還是pika還是谷歌的videopoet,Sora都是絕對(duì)的領(lǐng)先者,而更重要的是,OpenAI似乎通過(guò)Sora想證明,堆算力堆參數(shù)的“大力出奇跡”方式也可以適用到生成式視頻上來(lái),并且通過(guò)擴(kuò)散模型和大語(yǔ)言模型的整合,這樣的模型新路線,來(lái)形成所謂的“世界模型”的基礎(chǔ),而這些觀點(diǎn),也在AI屆引發(fā)了極大的爭(zhēng)議和討論。
接下來(lái),我們就來(lái)試圖回顧一下生成式AI大模型的技術(shù)發(fā)展之路,以及試圖解析一下,Sora的模型是怎么運(yùn)作的,它到底是不是所謂的“世界模型”?
02 擴(kuò)散模型技術(shù)路線:Google Imagen,Runway,Pika Labs
AI生成視頻的早期階段,主要依賴于GAN(生成式對(duì)抗網(wǎng)絡(luò))和VAE(變分自編碼器)這兩種模型。但是,這兩種方法生成的視頻內(nèi)容相對(duì)受限,相對(duì)的單一和靜態(tài),而且分辨率往往不太行,完全沒辦法進(jìn)行商用。所以這兩種模型我們就先不講了哈。
之后,AI生成視頻就演變成了兩種技術(shù)路線,一種是專門用于視頻領(lǐng)域的擴(kuò)散模型,一種則是Transformer模型。我們先來(lái)說(shuō)說(shuō)擴(kuò)散模型的路線,跑出來(lái)的公司就有Runway和Pika Labs等等。
03 什么是擴(kuò)散模型?
擴(kuò)散模型的英文是Diffusion Model。很多人不知道,如今最重要的開源模型Stable Diffusion的原始模型就是由Runway和慕尼黑大學(xué)團(tuán)隊(duì)一起發(fā)布的,而Stable Diffusion本身也是Runway核心產(chǎn)品—視頻編輯器Gen-1和Gen-2背后的底層技術(shù)基礎(chǔ)。
Gen-1模型在2023年2月發(fā)布,允許大家通過(guò)輸入文本或圖像,改變?cè)曨l的視覺風(fēng)格,例如將手機(jī)拍攝的現(xiàn)實(shí)街景變成賽博世界。而在6月,runway發(fā)布Gen-2,更近一步能將用戶輸入的文本提示直接生成為視頻。
擴(kuò)散模型的原理,大家一聽這個(gè)名字“擴(kuò)散模型”,就能稍微get到:是通過(guò)逐步擴(kuò)散來(lái)生成圖像或視頻。為了更好的給大家解釋模型原理,我們邀請(qǐng)到了之前Meta Make-A-Video模型的論文作者之一、目前在亞馬遜AGI團(tuán)隊(duì)從事視頻生成模型的張宋揚(yáng)博士來(lái)給我們做一個(gè)解釋。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
之所以最開始這篇論文之所以用擴(kuò)散這個(gè)名字,是源于一個(gè)物理現(xiàn)象,就是說(shuō)比如說(shuō)我們把墨水滴到一杯水里面去,墨水它會(huì)散開,這個(gè)東西叫擴(kuò)散。這個(gè)過(guò)程本身物理上是不可逆的,但是我們AI可以學(xué)習(xí)這么一個(gè)過(guò)程,把這個(gè)過(guò)程給逆過(guò)來(lái)。它類比到圖片里面來(lái)說(shuō),就是一個(gè)圖片,它是不斷加噪聲不斷加噪聲,然后它會(huì)變成一個(gè)類似于馬賽克這樣的一個(gè)效果。它是一個(gè)純?cè)肼暤囊粡垐D片。然后我們學(xué)習(xí)怎么把這個(gè)噪點(diǎn)變成一張?jiān)嫉膱D片。
我們訓(xùn)練這么樣的一個(gè)模型,直接去一步完成的話,這個(gè)可能會(huì)很難,它分成了很多步,比如我分成1000步,比如說(shuō)我加一點(diǎn)點(diǎn)噪聲,它能夠還原出去噪聲后是什么樣子,然后噪聲加得比 較多的時(shí)候,我該怎么去用這個(gè)模型怎么去預(yù)測(cè)噪聲?就是它分了很多步,然后逐漸地去把這噪聲慢慢地去掉,它迭代式地把這個(gè)噪聲慢慢給去掉。比如說(shuō)原來(lái)是一個(gè)水跟墨已經(jīng)完全混合在一起了,你想辦法怎么去預(yù)測(cè)它,一步一步它如何再變回之前的那一滴墨水的樣子。就是它是一個(gè)擴(kuò)散的一個(gè)逆過(guò)程。
張宋揚(yáng)博士解釋得很形象,擴(kuò)散模型的核心思想是通過(guò)不斷地向原始噪聲引入隨機(jī)性,逐步生成逼真的圖像或視頻。在而這個(gè)過(guò)程分成了四步:
1)初始化:擴(kuò)散模型開始于一個(gè)隨機(jī)的噪聲圖像或視頻幀作為初始輸入。
2)擴(kuò)散過(guò)程(也被稱為前向過(guò)程forward process):擴(kuò)散過(guò)程的目標(biāo)是讓圖片變得不清晰,最后變成完全的噪聲。
3)反向過(guò)程(reverse process,又被稱為backward diffusion):這時(shí)候我們會(huì)引入“神經(jīng)網(wǎng)絡(luò)”,比如說(shuō)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的UNet結(jié)構(gòu),在每個(gè)時(shí)間步預(yù)測(cè)“要達(dá)到現(xiàn)在這一幀模糊的圖像,所添加的噪聲”,從而通過(guò)去除這種噪聲來(lái)生成下一幀圖像,以此來(lái)形成圖像的逼真內(nèi)容。
4)重復(fù)步驟:重復(fù)上述步驟直到達(dá)到所需的生成圖像或視頻的長(zhǎng)度。
以上是video to video或者是picture to video的生成方式,也是runway Gen1的大概底層技術(shù)運(yùn)行方式。如果是要達(dá)到輸入提示詞來(lái)達(dá)到text to video,那么就要多加幾個(gè)步驟。
比如說(shuō)我們拿谷歌在2022年中旬發(fā)布的Imagen模型來(lái)舉例:我們的提示詞是a boy is riding on the Rocket,騎著火箭的男孩。這段提示詞會(huì)被轉(zhuǎn)換為tokens(標(biāo)記)并傳遞給編碼器text encoder。谷歌 IMAGEN模型接著用T5-XXL LLM編碼器將輸入文本編碼為嵌入(embeddings)。這些嵌入代表著我們的文本提示詞,但是以機(jī)器可以理解的方式進(jìn)行編碼。
之后這些“嵌入文本”會(huì)被傳遞給一個(gè)圖像生成器image generator,這個(gè)圖像生成器會(huì)生成64x64分辨率的低分辨率圖像。之后,IMAGEN模型利用超分辨率擴(kuò)散模型,將圖像從64x64升級(jí)到256x256,然后再加一層超分辨率擴(kuò)散模型,最后生成與我們的文本提示緊密結(jié)合的 1024x1024 高質(zhì)量圖像。
簡(jiǎn)單總結(jié)來(lái)說(shuō),在這個(gè)過(guò)程中,擴(kuò)散模型從隨機(jī)噪聲圖像開始,在去噪過(guò)程中使用編碼文本來(lái)生成高質(zhì)量圖像。
04 擴(kuò)散模型優(yōu)劣勢(shì)
而生成視頻為什么要比生成圖片困難這么多?
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:它的原理實(shí)際上還是一樣的,只不過(guò)唯一一個(gè)區(qū)別就是多了一個(gè)時(shí)間軸。就是剛剛我們說(shuō)的圖片,它是一個(gè)2D的,它是高度跟寬度。然后視頻它多一個(gè)時(shí)間軸,它就是一個(gè)3D的,它就是高度、寬度還有一個(gè)時(shí)間。然后它在學(xué)習(xí)這個(gè)擴(kuò)散的逆過(guò)程的過(guò)程當(dāng)中,就是相當(dāng)于以前是一個(gè)2D的逆過(guò)程,現(xiàn)在變成一個(gè)3D的逆過(guò)程,就是這么一個(gè)區(qū)別。
所以說(shuō)圖片上的存在的問(wèn)題,比如說(shuō)像這些生成的人臉?biāo)遣皇钦鎸?shí)???那我們?nèi)绻麍D片存在這樣的問(wèn)題,我們視頻也一樣會(huì)存在這樣的問(wèn)題。對(duì)于視頻來(lái)說(shuō),它有一些它有些獨(dú)特的一些問(wèn)題,就比如說(shuō)剛才像你說(shuō)的這個(gè)畫面的主體是不是保持一致的?我覺得目前對(duì)于像風(fēng)景這樣的,其實(shí)效果都還可以,然后但是如果涉及到人的話,因?yàn)槿说倪@些要求可能會(huì)更精細(xì),所以說(shuō)人的難度會(huì)更高,這是一個(gè)問(wèn)題。然后還有一個(gè)目前的難點(diǎn),我覺得也是大家都在努力的一個(gè)方向,就是怎么把視頻變得更長(zhǎng)。因?yàn)槟壳皝?lái)說(shuō)的話,只生成2秒、3秒、4秒這樣的視頻,其實(shí)遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)在的應(yīng)用場(chǎng)景。
擴(kuò)散模型比起之前的GAN等模型來(lái)說(shuō),有三個(gè)主要的優(yōu)點(diǎn):
第一,穩(wěn)定性:訓(xùn)練過(guò)程通常更加穩(wěn)定,不容易陷入模式崩潰或模式塌陷等問(wèn)題。
第二,生成圖像質(zhì)量: 擴(kuò)散模型可以生成高質(zhì)量的圖像或視頻,尤其是在訓(xùn)練充分的情況下,生成結(jié)果通常比較逼真。
第三,無(wú)需特定架構(gòu): 擴(kuò)散模型不依賴于特定的網(wǎng)絡(luò)結(jié)構(gòu),兼容性好,很多不同類型的神經(jīng)網(wǎng)絡(luò)都可以拿來(lái)用。
然而,擴(kuò)散模型也有兩大主要缺點(diǎn),包括:
首先,訓(xùn)練成本高:與一些其他生成模型相比,擴(kuò)散模型的訓(xùn)練可能會(huì)比較昂貴,因?yàn)樗枰诓煌肼暢潭鹊那闆r下學(xué)習(xí)去燥,需要訓(xùn)練的時(shí)間更久。
其次,生成花費(fèi)的時(shí)間更多。因?yàn)樯蓵r(shí)需要逐步去燥生成圖像或視頻,而不是一次性地生成整個(gè)樣本。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
就是我們其實(shí)現(xiàn)在無(wú)法生成長(zhǎng)的視頻一個(gè)很重要原因就是,我們的顯存是有限的。生成一張圖片可能占用一部分的顯存,然后你如果生成16張圖片,就可能差不多把這顯存給占滿了。當(dāng)你需要生成更多張圖片的時(shí)候,你就得想辦法怎么去,既考慮之前已經(jīng)生成的這些信息,然后再去預(yù)測(cè)后面該生成什么樣的信息。它首先在模型上面就提了一個(gè)更高的要求,當(dāng)然算力上面也是一個(gè)問(wèn)題,就是獲取過(guò)很多年之后,我們的顯存會(huì)非常的大,可能我們也就不存在這樣的問(wèn)題了,也是有可能的,但是就目前來(lái)說(shuō),當(dāng)下我們是需要一個(gè)更好的一個(gè)算法,但是如果有更好硬件可能這個(gè)問(wèn)題就不存在。
所以,這注定了目前的視頻擴(kuò)散模型本身可能不是最好的算法,雖然runway和PikaLabs等代表公司一直在優(yōu)化算法。
我們接下來(lái),聊聊另外一個(gè)派別:基于Transformer架構(gòu)的大語(yǔ)言模型生成視頻技術(shù)路線。
05 大語(yǔ)言模型生成視頻技術(shù)路線(VideoPoet)
最后,谷歌在2023年12月底發(fā)布了基于大語(yǔ)言模型的生成式AI視頻模型VideoPoet,這在當(dāng)時(shí)被視為生成視頻領(lǐng)域中,擴(kuò)散模型之外的另外一種解法和出路。它是這么個(gè)原理呢?
大語(yǔ)言模型如何生成視頻?
大語(yǔ)言模型生成視頻是通過(guò)理解視頻內(nèi)容的時(shí)間和空間關(guān)系來(lái)實(shí)現(xiàn)的。谷歌的VideoPoet是一個(gè)利用大語(yǔ)言模型來(lái)生成視頻的例子。這個(gè)時(shí)候,讓我們?cè)俅握?qǐng)出生成式AI科學(xué)家張宋揚(yáng)博士,來(lái)給我們做一個(gè)生動(dòng)的解釋。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
然后大語(yǔ)言模型這個(gè)東西,原理上完全不一樣,它最一開始是用在文本上面,用在文本上面就是說(shuō)我預(yù)測(cè)下一個(gè)單詞是什么,就比如說(shuō)“我愛說(shuō)實(shí)話”,然后最后一個(gè)“我愛說(shuō)實(shí)”,然后最后一個(gè)字是什么?你猜是什么字?然后可能你給的這些前面的字越多,你可能越容易猜到后面。但是如果你給的字比較少,你可能發(fā)揮空間會(huì)更多,它是這么樣一個(gè)過(guò)程。
然后這個(gè)思路帶到了視頻當(dāng)中,那就是我們可以學(xué)一個(gè)圖片的詞匯,或者說(shuō)是視頻的詞匯。就是說(shuō)我們可以把圖片橫著切,比如說(shuō)橫著切16刀,豎著切16刀,然后把每一個(gè)小方塊、小格子當(dāng)成一個(gè)詞,然后把它輸?shù)竭@個(gè)大語(yǔ)言模型當(dāng)中,讓他們學(xué)習(xí)。比如說(shuō)之前你已經(jīng)有一個(gè)很好的一個(gè)大語(yǔ)言模型了,然后你去學(xué)習(xí)怎么大語(yǔ)言模型的這些詞跟這些文本的詞或者視頻的詞進(jìn)行一個(gè)交互,它們之間的進(jìn)行一個(gè)關(guān)聯(lián),是一個(gè)什么樣的關(guān)聯(lián)?你去學(xué)一些這個(gè)東西,然后這樣的話,我們就可以利用這些大語(yǔ)言模型,讓它可以去做一些視頻的任務(wù),或者是文本的一些任務(wù)。
簡(jiǎn)單來(lái)說(shuō),基于大語(yǔ)言模型的Videopoet是這樣運(yùn)作的:
1)輸入和理解:首先Videopoet接收文本,聲音,圖片,深度圖,光流圖,或者有待編輯的視頻作為輸入。
2)視頻和聲音的編碼:因?yàn)槲谋咎烊痪褪请x散的形式,大語(yǔ)言模型自然而然就要求輸入和輸出必須是離散的特征。然而視頻和聲音是連續(xù)量,為了讓大語(yǔ)言模型也能讓圖片,視頻或者聲音作為輸入和輸出,這里Videopoet將視頻和聲音編碼成離散的token。在深度學(xué)習(xí)中,token是一個(gè)非常重要的概念, 它是指一組符號(hào)或標(biāo)識(shí)符,用于表示一組數(shù)據(jù)或信息中的一個(gè)特定元素。在Videopoet的例子中,通俗一點(diǎn)可以理解成視頻的單詞和聲音的單詞。
3)模型訓(xùn)練和內(nèi)容生成:有了這些Token詞匯,就可以根據(jù)用戶給的輸入,像學(xué)習(xí)文本token那樣,訓(xùn)練一個(gè)Transformer去學(xué)習(xí)逐個(gè)預(yù)測(cè)視頻的token,模型就會(huì)開始生成內(nèi)容。對(duì)于視頻生成,這意味著模型需要?jiǎng)?chuàng)建連貫的幀序列,這些幀不僅在視覺上符合邏輯,還要在時(shí)間上保持連續(xù)性。
4)優(yōu)化和微調(diào):生成的視頻可能需要進(jìn)一步的優(yōu)化和微調(diào),以確保質(zhì)量和連貫性。這可能包括調(diào)整顏色、光照和幀之間的過(guò)渡等。VideoPoet利用深度學(xué)習(xí)技術(shù)來(lái)優(yōu)化生成的視頻,確保它們既符合文本描述,又在視覺上吸引人。
5)輸出:最后,生成的視頻會(huì)被輸出,供最終用戶觀看。
但是,大語(yǔ)言模型生成視頻的路線,也是優(yōu)點(diǎn)和缺點(diǎn)并存的。
06 大語(yǔ)言模型生成視頻優(yōu)劣勢(shì)
先來(lái)說(shuō)說(shuō)優(yōu)點(diǎn):
1)高度理解能力: 基于Transformer架構(gòu)的大語(yǔ)言模型能夠處理和理解大量的數(shù)據(jù),包括復(fù)雜的文本和圖像信息。這使得模型能具有跨模態(tài)的理解和生成能力,能夠很好學(xué)到文本和圖片視頻不同模態(tài)之間關(guān)聯(lián)的能力。這使得它們?cè)趯⑽谋久枋鲛D(zhuǎn)換成視頻內(nèi)容時(shí),能夠生成更準(zhǔn)確和相關(guān)的輸出。
2)處理長(zhǎng)序列數(shù)據(jù): 由于自注意力機(jī)制,Transformer模型特別擅長(zhǎng)處理長(zhǎng)序列數(shù)據(jù),這對(duì)于視頻生成尤其重要,因?yàn)橐曨l本質(zhì)上是長(zhǎng)序列的視覺表示。
3)Transformer的可擴(kuò)展性:通常來(lái)說(shuō)模型越大,擬合的能力就越強(qiáng)。但當(dāng)模型大到一定程度時(shí),卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來(lái)的增益會(huì)放緩甚至停止,而Transformer仍能持續(xù)增長(zhǎng)。Transformer在大語(yǔ)言模型已經(jīng)證明了這一點(diǎn),如今在圖片視頻生成這一領(lǐng)域也逐漸嶄露頭角。
再來(lái)說(shuō)說(shuō)缺點(diǎn):
1)資源密集型:用大語(yǔ)言模型生成視頻,特別是高質(zhì)量視頻,需要大量的計(jì)算資源,因?yàn)橛么笳Z(yǔ)言模型的路線是將視頻編碼成token,往往會(huì)比一句話甚至一段話的詞匯量要大的多,同時(shí),如果一個(gè)一個(gè)的去預(yù)測(cè),會(huì)讓時(shí)間的開銷非常大。也就是說(shuō),這可能使得Transformer模型的訓(xùn)練和推理過(guò)程變得昂貴和時(shí)間消耗大。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
有一個(gè)問(wèn)題我覺得挺本質(zhì)的,就是transformer它不夠快,這個(gè)是很本質(zhì)的一個(gè)問(wèn)題,因?yàn)閠ransformer它一個(gè)小方塊一個(gè)小方塊地預(yù)測(cè),擴(kuò)散模型直接一張圖就出來(lái)了,所以transformer肯定會(huì)比較慢的。
陳茜,硅谷101視頻主理人:
太慢了有一個(gè)具象的一個(gè)數(shù)據(jù)嗎?就是能慢多少?
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
就比如說(shuō)我直接出一張圖,diffusion比如出一張圖就是1,它也需要一些迭代過(guò)程。然后比如說(shuō)我用四步,它就是四步去生成出來(lái),咱就是4?,F(xiàn)在目前做得好的話,四步我看有做的效果還是不錯(cuò)的。然后但是你要是用transformer的話,比如說(shuō)你畫16*16的方格,那就是16*16,那就等于256了,就是那個(gè)速度。
4是相當(dāng)于我做去噪迭代了四次。然后transformer的話,它是相當(dāng)于我去預(yù)測(cè)一張圖片,比如說(shuō)是16*16的話,我就預(yù)測(cè)256個(gè)詞。他們的量綱肯定不一樣,但是他們的復(fù)雜度你是可以看出來(lái)的。就是diffusion模型,它的復(fù)雜度是一個(gè)常數(shù)集。但是transformer的那個(gè)復(fù)雜度,它實(shí)際上是一個(gè)寬度x高度,復(fù)雜度會(huì)不一樣。所以說(shuō)從復(fù)雜度角度來(lái)說(shuō),肯定是擴(kuò)散模型會(huì)更優(yōu)一些。然后具體我覺得這東西可能你如果是圖片越大的話,分辨率越高的話,transformer的問(wèn)題可能會(huì)越大。
Transformer模型的另外一些問(wèn)題還包括:
2)質(zhì)量波動(dòng):盡管Transformer模型能夠生成創(chuàng)造性的視頻內(nèi)容,但輸出的質(zhì)量可能不穩(wěn)定,特別是對(duì)于復(fù)雜的或未充分訓(xùn)練的模型。
3)數(shù)據(jù)依賴性:Transformer模型的性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。如果訓(xùn)練數(shù)據(jù)有限或有偏差,生成的視頻可能無(wú)法準(zhǔn)確反映輸入的意圖或在多樣性上存在限制。
4)理解和邏輯限制:雖然Transformer模型在理解文本和圖像內(nèi)容方面取得了進(jìn)步,但它們可能仍然難以完全把握復(fù)雜的人類情感、幽默或細(xì)微的社會(huì)文化信號(hào),這可能會(huì)影響生成視頻的相關(guān)性和吸引力。
5)倫理和偏見問(wèn)題:自動(dòng)視頻生成技術(shù)可能會(huì)無(wú)意中復(fù)制或放大訓(xùn)練數(shù)據(jù)中的偏見,導(dǎo)致倫理問(wèn)題。
不過(guò)說(shuō)到第五點(diǎn),我突然想起來(lái)最近的這么一個(gè)新聞,說(shuō)谷歌的多模態(tài)大模型Gemini中,無(wú)論你輸入什么人,出來(lái)的都是有色人種,包括美國(guó)開國(guó)元?jiǎng)?,黑人女性版本的教皇,維京人也是有色人種,生成的Elon Musk也是黑人。
這背后的原因可能是谷歌為了更正Transformer架構(gòu)中的偏見,給加入了AI道德和安全方面的調(diào)整指令,結(jié)果調(diào)過(guò)頭了,出了這個(gè)大烏龍。不過(guò)這個(gè)事情發(fā)生在OpenAI發(fā)布了Sora之后,確實(shí)又讓谷歌被群嘲了一番。
不過(guò),業(yè)內(nèi)人士也指出,以上的這五點(diǎn)問(wèn)題也不是transformer架構(gòu)所獨(dú)有的,目前何生成模型都可能存在這些問(wèn)題,只是不同模型在不同方向的優(yōu)劣勢(shì)稍有不同。
所以,到這里總結(jié)一下,擴(kuò)散模型和Transformer模型生成視頻都有不甚令人滿意的地方,那么,身為技術(shù)最為前沿的公司OpenAI他們是怎么做的呢?誒,也許你猜到了,這兩模型各有千秋,我把它們結(jié)合在一起,會(huì)不會(huì)1+1>2呢?于是,Sora,也就是擴(kuò)散模型和Transformer模型的結(jié)合。
07 Sora的擴(kuò)散+大語(yǔ)言模型:1+1>2?
說(shuō)實(shí)話,目前外界對(duì)Sora的細(xì)節(jié)還是未知的,現(xiàn)在也沒有對(duì)公眾開放,連waitinglit都沒有開放,只邀請(qǐng)了業(yè)界和設(shè)計(jì)界的極少數(shù)人來(lái)使用,產(chǎn)出的視頻也在網(wǎng)上都公開了。對(duì)于技術(shù),更多是基于OpenAI給出的效果視頻的猜測(cè)和分析。OpenAI在發(fā)布Sora當(dāng)天給出了一個(gè)比較模糊的技術(shù)解釋,但中間很多技術(shù)細(xì)節(jié)是缺失的。
但我們先從Sora公開的這篇技術(shù)解析,來(lái)看看OpenAI的擴(kuò)散+大語(yǔ)言模型技術(shù)路線是如何操作的。
Sora在開頭就說(shuō)得很清楚:OpenAI在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上“聯(lián)合訓(xùn)練文本條件擴(kuò)散模型”(text-conditional diffusion models)。同時(shí),利用對(duì)視頻和圖像潛在代碼的時(shí)空補(bǔ)?。╯pacetime patches)進(jìn)行操作的Transformer架構(gòu)。
所以,Sora模型的生成的步驟包括:
第一步:視頻壓縮網(wǎng)絡(luò)
在基于大語(yǔ)言模型的視頻生成技術(shù)中,我們提到過(guò)把視頻編碼成一個(gè)一個(gè)離散的token,這里Sora也采用了同樣的想法。視頻是一個(gè)三維的輸入(兩維空間+一維時(shí)間),這里將視頻在三維空間中均分成一個(gè)一個(gè)小的token,被OpenAI稱為“時(shí)空補(bǔ)丁”(spacetime patches)。
第二步:文本理解
因?yàn)镾ora有OpenAI文生圖模型DALLE3的加持,可以將許多沒有文本標(biāo)注的視頻自動(dòng)進(jìn)行標(biāo)注,并用于視頻生成的訓(xùn)練。同時(shí)因?yàn)橛蠫PT的加持,可以將用戶的輸入擴(kuò)寫成更加詳細(xì)的描述,使得生成的視頻獲得更加貼合用戶的輸入,并且transformer框架能幫助Sora模型更有效地學(xué)習(xí)和提取特征,獲取和理解大量的細(xì)節(jié)信息,增強(qiáng)模型對(duì)未見過(guò)數(shù)據(jù)的泛化能力。
比如說(shuō),你輸入“一個(gè)卡通袋鼠在跳disco”,GPT會(huì)幫助聯(lián)想說(shuō),得在迪廳,帶個(gè)墨鏡,穿個(gè)花襯衫,燈光閃耀,背后還有一堆各種動(dòng)物,在一起蹦跶,等等等等來(lái)發(fā)揮聯(lián)想能力解釋輸入的prompt。所以,GPT能展開的解釋和細(xì)節(jié)豐富程度,將會(huì)決定Sora生成得有多好。而GPT模型就是OpenAI自家的,不像其它AI視頻startup公司需要調(diào)用GPT模型,OpenAI給Sora的GPT架構(gòu)的調(diào)取效率和深廣度,肯定是最高的,這可能也是為什么Sora會(huì)在語(yǔ)義理解上做得更好。
第三步:Diffusion Transformer成像
Sora采用了Diffusion和Transformer結(jié)合的方式。
之前我們?cè)诨诖笳Z(yǔ)言模型的視頻生成技術(shù)中提到過(guò)Transformer具有較好的可拓展性。意思就是說(shuō)Transformer的結(jié)構(gòu)會(huì)隨著模型的增大,效果會(huì)越來(lái)越好。這一特性并不是所有模型都具備的。比如當(dāng)模型大到一定程度時(shí),卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來(lái)的增益會(huì)放緩甚至停止,而Transformer仍能持續(xù)增長(zhǎng)。
很多人會(huì)注意到,Sora在保持畫面物體的穩(wěn)定性、一致性、畫面旋轉(zhuǎn)等等,都表現(xiàn)出穩(wěn)定的能力,遠(yuǎn)超runway,Pika,Stable Video等基于Diffusion模型所呈現(xiàn)的視頻模型。
還記得我們?cè)谡f(shuō)擴(kuò)散模型的時(shí)候也說(shuō)道:視頻生成的挑戰(zhàn)在于生成物體的穩(wěn)定性一致性。這是因?yàn)?,雖然Diffusion是視頻生成技術(shù)的主流,但之前的工作一直局限在基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并沒有發(fā)揮出Diffusion全部潛力,而Sora很巧妙的結(jié)合了Diffusion和Transformer這兩者的優(yōu)勢(shì),讓視頻生成技術(shù)獲得了更大的提升。
更深一步說(shuō),Sora生成的視頻連續(xù)性可能是通過(guò)Transformer Self- Attention自注意力機(jī)制獲得的。Sora可以將時(shí)間離散化,然后通過(guò)自注意力機(jī)制理解前后時(shí)間線的關(guān)系。而自注意力機(jī)制的原理就是每個(gè)時(shí)間點(diǎn)和其他所有時(shí)間點(diǎn)產(chǎn)生聯(lián)系,這是Diffusion Model所不具備的。
目前外界有一些觀點(diǎn)猜測(cè),在我們之前說(shuō)到的擴(kuò)散模型的第三步驟中,Sora選擇將U-Net架構(gòu)替換成了Transformer架構(gòu)。這讓Diffusion擴(kuò)散模型作為一個(gè)畫師開始逆擴(kuò)散、畫畫的時(shí)候,在消除噪音的過(guò)程中,能根據(jù)關(guān)鍵詞特征值對(duì)應(yīng)的可能性概率,在OpenAI海量的數(shù)據(jù)庫(kù)中,找到更貼切的部分,來(lái)進(jìn)行下筆。
我在采訪另一位AI從業(yè)者的時(shí)候,他用了另外一個(gè)生動(dòng)的例子解釋這里的區(qū)別。他說(shuō):“擴(kuò)散模型預(yù)測(cè)的是噪音,從某個(gè)時(shí)間點(diǎn)的畫面,減去預(yù)測(cè)的噪音,得到的就是最原始沒有噪音的畫面,也就是最終生成的畫面。這里更像是雕塑,就像米開朗基羅說(shuō)的,他只是遵照上帝的旨意將石料上不應(yīng)該存在的部分去掉,最終他才從中創(chuàng)造出偉大的雕塑作品。而Transformer通過(guò)自注意力機(jī)制,理解時(shí)間線之間的關(guān)聯(lián),讓這尊雕塑從石座上走了下來(lái)?!笔遣皇沁€挺形象的?
最后,Sora的Transformer+Diffusion Model將時(shí)空補(bǔ)丁生成圖片,然后圖片再拼接為視頻序列,一段Sora視頻就生成了。
說(shuō)實(shí)話,Transformer加擴(kuò)散模型的方法論并不是OpenAI獨(dú)創(chuàng)的,在OpenAI發(fā)布Sora之前,我們?cè)诤蛷埶螕P(yáng)博士今年一月份采訪的時(shí)候,他就已經(jīng)提到說(shuō),Transformer加擴(kuò)散模型的方式已經(jīng)在行業(yè)中開始普遍的被研究了。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
目前又能看到一些把transformer的模型做到跟diffusion結(jié)合,然后效果可能也不差,甚至可能論文里面有些說(shuō)的可能會(huì)更好。所以說(shuō)這個(gè)東西我不確定以后模型會(huì)怎么發(fā)展,我覺得可能是兩者結(jié)合的一種方式。就是transformer他們那種,比如說(shuō)它預(yù)測(cè) 下一個(gè)視頻,有天然的優(yōu)勢(shì),就是它可以預(yù)測(cè)變成的一些東西。diffusion雖然質(zhì)量高,但是diffusion目前很多做法還是生成固定幀數(shù)的。怎么把兩個(gè)東西結(jié)合在一起,是一個(gè)后面會(huì)研究的一個(gè)過(guò)程。
所以,這也解釋了為什么OpenAI現(xiàn)在要發(fā)布Sora,其實(shí)在OpenAI的論壇上,Sora方澄清說(shuō),Sora現(xiàn)在并不是一個(gè)成熟的產(chǎn)品,所以,它不是已發(fā)布的產(chǎn)品,也不公開,沒有等候名單,也沒有預(yù)計(jì)的發(fā)布日期。
外界有分析認(rèn)為,Sora還不成熟,OpenAI算力也不一定能承受Sora被公開,同時(shí)還有公開之后的假新聞安全和道德問(wèn)題,所以Sora不一定會(huì)很快正式發(fā)布,但因?yàn)閠ransformer加diffusion已經(jīng)成為了業(yè)內(nèi)普遍嘗試的方向,這個(gè)時(shí)候,OpenAI需要展示出Sora的能力,來(lái)在目前競(jìng)爭(zhēng)日益白熱化的生成式AI視頻領(lǐng)域中重聲自己行業(yè)的領(lǐng)先地位。
而有了OpenAI的驗(yàn)證之后,我們基本可以確定的是,AI視頻生成方向會(huì)轉(zhuǎn)變到這個(gè)新的技術(shù)結(jié)合。而OpenAI在發(fā)表的技術(shù)文章中也明確指出,在ChatGPT上的巨量參數(shù)“大力出奇跡”的方式,被證明在AI視頻生成上。
OpenAI在文章中說(shuō),“我們發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。
這說(shuō)明,Sora和GPT3的時(shí)候一樣,出現(xiàn)了“涌現(xiàn)”emergence,而這意味著,與GPT大語(yǔ)言模型一樣,AI視頻也需要更多的參數(shù),更多的GPU算力,更多的資金投入。
Scaling,依然是目前生成式AI的絕招,而這可能也意味著,生成式AI視頻也許最終也會(huì)成為大公司的游戲。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
我覺得可能更直觀的就是相當(dāng)于你,比如說(shuō)你一個(gè)視頻可能存下來(lái)是幾十個(gè)GB,然后可能到大語(yǔ)言模型就得大一千倍了,就得上TB了,就是大概是這么個(gè)意思,但是我覺得應(yīng)該是能看到這樣一個(gè)趨勢(shì)的,就是就雖然現(xiàn)在視頻的參數(shù)量只是在billion級(jí)。
但是像圖片里面他們之前stable diffusion模型,他們后來(lái)出了一個(gè)stable diffusion XL,他們也是把模型做大了,然后也帶來(lái)了一些比較好的一個(gè)效果,也不是說(shuō)比較好的效果,就是他們能做更真實(shí)的那圖片,然后效果也會(huì)更明顯一些。我覺得這是一個(gè)趨勢(shì),就是未來(lái)肯定會(huì)把參數(shù)量做大的,但是說(shuō)它帶來(lái)的增益會(huì)有多少,也取決于你目前的這個(gè)模型的結(jié)構(gòu)以及你的數(shù)據(jù)量,你的數(shù)據(jù)是什么樣的。
以上是我們對(duì)Sora非常初步的分析,再次說(shuō)明一下,因?yàn)镾ora非常多技術(shù)細(xì)節(jié)沒有公開,所以我們的很多分析也是從外部視角去做的一個(gè)猜測(cè),如果有不準(zhǔn)確的地方,歡迎大家來(lái)糾錯(cuò),指正和探討。