每日av作品更新在线观看,日韩亚洲综合精品国产

文|硅谷101

Sora，OpenAI的人工智能AI生成式視頻大模型，在2024年2月15日一經(jīng)發(fā)布，就引發(fā)了全球關(guān)注，硅谷AI視頻論文作者（非Sora）這樣評(píng)價(jià)：相當(dāng)好，這是毋庸置疑的No.1。

Sora好在哪里？生成式AI視頻的發(fā)展挑戰(zhàn)在哪里？OpenAI的視頻模型一定是正確的路線嗎？所謂的“世界模型”達(dá)成共識(shí)了嗎？這期視頻，我們通過(guò)與硅谷一線AI從業(yè)人員的采訪，深度聊聊生成式AI視頻大模型的不同派系發(fā)展史，大家的爭(zhēng)議和未來(lái)路線。

AI生成視頻這個(gè)題我們其實(shí)去年就想做了，因?yàn)楫?dāng)時(shí)跟很多人聊天，包括跟VC投資人聊的時(shí)候，發(fā)現(xiàn)其實(shí)大家對(duì)AI視頻模型和ChatGPT這種大語(yǔ)言模型的區(qū)別并不是很清楚。但是為啥沒做呢，因?yàn)樵谌ツ昴甑?，市?chǎng)中做得最好的也就是runway這家公司旗下的Gen1和Gen2兩種視頻生成視頻以及文字生成視頻的功能，但我們生成出來(lái)的效果... 有點(diǎn)一言難盡。

比如說(shuō)，我們用runway生成的一個(gè)視頻，prompt提示詞是”super mario walking in a desert”(超級(jí)馬里奧漫步于沙漠中)，結(jié)果出來(lái)的視頻是這樣的：

怎么看怎么像馬里奧跳躍在月球上。無(wú)論是重力還是摩擦力，物理學(xué)在這段視頻里好像突然不復(fù)存在。

然后我們嘗試了另外一個(gè)提示詞，“A group of people walking down a street at night with umbrellas on the windows of stores.”（雨夜的大街上，一群人走在商鋪窗戶檐的傘下）這段提示詞也是一個(gè)投資人Garrio Harrison嘗試過(guò)的，結(jié)果出來(lái)的視頻，是這樣的：

你看這空中漂浮的雨傘，是不是很詭異... 但這已經(jīng)是去年代表著最領(lǐng)先技術(shù)的runway了。之后華人創(chuàng)始人Demi Guo創(chuàng)立的Pika Labs火了一陣，被認(rèn)為比runway效果稍好一些，但依然受制于3-4秒的長(zhǎng)度顯示，并且生成的視頻仍然存在視頻理解邏輯、手部構(gòu)圖等缺陷問(wèn)題。

所以，在OpenAI發(fā)布Sora模型之前，生成式AI視頻模型并沒有像ChatGPT、Midjourney這樣的聊天和文生圖應(yīng)用一樣引發(fā)全球關(guān)注，很大原因就是因?yàn)樯梢曨l的技術(shù)難度非常高，視頻是二維空間+時(shí)間，從靜態(tài)到動(dòng)態(tài)，從平面到不同時(shí)間片段下的平面顯示出的立體效果，不但需要強(qiáng)大的算法和算力，還需要解決一致性、連貫性、物理合理性、邏輯合理性等等一系列的復(fù)雜問(wèn)題。

所以，生成式視頻大模型這個(gè)選題，一直都在我們硅谷101的選題單上，但一直拖著沒做，想等生成式AI視頻模型有一個(gè)重大突破的時(shí)候，我們?cè)賮?lái)做這個(gè)選題，結(jié)果沒想到，這么快，這個(gè)時(shí)刻，就來(lái)了。

01 生成式AI視頻的ChatGPT時(shí)刻？

Sora的展示，毫無(wú)疑問(wèn)是吊打此前的runway和pika labs的。

首先，最大的突破之一，很直觀的就是：生成視頻長(zhǎng)度大大的延長(zhǎng)了。之前，runway和pika都只能生成出3-4秒的視頻，太短了，所以之前能出圈的AI視頻作品，就只有一些快節(jié)奏的電影預(yù)告片，因?yàn)槠渌枰L(zhǎng)一些素材的用途根本無(wú)法被滿足。

而在runway和pika上，如果需要更長(zhǎng)的視頻，你就需要自己不斷提示疊加視頻時(shí)長(zhǎng)，但我們視頻后期剪輯師Jacob就發(fā)現(xiàn)，這會(huì)出現(xiàn)一個(gè)大問(wèn)題。

Jacob，硅谷101視頻后期剪輯師：

痛點(diǎn)就是你在不斷往后延長(zhǎng)的時(shí)候，它后面的視頻會(huì)出現(xiàn)變形，就會(huì)導(dǎo)致前后視頻畫面的不一致，那這段素材就用不了了。

而Sora最新展示的論文和demo中表示，可以根據(jù)提示詞，直接生成1分鐘左右的視頻場(chǎng)景。與此同時(shí)，Sora會(huì)兼顧視頻中人物場(chǎng)景的變換以及主題的一致性。這讓我們的剪輯師看了之后，也直呼興奮。

Jacob，硅谷101視頻后期剪輯師：（Sora）其中有一個(gè)視頻是一個(gè)女孩走在東京的街頭... 對(duì)我來(lái)說(shuō)，這個(gè)是很厲害的。所以，就算在視頻動(dòng)態(tài)的運(yùn)動(dòng)情況下，隨著空間的移動(dòng)和旋轉(zhuǎn)，Sora視頻中出現(xiàn)的人物和物體會(huì)保持場(chǎng)景一致性的移動(dòng)。

第三，Sora可以接受視頻，圖像或提示詞作為輸入，模型會(huì)根據(jù)用戶的輸入來(lái)生成視頻，比如，公布出demo中的一朵爆開的云。這意味著，Sora模型可以基于靜態(tài)圖像來(lái)制作動(dòng)畫，做到在時(shí)間上向前或者向后來(lái)擴(kuò)展視頻。

第四，Sora可以讀取不同的無(wú)論是寬屏還是垂直視頻、進(jìn)行采樣，也可以根據(jù)同一個(gè)視頻去輸出不同尺寸的視頻，并且保持風(fēng)格穩(wěn)定，比如說(shuō)這個(gè)小海龜?shù)臉悠?。這其實(shí)對(duì)我們視頻后期的幫助是非常大的，現(xiàn)在Youtube和B站等1920*1080p橫屏視頻，我們需要重新剪成垂直1080*1920的視頻來(lái)適配抖音和Tiktok等短視頻平臺(tái)，但可以想象，之后也許就能通過(guò)Sora一鍵AI轉(zhuǎn)換，這也是我很期待的功能。

第五，遠(yuǎn)距離相干性和時(shí)間連貫性更強(qiáng)了。此前，AI生成視頻有個(gè)很大的困難，就是時(shí)間的連貫性，但Sora能很好的記住視頻中的人和物體，即使被暫時(shí)擋住或移出畫面，之后再出現(xiàn)的時(shí)候也能按照物理邏輯地讓視頻保持連貫性。比如說(shuō)Sora公布的這個(gè)小狗的視頻，當(dāng)人們走過(guò)它，畫面被完全擋住，再出現(xiàn)它的時(shí)候，它也能自然地繼續(xù)運(yùn)動(dòng)，保持時(shí)間和物體的連貫。

第六，Sora模型已經(jīng)可以簡(jiǎn)單地模擬世界狀態(tài)的動(dòng)作。比如說(shuō)，畫家在畫布上留下新的筆觸，這些筆觸會(huì)隨著時(shí)間的推移而持續(xù)存在，或者一個(gè)人吃漢堡的時(shí)候會(huì)留下漢堡上的咬痕。有比較樂(lè)觀的解讀認(rèn)為，這意味著模型具備了一定的通識(shí)能力、能“理解”運(yùn)動(dòng)中的物理世界，也能夠預(yù)測(cè)到畫面的下一步會(huì)發(fā)生什么。

因此，以上這幾點(diǎn)Sora模型帶來(lái)的震撼更新，極大地提高了外界對(duì)生成式AI視頻發(fā)展的期待和興奮值，雖然Sora也會(huì)出現(xiàn)一些邏輯錯(cuò)誤，比如說(shuō)貓出現(xiàn)三只爪子，街景中有不符合常規(guī)的障礙物，人在跑步機(jī)上的方向反了等等，但顯然，比起之前的生成視頻，無(wú)輪是runway還是pika還是谷歌的videopoet，Sora都是絕對(duì)的領(lǐng)先者，而更重要的是，OpenAI似乎通過(guò)Sora想證明，堆算力堆參數(shù)的“大力出奇跡”方式也可以適用到生成式視頻上來(lái)，并且通過(guò)擴(kuò)散模型和大語(yǔ)言模型的整合，這樣的模型新路線，來(lái)形成所謂的“世界模型”的基礎(chǔ)，而這些觀點(diǎn)，也在AI屆引發(fā)了極大的爭(zhēng)議和討論。

接下來(lái)，我們就來(lái)試圖回顧一下生成式AI大模型的技術(shù)發(fā)展之路，以及試圖解析一下，Sora的模型是怎么運(yùn)作的，它到底是不是所謂的“世界模型”？

02 擴(kuò)散模型技術(shù)路線：Google Imagen，Runway，Pika Labs

AI生成視頻的早期階段，主要依賴于GAN（生成式對(duì)抗網(wǎng)絡(luò)）和VAE（變分自編碼器）這兩種模型。但是，這兩種方法生成的視頻內(nèi)容相對(duì)受限，相對(duì)的單一和靜態(tài)，而且分辨率往往不太行，完全沒辦法進(jìn)行商用。所以這兩種模型我們就先不講了哈。

之后，AI生成視頻就演變成了兩種技術(shù)路線，一種是專門用于視頻領(lǐng)域的擴(kuò)散模型，一種則是Transformer模型。我們先來(lái)說(shuō)說(shuō)擴(kuò)散模型的路線，跑出來(lái)的公司就有Runway和Pika Labs等等。

03 什么是擴(kuò)散模型？

擴(kuò)散模型的英文是Diffusion Model。很多人不知道，如今最重要的開源模型Stable Diffusion的原始模型就是由Runway和慕尼黑大學(xué)團(tuán)隊(duì)一起發(fā)布的，而Stable Diffusion本身也是Runway核心產(chǎn)品—視頻編輯器Gen-1和Gen-2背后的底層技術(shù)基礎(chǔ)。

Gen-1模型在2023年2月發(fā)布，允許大家通過(guò)輸入文本或圖像，改變?cè)曨l的視覺風(fēng)格，例如將手機(jī)拍攝的現(xiàn)實(shí)街景變成賽博世界。而在6月，runway發(fā)布Gen-2，更近一步能將用戶輸入的文本提示直接生成為視頻。

擴(kuò)散模型的原理，大家一聽這個(gè)名字“擴(kuò)散模型”，就能稍微get到：是通過(guò)逐步擴(kuò)散來(lái)生成圖像或視頻。為了更好的給大家解釋模型原理，我們邀請(qǐng)到了之前Meta Make-A-Video模型的論文作者之一、目前在亞馬遜AGI團(tuán)隊(duì)從事視頻生成模型的張宋揚(yáng)博士來(lái)給我們做一個(gè)解釋。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

之所以最開始這篇論文之所以用擴(kuò)散這個(gè)名字，是源于一個(gè)物理現(xiàn)象，就是說(shuō)比如說(shuō)我們把墨水滴到一杯水里面去，墨水它會(huì)散開，這個(gè)東西叫擴(kuò)散。這個(gè)過(guò)程本身物理上是不可逆的，但是我們AI可以學(xué)習(xí)這么一個(gè)過(guò)程，把這個(gè)過(guò)程給逆過(guò)來(lái)。它類比到圖片里面來(lái)說(shuō)，就是一個(gè)圖片，它是不斷加噪聲不斷加噪聲，然后它會(huì)變成一個(gè)類似于馬賽克這樣的一個(gè)效果。它是一個(gè)純?cè)肼暤囊粡垐D片。然后我們學(xué)習(xí)怎么把這個(gè)噪點(diǎn)變成一張?jiān)嫉膱D片。

我們訓(xùn)練這么樣的一個(gè)模型，直接去一步完成的話，這個(gè)可能會(huì)很難，它分成了很多步，比如我分成1000步，比如說(shuō)我加一點(diǎn)點(diǎn)噪聲，它能夠還原出去噪聲后是什么樣子，然后噪聲加得比較多的時(shí)候，我該怎么去用這個(gè)模型怎么去預(yù)測(cè)噪聲？就是它分了很多步，然后逐漸地去把這噪聲慢慢地去掉，它迭代式地把這個(gè)噪聲慢慢給去掉。比如說(shuō)原來(lái)是一個(gè)水跟墨已經(jīng)完全混合在一起了，你想辦法怎么去預(yù)測(cè)它，一步一步它如何再變回之前的那一滴墨水的樣子。就是它是一個(gè)擴(kuò)散的一個(gè)逆過(guò)程。

張宋揚(yáng)博士解釋得很形象，擴(kuò)散模型的核心思想是通過(guò)不斷地向原始噪聲引入隨機(jī)性，逐步生成逼真的圖像或視頻。在而這個(gè)過(guò)程分成了四步：

1）初始化：擴(kuò)散模型開始于一個(gè)隨機(jī)的噪聲圖像或視頻幀作為初始輸入。

2）擴(kuò)散過(guò)程（也被稱為前向過(guò)程forward process）：擴(kuò)散過(guò)程的目標(biāo)是讓圖片變得不清晰，最后變成完全的噪聲。

3）反向過(guò)程（reverse process，又被稱為backward diffusion）：這時(shí)候我們會(huì)引入“神經(jīng)網(wǎng)絡(luò)”，比如說(shuō)基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的UNet結(jié)構(gòu)，在每個(gè)時(shí)間步預(yù)測(cè)“要達(dá)到現(xiàn)在這一幀模糊的圖像，所添加的噪聲”，從而通過(guò)去除這種噪聲來(lái)生成下一幀圖像，以此來(lái)形成圖像的逼真內(nèi)容。

4）重復(fù)步驟：重復(fù)上述步驟直到達(dá)到所需的生成圖像或視頻的長(zhǎng)度。

以上是video to video或者是picture to video的生成方式，也是runway Gen1的大概底層技術(shù)運(yùn)行方式。如果是要達(dá)到輸入提示詞來(lái)達(dá)到text to video，那么就要多加幾個(gè)步驟。

比如說(shuō)我們拿谷歌在2022年中旬發(fā)布的Imagen模型來(lái)舉例：我們的提示詞是a boy is riding on the Rocket，騎著火箭的男孩。這段提示詞會(huì)被轉(zhuǎn)換為tokens（標(biāo)記）并傳遞給編碼器text encoder。谷歌 IMAGEN模型接著用T5-XXL LLM編碼器將輸入文本編碼為嵌入（embeddings）。這些嵌入代表著我們的文本提示詞，但是以機(jī)器可以理解的方式進(jìn)行編碼。

之后這些“嵌入文本”會(huì)被傳遞給一個(gè)圖像生成器image generator，這個(gè)圖像生成器會(huì)生成64x64分辨率的低分辨率圖像。之后，IMAGEN模型利用超分辨率擴(kuò)散模型，將圖像從64x64升級(jí)到256x256，然后再加一層超分辨率擴(kuò)散模型，最后生成與我們的文本提示緊密結(jié)合的 1024x1024 高質(zhì)量圖像。

簡(jiǎn)單總結(jié)來(lái)說(shuō)，在這個(gè)過(guò)程中，擴(kuò)散模型從隨機(jī)噪聲圖像開始，在去噪過(guò)程中使用編碼文本來(lái)生成高質(zhì)量圖像。

04 擴(kuò)散模型優(yōu)劣勢(shì)

而生成視頻為什么要比生成圖片困難這么多？

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：它的原理實(shí)際上還是一樣的，只不過(guò)唯一一個(gè)區(qū)別就是多了一個(gè)時(shí)間軸。就是剛剛我們說(shuō)的圖片，它是一個(gè)2D的，它是高度跟寬度。然后視頻它多一個(gè)時(shí)間軸，它就是一個(gè)3D的，它就是高度、寬度還有一個(gè)時(shí)間。然后它在學(xué)習(xí)這個(gè)擴(kuò)散的逆過(guò)程的過(guò)程當(dāng)中，就是相當(dāng)于以前是一個(gè)2D的逆過(guò)程，現(xiàn)在變成一個(gè)3D的逆過(guò)程，就是這么一個(gè)區(qū)別。

所以說(shuō)圖片上的存在的問(wèn)題，比如說(shuō)像這些生成的人臉?biāo)遣皇钦鎸?shí)??？那我們?nèi)绻麍D片存在這樣的問(wèn)題，我們視頻也一樣會(huì)存在這樣的問(wèn)題。對(duì)于視頻來(lái)說(shuō)，它有一些它有些獨(dú)特的一些問(wèn)題，就比如說(shuō)剛才像你說(shuō)的這個(gè)畫面的主體是不是保持一致的？我覺得目前對(duì)于像風(fēng)景這樣的，其實(shí)效果都還可以，然后但是如果涉及到人的話，因?yàn)槿说倪@些要求可能會(huì)更精細(xì)，所以說(shuō)人的難度會(huì)更高，這是一個(gè)問(wèn)題。然后還有一個(gè)目前的難點(diǎn)，我覺得也是大家都在努力的一個(gè)方向，就是怎么把視頻變得更長(zhǎng)。因?yàn)槟壳皝?lái)說(shuō)的話，只生成2秒、3秒、4秒這樣的視頻，其實(shí)遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)在的應(yīng)用場(chǎng)景。

擴(kuò)散模型比起之前的GAN等模型來(lái)說(shuō)，有三個(gè)主要的優(yōu)點(diǎn)：

第一，穩(wěn)定性：訓(xùn)練過(guò)程通常更加穩(wěn)定，不容易陷入模式崩潰或模式塌陷等問(wèn)題。

第二，生成圖像質(zhì)量：擴(kuò)散模型可以生成高質(zhì)量的圖像或視頻，尤其是在訓(xùn)練充分的情況下，生成結(jié)果通常比較逼真。

第三，無(wú)需特定架構(gòu)：擴(kuò)散模型不依賴于特定的網(wǎng)絡(luò)結(jié)構(gòu)，兼容性好，很多不同類型的神經(jīng)網(wǎng)絡(luò)都可以拿來(lái)用。

然而，擴(kuò)散模型也有兩大主要缺點(diǎn)，包括：

首先，訓(xùn)練成本高：與一些其他生成模型相比，擴(kuò)散模型的訓(xùn)練可能會(huì)比較昂貴，因?yàn)樗枰诓煌肼暢潭鹊那闆r下學(xué)習(xí)去燥，需要訓(xùn)練的時(shí)間更久。

其次，生成花費(fèi)的時(shí)間更多。因?yàn)樯蓵r(shí)需要逐步去燥生成圖像或視頻，而不是一次性地生成整個(gè)樣本。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

就是我們其實(shí)現(xiàn)在無(wú)法生成長(zhǎng)的視頻一個(gè)很重要原因就是，我們的顯存是有限的。生成一張圖片可能占用一部分的顯存，然后你如果生成16張圖片，就可能差不多把這顯存給占滿了。當(dāng)你需要生成更多張圖片的時(shí)候，你就得想辦法怎么去，既考慮之前已經(jīng)生成的這些信息，然后再去預(yù)測(cè)后面該生成什么樣的信息。它首先在模型上面就提了一個(gè)更高的要求，當(dāng)然算力上面也是一個(gè)問(wèn)題，就是獲取過(guò)很多年之后，我們的顯存會(huì)非常的大，可能我們也就不存在這樣的問(wèn)題了，也是有可能的，但是就目前來(lái)說(shuō)，當(dāng)下我們是需要一個(gè)更好的一個(gè)算法，但是如果有更好硬件可能這個(gè)問(wèn)題就不存在。

所以，這注定了目前的視頻擴(kuò)散模型本身可能不是最好的算法，雖然runway和PikaLabs等代表公司一直在優(yōu)化算法。

我們接下來(lái)，聊聊另外一個(gè)派別：基于Transformer架構(gòu)的大語(yǔ)言模型生成視頻技術(shù)路線。

05 大語(yǔ)言模型生成視頻技術(shù)路線（VideoPoet）

最后，谷歌在2023年12月底發(fā)布了基于大語(yǔ)言模型的生成式AI視頻模型VideoPoet，這在當(dāng)時(shí)被視為生成視頻領(lǐng)域中，擴(kuò)散模型之外的另外一種解法和出路。它是這么個(gè)原理呢？

大語(yǔ)言模型如何生成視頻？

大語(yǔ)言模型生成視頻是通過(guò)理解視頻內(nèi)容的時(shí)間和空間關(guān)系來(lái)實(shí)現(xiàn)的。谷歌的VideoPoet是一個(gè)利用大語(yǔ)言模型來(lái)生成視頻的例子。這個(gè)時(shí)候，讓我們?cè)俅握?qǐng)出生成式AI科學(xué)家張宋揚(yáng)博士，來(lái)給我們做一個(gè)生動(dòng)的解釋。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

然后大語(yǔ)言模型這個(gè)東西，原理上完全不一樣，它最一開始是用在文本上面，用在文本上面就是說(shuō)我預(yù)測(cè)下一個(gè)單詞是什么，就比如說(shuō)“我愛說(shuō)實(shí)話”，然后最后一個(gè)“我愛說(shuō)實(shí)”，然后最后一個(gè)字是什么？你猜是什么字？然后可能你給的這些前面的字越多，你可能越容易猜到后面。但是如果你給的字比較少，你可能發(fā)揮空間會(huì)更多，它是這么樣一個(gè)過(guò)程。

然后這個(gè)思路帶到了視頻當(dāng)中，那就是我們可以學(xué)一個(gè)圖片的詞匯，或者說(shuō)是視頻的詞匯。就是說(shuō)我們可以把圖片橫著切，比如說(shuō)橫著切16刀，豎著切16刀，然后把每一個(gè)小方塊、小格子當(dāng)成一個(gè)詞，然后把它輸?shù)竭@個(gè)大語(yǔ)言模型當(dāng)中，讓他們學(xué)習(xí)。比如說(shuō)之前你已經(jīng)有一個(gè)很好的一個(gè)大語(yǔ)言模型了，然后你去學(xué)習(xí)怎么大語(yǔ)言模型的這些詞跟這些文本的詞或者視頻的詞進(jìn)行一個(gè)交互，它們之間的進(jìn)行一個(gè)關(guān)聯(lián)，是一個(gè)什么樣的關(guān)聯(lián)？你去學(xué)一些這個(gè)東西，然后這樣的話，我們就可以利用這些大語(yǔ)言模型，讓它可以去做一些視頻的任務(wù)，或者是文本的一些任務(wù)。

簡(jiǎn)單來(lái)說(shuō)，基于大語(yǔ)言模型的Videopoet是這樣運(yùn)作的：

1）輸入和理解：首先Videopoet接收文本，聲音，圖片，深度圖，光流圖，或者有待編輯的視頻作為輸入。

2）視頻和聲音的編碼：因?yàn)槲谋咎烊痪褪请x散的形式，大語(yǔ)言模型自然而然就要求輸入和輸出必須是離散的特征。然而視頻和聲音是連續(xù)量，為了讓大語(yǔ)言模型也能讓圖片，視頻或者聲音作為輸入和輸出，這里Videopoet將視頻和聲音編碼成離散的token。在深度學(xué)習(xí)中，token是一個(gè)非常重要的概念，它是指一組符號(hào)或標(biāo)識(shí)符，用于表示一組數(shù)據(jù)或信息中的一個(gè)特定元素。在Videopoet的例子中，通俗一點(diǎn)可以理解成視頻的單詞和聲音的單詞。

3）模型訓(xùn)練和內(nèi)容生成：有了這些Token詞匯，就可以根據(jù)用戶給的輸入，像學(xué)習(xí)文本token那樣，訓(xùn)練一個(gè)Transformer去學(xué)習(xí)逐個(gè)預(yù)測(cè)視頻的token，模型就會(huì)開始生成內(nèi)容。對(duì)于視頻生成，這意味著模型需要?jiǎng)?chuàng)建連貫的幀序列，這些幀不僅在視覺上符合邏輯，還要在時(shí)間上保持連續(xù)性。

4）優(yōu)化和微調(diào)：生成的視頻可能需要進(jìn)一步的優(yōu)化和微調(diào)，以確保質(zhì)量和連貫性。這可能包括調(diào)整顏色、光照和幀之間的過(guò)渡等。VideoPoet利用深度學(xué)習(xí)技術(shù)來(lái)優(yōu)化生成的視頻，確保它們既符合文本描述，又在視覺上吸引人。

5）輸出：最后，生成的視頻會(huì)被輸出，供最終用戶觀看。

但是，大語(yǔ)言模型生成視頻的路線，也是優(yōu)點(diǎn)和缺點(diǎn)并存的。

06 大語(yǔ)言模型生成視頻優(yōu)劣勢(shì)

先來(lái)說(shuō)說(shuō)優(yōu)點(diǎn)：

1）高度理解能力：基于Transformer架構(gòu)的大語(yǔ)言模型能夠處理和理解大量的數(shù)據(jù)，包括復(fù)雜的文本和圖像信息。這使得模型能具有跨模態(tài)的理解和生成能力，能夠很好學(xué)到文本和圖片視頻不同模態(tài)之間關(guān)聯(lián)的能力。這使得它們?cè)趯⑽谋久枋鲛D(zhuǎn)換成視頻內(nèi)容時(shí)，能夠生成更準(zhǔn)確和相關(guān)的輸出。

2）處理長(zhǎng)序列數(shù)據(jù)：由于自注意力機(jī)制，Transformer模型特別擅長(zhǎng)處理長(zhǎng)序列數(shù)據(jù)，這對(duì)于視頻生成尤其重要，因?yàn)橐曨l本質(zhì)上是長(zhǎng)序列的視覺表示。

3）Transformer的可擴(kuò)展性：通常來(lái)說(shuō)模型越大，擬合的能力就越強(qiáng)。但當(dāng)模型大到一定程度時(shí)，卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來(lái)的增益會(huì)放緩甚至停止，而Transformer仍能持續(xù)增長(zhǎng)。Transformer在大語(yǔ)言模型已經(jīng)證明了這一點(diǎn)，如今在圖片視頻生成這一領(lǐng)域也逐漸嶄露頭角。

再來(lái)說(shuō)說(shuō)缺點(diǎn)：

1）資源密集型：用大語(yǔ)言模型生成視頻，特別是高質(zhì)量視頻，需要大量的計(jì)算資源，因?yàn)橛么笳Z(yǔ)言模型的路線是將視頻編碼成token，往往會(huì)比一句話甚至一段話的詞匯量要大的多，同時(shí)，如果一個(gè)一個(gè)的去預(yù)測(cè)，會(huì)讓時(shí)間的開銷非常大。也就是說(shuō)，這可能使得Transformer模型的訓(xùn)練和推理過(guò)程變得昂貴和時(shí)間消耗大。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

有一個(gè)問(wèn)題我覺得挺本質(zhì)的，就是transformer它不夠快，這個(gè)是很本質(zhì)的一個(gè)問(wèn)題，因?yàn)閠ransformer它一個(gè)小方塊一個(gè)小方塊地預(yù)測(cè)，擴(kuò)散模型直接一張圖就出來(lái)了，所以transformer肯定會(huì)比較慢的。

陳茜，硅谷101視頻主理人：

太慢了有一個(gè)具象的一個(gè)數(shù)據(jù)嗎？就是能慢多少？

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

就比如說(shuō)我直接出一張圖，diffusion比如出一張圖就是1，它也需要一些迭代過(guò)程。然后比如說(shuō)我用四步，它就是四步去生成出來(lái)，咱就是4?，F(xiàn)在目前做得好的話，四步我看有做的效果還是不錯(cuò)的。然后但是你要是用transformer的話，比如說(shuō)你畫16*16的方格，那就是16*16，那就等于256了，就是那個(gè)速度。

4是相當(dāng)于我做去噪迭代了四次。然后transformer的話，它是相當(dāng)于我去預(yù)測(cè)一張圖片，比如說(shuō)是16*16的話，我就預(yù)測(cè)256個(gè)詞。他們的量綱肯定不一樣，但是他們的復(fù)雜度你是可以看出來(lái)的。就是diffusion模型，它的復(fù)雜度是一個(gè)常數(shù)集。但是transformer的那個(gè)復(fù)雜度，它實(shí)際上是一個(gè)寬度x高度，復(fù)雜度會(huì)不一樣。所以說(shuō)從復(fù)雜度角度來(lái)說(shuō)，肯定是擴(kuò)散模型會(huì)更優(yōu)一些。然后具體我覺得這東西可能你如果是圖片越大的話，分辨率越高的話，transformer的問(wèn)題可能會(huì)越大。

Transformer模型的另外一些問(wèn)題還包括：

2）質(zhì)量波動(dòng)：盡管Transformer模型能夠生成創(chuàng)造性的視頻內(nèi)容，但輸出的質(zhì)量可能不穩(wěn)定，特別是對(duì)于復(fù)雜的或未充分訓(xùn)練的模型。

3）數(shù)據(jù)依賴性：Transformer模型的性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。如果訓(xùn)練數(shù)據(jù)有限或有偏差，生成的視頻可能無(wú)法準(zhǔn)確反映輸入的意圖或在多樣性上存在限制。

4）理解和邏輯限制：雖然Transformer模型在理解文本和圖像內(nèi)容方面取得了進(jìn)步，但它們可能仍然難以完全把握復(fù)雜的人類情感、幽默或細(xì)微的社會(huì)文化信號(hào)，這可能會(huì)影響生成視頻的相關(guān)性和吸引力。

5）倫理和偏見問(wèn)題：自動(dòng)視頻生成技術(shù)可能會(huì)無(wú)意中復(fù)制或放大訓(xùn)練數(shù)據(jù)中的偏見，導(dǎo)致倫理問(wèn)題。

不過(guò)說(shuō)到第五點(diǎn)，我突然想起來(lái)最近的這么一個(gè)新聞，說(shuō)谷歌的多模態(tài)大模型Gemini中，無(wú)論你輸入什么人，出來(lái)的都是有色人種，包括美國(guó)開國(guó)元?jiǎng)?，黑人女性版本的教皇，維京人也是有色人種，生成的Elon Musk也是黑人。

這背后的原因可能是谷歌為了更正Transformer架構(gòu)中的偏見，給加入了AI道德和安全方面的調(diào)整指令，結(jié)果調(diào)過(guò)頭了，出了這個(gè)大烏龍。不過(guò)這個(gè)事情發(fā)生在OpenAI發(fā)布了Sora之后，確實(shí)又讓谷歌被群嘲了一番。

不過(guò)，業(yè)內(nèi)人士也指出，以上的這五點(diǎn)問(wèn)題也不是transformer架構(gòu)所獨(dú)有的，目前何生成模型都可能存在這些問(wèn)題，只是不同模型在不同方向的優(yōu)劣勢(shì)稍有不同。

所以，到這里總結(jié)一下，擴(kuò)散模型和Transformer模型生成視頻都有不甚令人滿意的地方，那么，身為技術(shù)最為前沿的公司OpenAI他們是怎么做的呢？誒，也許你猜到了，這兩模型各有千秋，我把它們結(jié)合在一起，會(huì)不會(huì)1+1>2呢？于是，Sora，也就是擴(kuò)散模型和Transformer模型的結(jié)合。

07 Sora的擴(kuò)散+大語(yǔ)言模型：1+1>2？

說(shuō)實(shí)話，目前外界對(duì)Sora的細(xì)節(jié)還是未知的，現(xiàn)在也沒有對(duì)公眾開放，連waitinglit都沒有開放，只邀請(qǐng)了業(yè)界和設(shè)計(jì)界的極少數(shù)人來(lái)使用，產(chǎn)出的視頻也在網(wǎng)上都公開了。對(duì)于技術(shù)，更多是基于OpenAI給出的效果視頻的猜測(cè)和分析。OpenAI在發(fā)布Sora當(dāng)天給出了一個(gè)比較模糊的技術(shù)解釋，但中間很多技術(shù)細(xì)節(jié)是缺失的。

但我們先從Sora公開的這篇技術(shù)解析，來(lái)看看OpenAI的擴(kuò)散+大語(yǔ)言模型技術(shù)路線是如何操作的。

Sora在開頭就說(shuō)得很清楚：OpenAI在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上“聯(lián)合訓(xùn)練文本條件擴(kuò)散模型”（text-conditional diffusion models）。同時(shí)，利用對(duì)視頻和圖像潛在代碼的時(shí)空補(bǔ)?。╯pacetime patches）進(jìn)行操作的Transformer架構(gòu)。

所以，Sora模型的生成的步驟包括：

第一步：視頻壓縮網(wǎng)絡(luò)

在基于大語(yǔ)言模型的視頻生成技術(shù)中，我們提到過(guò)把視頻編碼成一個(gè)一個(gè)離散的token，這里Sora也采用了同樣的想法。視頻是一個(gè)三維的輸入（兩維空間+一維時(shí)間），這里將視頻在三維空間中均分成一個(gè)一個(gè)小的token，被OpenAI稱為“時(shí)空補(bǔ)丁”（spacetime patches）。

第二步：文本理解

因?yàn)镾ora有OpenAI文生圖模型DALLE3的加持，可以將許多沒有文本標(biāo)注的視頻自動(dòng)進(jìn)行標(biāo)注，并用于視頻生成的訓(xùn)練。同時(shí)因?yàn)橛蠫PT的加持，可以將用戶的輸入擴(kuò)寫成更加詳細(xì)的描述，使得生成的視頻獲得更加貼合用戶的輸入，并且transformer框架能幫助Sora模型更有效地學(xué)習(xí)和提取特征，獲取和理解大量的細(xì)節(jié)信息，增強(qiáng)模型對(duì)未見過(guò)數(shù)據(jù)的泛化能力。

比如說(shuō)，你輸入“一個(gè)卡通袋鼠在跳disco”，GPT會(huì)幫助聯(lián)想說(shuō)，得在迪廳，帶個(gè)墨鏡，穿個(gè)花襯衫，燈光閃耀，背后還有一堆各種動(dòng)物，在一起蹦跶，等等等等來(lái)發(fā)揮聯(lián)想能力解釋輸入的prompt。所以，GPT能展開的解釋和細(xì)節(jié)豐富程度，將會(huì)決定Sora生成得有多好。而GPT模型就是OpenAI自家的，不像其它AI視頻startup公司需要調(diào)用GPT模型，OpenAI給Sora的GPT架構(gòu)的調(diào)取效率和深廣度，肯定是最高的，這可能也是為什么Sora會(huì)在語(yǔ)義理解上做得更好。

第三步：Diffusion Transformer成像

Sora采用了Diffusion和Transformer結(jié)合的方式。

之前我們?cè)诨诖笳Z(yǔ)言模型的視頻生成技術(shù)中提到過(guò)Transformer具有較好的可拓展性。意思就是說(shuō)Transformer的結(jié)構(gòu)會(huì)隨著模型的增大，效果會(huì)越來(lái)越好。這一特性并不是所有模型都具備的。比如當(dāng)模型大到一定程度時(shí)，卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來(lái)的增益會(huì)放緩甚至停止，而Transformer仍能持續(xù)增長(zhǎng)。

很多人會(huì)注意到，Sora在保持畫面物體的穩(wěn)定性、一致性、畫面旋轉(zhuǎn)等等，都表現(xiàn)出穩(wěn)定的能力，遠(yuǎn)超runway，Pika，Stable Video等基于Diffusion模型所呈現(xiàn)的視頻模型。

還記得我們?cè)谡f(shuō)擴(kuò)散模型的時(shí)候也說(shuō)道：視頻生成的挑戰(zhàn)在于生成物體的穩(wěn)定性一致性。這是因?yàn)?，雖然Diffusion是視頻生成技術(shù)的主流，但之前的工作一直局限在基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，并沒有發(fā)揮出Diffusion全部潛力，而Sora很巧妙的結(jié)合了Diffusion和Transformer這兩者的優(yōu)勢(shì)，讓視頻生成技術(shù)獲得了更大的提升。

更深一步說(shuō)，Sora生成的視頻連續(xù)性可能是通過(guò)Transformer Self- Attention自注意力機(jī)制獲得的。Sora可以將時(shí)間離散化，然后通過(guò)自注意力機(jī)制理解前后時(shí)間線的關(guān)系。而自注意力機(jī)制的原理就是每個(gè)時(shí)間點(diǎn)和其他所有時(shí)間點(diǎn)產(chǎn)生聯(lián)系，這是Diffusion Model所不具備的。

目前外界有一些觀點(diǎn)猜測(cè)，在我們之前說(shuō)到的擴(kuò)散模型的第三步驟中，Sora選擇將U-Net架構(gòu)替換成了Transformer架構(gòu)。這讓Diffusion擴(kuò)散模型作為一個(gè)畫師開始逆擴(kuò)散、畫畫的時(shí)候，在消除噪音的過(guò)程中，能根據(jù)關(guān)鍵詞特征值對(duì)應(yīng)的可能性概率，在OpenAI海量的數(shù)據(jù)庫(kù)中，找到更貼切的部分，來(lái)進(jìn)行下筆。

我在采訪另一位AI從業(yè)者的時(shí)候，他用了另外一個(gè)生動(dòng)的例子解釋這里的區(qū)別。他說(shuō)：“擴(kuò)散模型預(yù)測(cè)的是噪音，從某個(gè)時(shí)間點(diǎn)的畫面，減去預(yù)測(cè)的噪音，得到的就是最原始沒有噪音的畫面，也就是最終生成的畫面。這里更像是雕塑，就像米開朗基羅說(shuō)的，他只是遵照上帝的旨意將石料上不應(yīng)該存在的部分去掉，最終他才從中創(chuàng)造出偉大的雕塑作品。而Transformer通過(guò)自注意力機(jī)制，理解時(shí)間線之間的關(guān)聯(lián)，讓這尊雕塑從石座上走了下來(lái)?！笔遣皇沁€挺形象的？

最后，Sora的Transformer+Diffusion Model將時(shí)空補(bǔ)丁生成圖片，然后圖片再拼接為視頻序列，一段Sora視頻就生成了。

說(shuō)實(shí)話，Transformer加擴(kuò)散模型的方法論并不是OpenAI獨(dú)創(chuàng)的，在OpenAI發(fā)布Sora之前，我們?cè)诤蛷埶螕P(yáng)博士今年一月份采訪的時(shí)候，他就已經(jīng)提到說(shuō)，Transformer加擴(kuò)散模型的方式已經(jīng)在行業(yè)中開始普遍的被研究了。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

目前又能看到一些把transformer的模型做到跟diffusion結(jié)合，然后效果可能也不差，甚至可能論文里面有些說(shuō)的可能會(huì)更好。所以說(shuō)這個(gè)東西我不確定以后模型會(huì)怎么發(fā)展，我覺得可能是兩者結(jié)合的一種方式。就是transformer他們那種，比如說(shuō)它預(yù)測(cè) 下一個(gè)視頻，有天然的優(yōu)勢(shì)，就是它可以預(yù)測(cè)變成的一些東西。diffusion雖然質(zhì)量高，但是diffusion目前很多做法還是生成固定幀數(shù)的。怎么把兩個(gè)東西結(jié)合在一起，是一個(gè)后面會(huì)研究的一個(gè)過(guò)程。

所以，這也解釋了為什么OpenAI現(xiàn)在要發(fā)布Sora，其實(shí)在OpenAI的論壇上，Sora方澄清說(shuō)，Sora現(xiàn)在并不是一個(gè)成熟的產(chǎn)品，所以，它不是已發(fā)布的產(chǎn)品，也不公開，沒有等候名單，也沒有預(yù)計(jì)的發(fā)布日期。

外界有分析認(rèn)為，Sora還不成熟，OpenAI算力也不一定能承受Sora被公開，同時(shí)還有公開之后的假新聞安全和道德問(wèn)題，所以Sora不一定會(huì)很快正式發(fā)布，但因?yàn)閠ransformer加diffusion已經(jīng)成為了業(yè)內(nèi)普遍嘗試的方向，這個(gè)時(shí)候，OpenAI需要展示出Sora的能力，來(lái)在目前競(jìng)爭(zhēng)日益白熱化的生成式AI視頻領(lǐng)域中重聲自己行業(yè)的領(lǐng)先地位。

而有了OpenAI的驗(yàn)證之后，我們基本可以確定的是，AI視頻生成方向會(huì)轉(zhuǎn)變到這個(gè)新的技術(shù)結(jié)合。而OpenAI在發(fā)表的技術(shù)文章中也明確指出，在ChatGPT上的巨量參數(shù)“大力出奇跡”的方式，被證明在AI視頻生成上。

OpenAI在文章中說(shuō)，“我們發(fā)現(xiàn)，視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。

這說(shuō)明，Sora和GPT3的時(shí)候一樣，出現(xiàn)了“涌現(xiàn)”emergence，而這意味著，與GPT大語(yǔ)言模型一樣，AI視頻也需要更多的參數(shù)，更多的GPU算力，更多的資金投入。

Scaling，依然是目前生成式AI的絕招，而這可能也意味著，生成式AI視頻也許最終也會(huì)成為大公司的游戲。

張宋揚(yáng)博士，Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家：

我覺得可能更直觀的就是相當(dāng)于你，比如說(shuō)你一個(gè)視頻可能存下來(lái)是幾十個(gè)GB，然后可能到大語(yǔ)言模型就得大一千倍了，就得上TB了，就是大概是這么個(gè)意思，但是我覺得應(yīng)該是能看到這樣一個(gè)趨勢(shì)的，就是就雖然現(xiàn)在視頻的參數(shù)量只是在billion級(jí)。

但是像圖片里面他們之前stable diffusion模型，他們后來(lái)出了一個(gè)stable diffusion XL，他們也是把模型做大了，然后也帶來(lái)了一些比較好的一個(gè)效果，也不是說(shuō)比較好的效果，就是他們能做更真實(shí)的那圖片，然后效果也會(huì)更明顯一些。我覺得這是一個(gè)趨勢(shì)，就是未來(lái)肯定會(huì)把參數(shù)量做大的，但是說(shuō)它帶來(lái)的增益會(huì)有多少，也取決于你目前的這個(gè)模型的結(jié)構(gòu)以及你的數(shù)據(jù)量，你的數(shù)據(jù)是什么樣的。

以上是我們對(duì)Sora非常初步的分析，再次說(shuō)明一下，因?yàn)镾ora非常多技術(shù)細(xì)節(jié)沒有公開，所以我們的很多分析也是從外部視角去做的一個(gè)猜測(cè)，如果有不準(zhǔn)確的地方，歡迎大家來(lái)糾錯(cuò)，指正和探討。

文|硅谷101

怎么看怎么像馬里奧跳躍在月球上。無(wú)論是重力還是摩擦力，物理學(xué)在這段視頻里好像突然不復(fù)存在。