文|硅谷101
你或許還記得《三體》電視劇中那場(chǎng)令人震撼的的“古箏行動(dòng)”,制作團(tuán)隊(duì)近乎完美地還原了原著中納米飛刃切割審判日巨輪的情節(jié)。那么,這個(gè)場(chǎng)景是如何制作出來的呢?
近年來,國(guó)產(chǎn)影視作品特效水平大幅提升,數(shù)字特效技術(shù)的應(yīng)用為豐富影視作品視覺效果、提升作品的表達(dá)空間打開了新的大門。而如今,隨著生成式AI技術(shù)的快速發(fā)展,影視特效行業(yè)的制作效率和制作能力正在得到大規(guī)模地提升,蘋果Vision Pro等具有空間計(jì)算的3D硬件產(chǎn)品,也在讓特效行業(yè)重新經(jīng)歷一輪新的媒介的轉(zhuǎn)化。
《三體》古箏行動(dòng)片段,圖片取自于《三體電視劇》
本期節(jié)目中,我們邀請(qǐng)到了中國(guó)著名的視覺導(dǎo)演、影視制片人,也是《三體》的視覺導(dǎo)演陸貝珂來為我們揭秘《三體》電視劇特效制作背后的故事,以及深入探討生成式人工智能等前沿技術(shù)如今正在如何被應(yīng)用于影視特效行業(yè)中。
以下是部分訪談精選
01 “古箏行動(dòng)”如何被震撼還原
《硅谷101》:相信貝導(dǎo)的很多作品大家都看過。除了電視劇《三體》,貝導(dǎo)還在電影《鮫珠傳》、《白銀帝國(guó)》,電視劇《紅色》、《闖關(guān)東》《蕓汐傳》等知名影視作品中擔(dān)任視覺導(dǎo)演,在節(jié)目的開頭能否跟我們簡(jiǎn)單分享一下您進(jìn)入到視覺導(dǎo)演行業(yè)中的一個(gè)職業(yè)經(jīng)歷? 陸貝珂:我大概是在1999年就進(jìn)入了這個(gè)行業(yè)。我的專業(yè)本身就是影視廣告,大概在96年左右開始接觸計(jì)算機(jī)做圖形,當(dāng)時(shí)有用到如一些Autodesk、3DS之類的工業(yè)設(shè)計(jì)方面的軟件,覺得很有意思。那時(shí)正好也是《玩具總動(dòng)員》 等皮克斯動(dòng)畫片比較火的時(shí)候,就開始對(duì)這方面產(chǎn)生興趣。
因?yàn)槲冶旧硪彩菍W(xué)這個(gè)專業(yè),之后在具體的工作中也越來越多地接觸到這方面的內(nèi)容。其中最大的一個(gè)轉(zhuǎn)變是在 2004 年的時(shí)候,我當(dāng)時(shí)在北京跟一些朋友做一個(gè)后期特效和動(dòng)畫片的工作室,接觸到了很多美國(guó)B級(jí)片項(xiàng)目,并開始給一個(gè)叫Base的美國(guó)制片公司代工做動(dòng)畫、特效,后來大家就一起在北京成立了一家專門的特效公司Base FX,前幾年我主要做導(dǎo)演、編劇后來就轉(zhuǎn)向了專門做特效。
《硅谷101》:現(xiàn)在大家經(jīng)??吹诫娪?、電視劇里面有很多很酷炫的特效,但是對(duì)于非從業(yè)者來說,很多人都不太清楚影視特效具體是什么工作的。能不能用《三體》電視劇里特別震撼的“古箏行動(dòng)”給我們舉個(gè)例子,聊聊它究竟是怎么拍出來的,整個(gè)團(tuán)隊(duì)由哪些人員組成、和劇組如何配合,以及后期都需要什么樣的工作才能最終呈現(xiàn)這樣的效果?
陸貝珂:我的崗位是叫視覺導(dǎo)演,也就是要從視覺的角度去做很多畫面的設(shè)計(jì)以及一些概念設(shè)計(jì),其中包括建筑設(shè)計(jì)、工業(yè)設(shè)計(jì)、角色形象等很多種類,簡(jiǎn)單來說就是只要是涉及到用后期計(jì)算機(jī)去完成的內(nèi)容,它都?xì)w視覺導(dǎo)演來做。這其中有一大部分內(nèi)容叫 VFX 特效工作,具體到《三體》這個(gè)電視劇的話,它的特效工作可以大致分成兩大部分:一部分是傳統(tǒng)的實(shí)拍特效,另一部分則是純計(jì)算機(jī)生成的動(dòng)畫片式的特效。在動(dòng)畫片式的特效之下又分成兩大塊,一塊是模擬效果,即是用動(dòng)畫片的方法模擬一個(gè)精度比較高的VR游戲的畫面。另外一塊叫做藝術(shù)動(dòng)畫,即基于一些科技原理所創(chuàng)作的動(dòng)畫,比如BBC制作的《行星地球》里對(duì)星球和它的運(yùn)轉(zhuǎn)原理做的藝術(shù)動(dòng)畫,以及《三體》里火雞農(nóng)場(chǎng)主射手假說等風(fēng)格比較強(qiáng)烈的一些藝術(shù)動(dòng)畫。
“古箏行動(dòng)”就屬于非常傳統(tǒng)的VFX特效,它的特效特點(diǎn)是有大量的內(nèi)容是需要前期進(jìn)行拍攝,不光只是后期做計(jì)算機(jī)特效。VFX工作不純粹是由計(jì)算機(jī)完成的,實(shí)體特效、道具模型等很多東西是實(shí)拍完成的,比如說船、水稻、架子等可能需要使用實(shí)體置景道具,以及相關(guān)的那種用特殊道具的方法做出來的一些裝置,這個(gè)裝置是真的,而不是由計(jì)算機(jī)實(shí)現(xiàn)。“古箏行動(dòng)”里有大量的河道、隱蔽的營(yíng)地之類的都是實(shí)拍。但是隨著現(xiàn)在計(jì)算機(jī)圖形圖像學(xué)的發(fā)展,很多東西以前要用真實(shí)的模型做現(xiàn)在也可以用計(jì)算機(jī)來完成。 《硅谷101》:在《三體》里的巴拿馬運(yùn)河你們實(shí)際上是在中國(guó)找了一個(gè)差不多的河道進(jìn)行實(shí)拍,然后用后期再把它變得像巴拿馬運(yùn)河對(duì)嗎? 陸貝珂:嚴(yán)格來說我們并沒有找到一個(gè)跟它一樣的河,但是我們找了一個(gè)地形,那個(gè)地形的特點(diǎn)是我們參照研究了小說中對(duì)巴拿馬運(yùn)河的描寫找的。巴拿馬運(yùn)河非常長(zhǎng),有一部分是一個(gè)湖、有一部分是水壩,它有一個(gè)地方非常窄,叫做蓋拉德水道。我們研究了這個(gè)蓋拉德水道真實(shí)的地貌環(huán)境,在國(guó)內(nèi)找不到一個(gè)跟書中描繪的完全一樣的地方,但是我們可以找到不少看起來像的山勢(shì),它一邊是比較高,一邊地勢(shì)比較低,河的兩邊不是都像懸崖一樣的地方,而且還有一部分是人工的環(huán)境。我們?cè)谡憬伊艘粋€(gè)跟這個(gè)地貌很像的地方,但這個(gè)地方里面并沒有一條河道,所以那個(gè)河道是純CG(特效)完成的。
然后在一些局部的畫面里面,我們又找了一個(gè)看起來有水,就是“古箏行動(dòng)”中那個(gè)豎起來的兩根桿子的地方地方。我們拍的時(shí)候其實(shí)只拍了單邊的一根桿子,那個(gè)地方是天然的有水的地方,但是并不是一個(gè)真正的河道,是一個(gè)弧形的地形,但最后成片看起來會(huì)覺得它好像是在同一個(gè)地方拍攝的。。但這個(gè)地方跟我們撞船的位置、營(yíng)地的位置等畫面,其實(shí)是設(shè)計(jì)好之后分別找了六七個(gè)不同的地點(diǎn)單獨(dú)拍攝,之后再拼接起來的
“古箏行動(dòng)”的設(shè)計(jì),圖片來自陸貝珂知乎
《硅谷101》:這個(gè)看起來真的非常自然,之前看電視劇,還以為劇組真的在巴拿馬運(yùn)河那邊駐扎了好幾個(gè)月。
陸貝珂:原來確實(shí)有這個(gè)計(jì)劃,但我們2020年夏天拍的,因?yàn)橐咔闆]有辦法出去。
《硅谷101》:“古箏行動(dòng)”里的那艘巨輪是真的嗎? 陸貝珂:船有一部分是真的,劇中在輪船上人的近景,那些在那個(gè)船甲板上的ETO(Earth-Trisolaris Organization,地球三體組織的簡(jiǎn)稱) 人員大多數(shù)都是實(shí)拍。但船在河道上運(yùn)行以及最后被切割的畫面大部分都是CG。關(guān)于切割的部分,我們最后導(dǎo)完了之后也搭了一個(gè)實(shí)景,但是那個(gè)實(shí)景只有整個(gè)大環(huán)境的 1/ 20 的局部,因?yàn)樵谂耐晷≌f中所描述輪船整體像撲克牌一樣攤開之后,需要拍攝人進(jìn)去輪船內(nèi)部取硬盤的情節(jié),那就必須用實(shí)景來完成。
圖片來自陸貝珂知乎
《硅谷101》:聽上去是一個(gè)挺巨大的工程,那么完成這么一個(gè)拍攝工作,需要多少人來完成呢? 陸貝珂:實(shí)拍部分有幾百個(gè)人,分成很多個(gè)不同的工種,有些人負(fù)責(zé)搭建實(shí)拍部分,有些人做道具,有人負(fù)責(zé)攝影、以及服化道之類的。從后期CG特效人員來說,首先你需要把畫面在腦海中設(shè)計(jì)出來,然后就要做分鏡,完成后還需要做一些拍前預(yù)覽。就是要把鏡頭先分好、做出動(dòng)態(tài),之后要看節(jié)奏和時(shí)長(zhǎng)進(jìn)行預(yù)剪輯。實(shí)際上在2023年最后剪輯播出之前,我們已經(jīng)看過無數(shù)遍了,基本上在2020年的夏天的時(shí)候它就已經(jīng)定稿了,這個(gè)部分的工作叫 Previz或者Layout。接下來就是實(shí)拍,整個(gè)設(shè)置組會(huì)以Previz為藍(lán)本來拍攝各種各樣的鏡頭,每個(gè)鏡頭不一定是在同一個(gè)地方拍,再加上航拍等,前前后后有大概四五百人要參與進(jìn)來。在前期的素材都拍完之后,還有一個(gè)工序叫掃描,就是要用航拍機(jī)器或者地面的如雷達(dá)掃描等一些設(shè)備去真實(shí)地拍攝環(huán)境作為資產(chǎn)拿回來,后期的CG公司根據(jù)資產(chǎn)來做還原、相關(guān)的動(dòng)畫綁定、材質(zhì)建模這些工作。
在三體的“古箏行動(dòng)”部分,還有很大的一部分內(nèi)容叫動(dòng)力學(xué)模擬。對(duì)于鋼材碎片落地、船撞上泥土等這些效果,都需要做一些物理上的動(dòng)力學(xué)模擬,這種模擬不是人用手工調(diào)出來的,船的動(dòng)畫行動(dòng)、我們叫關(guān)鍵幀動(dòng)畫可以用手工調(diào)整,但這種物理學(xué)模擬是沒有辦法的。比如天上飛了上千萬片紙片,用手調(diào)是不可能的。在這個(gè)過程中我們就會(huì)運(yùn)用到一些相關(guān)軟件,比如Houdini這種結(jié)算、物理學(xué)模擬非常好的軟件,有時(shí)候還要自己做一些插件來處理一些東西。
我們?cè)谀M的時(shí)候畫面看上去是灰色的,一般我們叫灰模,不一定有最終畫面中那么好的光線和顏色。這是因?yàn)槲覀儽仨氃谠缙诰痛_定模擬是否成功,不能把光那些全部調(diào)好再去看,那可能就來不及,因?yàn)闆]有足夠的算力可以讓一次一次地去渲染它。確認(rèn)好畫面之后,接下來再做測(cè)試渲染。一般來說,電影的測(cè)試渲染可以做小分辨率的這種一個(gè)個(gè)動(dòng)態(tài)的畫面,但電視劇一般沒有這個(gè)預(yù)算,所以就很靠導(dǎo)演經(jīng)驗(yàn),需要通過很少量的幾張單幀的圖片就確定好這個(gè)畫面是不是能夠大批量地做渲染。
等確定好了光線這些部分后,就開始下要求渲染。這個(gè)過程就是一個(gè)算力的過程,有的渲染要靠GPU,但“古箏行動(dòng)”里面可能70% 還是用的CPU運(yùn)算,用的是一些渲染器來呈現(xiàn)出最終的光效。這些步驟都完成之后就要做合成,因?yàn)殇值臅r(shí)候并不是一次渲完的,而是一層一層地渲。比如有diffuse光線層,看上去沒有那么強(qiáng)的光線,還有一些條件層,還有OCC避光層等等,這些層最后要合并成一個(gè)完整畫面的時(shí)候,就要用到合成軟件,最后在合成軟件里面把它合成一個(gè)最終的鏡頭就可以真序列膠片看了。
船體分割的模擬分鏡
《硅谷101》:過程真的是非常復(fù)雜。那么在一部電影或者是一部電視劇當(dāng)中,一般有多少的預(yù)算會(huì)撥給后期特效呢? 陸貝珂:這個(gè)是一個(gè)非常非標(biāo)準(zhǔn)化的事情,很難有一個(gè)固定的數(shù)據(jù)。一般來說,要是類似于《復(fù)仇者聯(lián)盟》這種特別重特效的項(xiàng)目,很有可能占到50%左右,因?yàn)樘匦Я糠浅4?,涉及到大量奇幻、科幻的畫面。但如果只是一個(gè)常規(guī)的都市劇、愛情片,那可能就只有10%、5%甚至5%以下,都看實(shí)際需求。
對(duì)于《三體》來說,目前的第一季也就是小說的第一部分其實(shí)還好。我們的實(shí)際的制作預(yù)算是遠(yuǎn)低于Netflix版本的,大概只是它的1/10、或者1/20 這種級(jí)別。這其實(shí)也是我們國(guó)內(nèi)的動(dòng)畫特效制作的一個(gè)難點(diǎn)。它的難點(diǎn)不在于純粹的技術(shù)難點(diǎn),而在于平衡,也就是如何用偏小的預(yù)算制作出精良的畫面。
02 AI改變影視特效
《硅谷101》:你曾經(jīng)在拍完《三體》之后接受采訪時(shí)說感謝數(shù)字科技的進(jìn)步,如果放在 10 年前可能很難用現(xiàn)在的成本去做到現(xiàn)在的效果。很好奇具體是哪些數(shù)字科技的進(jìn)步,讓《三體》這樣的一部作品能現(xiàn)在在中國(guó)被拍出來?
陸貝珂:其實(shí)整個(gè)進(jìn)展是具有連續(xù)性的,倒并沒有一個(gè)類似于22年底23年初ChatGPT那種顛覆性創(chuàng)新。
在特效行業(yè)里面,成本方面的變化體現(xiàn)在軟件的成熟,降低了使用這些軟件的成本。比如在10年前,很少會(huì)在工作流程中用到引擎式的工作,比如UE(Unreal Engine)的那個(gè)引擎,但在《三體》制作的時(shí)候,前期工作中間有大量的Previz都是引擎做的,以前可能需要8到10人的團(tuán)隊(duì)做工作現(xiàn)在就能縮減到2、3個(gè)人。此外,很多部門都會(huì)有渲染優(yōu)化,就需要渲染算法的進(jìn)步來節(jié)省CPU的算力,但這個(gè)進(jìn)步是臺(tái)階式的,沒有那么顛覆性。
還有一點(diǎn)就是技術(shù)的易用性大大提升。以前有大量的東西需要自己去寫去查,比如用 Python去編很多東西,但近十幾年,很多問題都是已經(jīng)技術(shù)上解決過了,有很多現(xiàn)成的方案,不需要我們?nèi)膱D形圖像學(xué)論文里邊去找方法了。所以整體來說制作成本大幅下降,十幾年前這樣的效果可能可以做出來,但就是很貴,電視劇是做不起這個(gè)效果的。 《硅谷101》:芯片的發(fā)展是不是有助于預(yù)算優(yōu)化呢?為什么當(dāng)時(shí)《三體》效果渲染的時(shí)候不用GPU?
陸貝珂:因?yàn)殇秩局饕婕暗戒秩酒鳎秩酒鞯乃惴Q定了有些東西不是像那種分布式渲染。GPU的算法決定了它更多的是在不同的通道上算一些簡(jiǎn)單的東西,但它的光線追蹤的算法、或一些特定的OCC算法本來就是在CPU運(yùn)算上來編的,所以它這個(gè)渲染器就支持的就是CPU運(yùn)算,并沒有把它進(jìn)行那么大的分布式簡(jiǎn)單運(yùn)算。GPU有很大的一個(gè)特點(diǎn)是它的線程超級(jí)的多,但是它每個(gè)線程算的內(nèi)容其實(shí)很簡(jiǎn)單。但是有很多需要做大量運(yùn)算的渲染器本身不是基于這種方法來編輯開發(fā),所以我們也得繼承這個(gè)方案。但是現(xiàn)在也確實(shí)大量的GPU的運(yùn)算的方式越來越多了,其實(shí)《三體》里面大概有30%是GPU結(jié)算的,還有70%是傳統(tǒng)的CPU運(yùn)算的渲染。
《硅谷101》:在當(dāng)前特效行業(yè)當(dāng)中,哪個(gè)公司的CPU、GPU大家覺得用起來比較好呢?
陸貝珂:目前來說CPU方面基本上都是英特爾的,AMD也有一些,很少有其他家的。但是大家完全沒有以品牌作為判斷的標(biāo)準(zhǔn),因?yàn)檫@種渲染的模式?jīng)Q定了只要你是用同一種基礎(chǔ)的算法分布這些算力,那分到哪個(gè)上面都可以的。
《硅谷101》:這一輪生成式 AI技術(shù)浪潮的到來對(duì)整個(gè)特效行業(yè)有什么樣的影響嗎?
陸貝珂:目前最大的影響是前期和合成部分,還有一些是在動(dòng)力學(xué)特效上,因?yàn)閯?dòng)力學(xué)特效涉及到一些編程工作,這個(gè)工作要讓人工自己去完成的話還是很費(fèi)勁的,這種既可以做好編程、又能夠理解畫面效果的這種特效師人才其實(shí)是很少的。但是現(xiàn)在ChatGPT的編程的能力確實(shí)讓我們感覺有比較大的提高。
關(guān)于前期部分的提高主要是在概念設(shè)計(jì)方面。概念設(shè)計(jì)需要很多發(fā)散性的想法,在以前這種發(fā)散性想法我們是以手繪為主,把一個(gè)簡(jiǎn)單的構(gòu)圖或者是白描的東西變成完成高,需要投入很多的資源和時(shí)間。但現(xiàn)在有AI加持之后,這個(gè)完稿過程就變得特別的快,特別是不屬于原創(chuàng)設(shè)定的概念設(shè)計(jì)和美術(shù)繪畫類人員,總的需要量大概只有原來的20%左右。但提出創(chuàng)意人員,就是給AI以目標(biāo)、使用的提示詞的人倒不會(huì)減少,這一部分是AI也很難去直接替代的。
還有就是在光線上做完稿效果測(cè)試圖的生產(chǎn)量,現(xiàn)在可能有上百倍的提高。以前一個(gè)科幻項(xiàng)目的圖量在前期可能有500-1000張,現(xiàn)在是完全有可能提高到1萬張圖這種級(jí)別。這樣一來你會(huì)看到特別多不同的東西,導(dǎo)演部門有更多選擇,但另外一個(gè)角度可能更難選,因?yàn)闀?huì)出現(xiàn)很多圖。
《硅谷101》:那 AI 生成式視頻相關(guān)技術(shù)開始對(duì)這個(gè)產(chǎn)業(yè)產(chǎn)生影響了嗎?
陸貝珂:有的,最近做的片子里面就用到過這個(gè)技術(shù)。Gen-2、Runway這些公司的產(chǎn)品其實(shí)我們都用過,目前它們有一個(gè)特點(diǎn)是做出畫面的速度很快,很適合用于沒有特別具體的目標(biāo)、隨便放一個(gè)背景之類的情況中,比如我們拍一個(gè)片子中間有時(shí)候常常會(huì)出現(xiàn)電視里出現(xiàn)一個(gè)什么畫面。以前出于版權(quán)的考慮,你還不能用別人的,我們還真得花時(shí)間去拍或者做一個(gè),但現(xiàn)在有個(gè)AI的幫助之后,就節(jié)省了大量的這類型工作。
總體來說就是你需要的東西不在具體的情節(jié)、邏輯里面就可以用AI來幫忙做。它目前特別不行的就是邏輯、概念上的連貫,這個(gè)并不是指畫面本身或者人臉是不是連貫對(duì)齊,而主要是前一個(gè)鏡頭跟后一個(gè)鏡頭的絕對(duì)邏輯比較差。我們往往看到它們做那個(gè)trailer(預(yù)告片)比較好看,那是因?yàn)閠railer往往并不需要你有那么強(qiáng)的那個(gè)邏輯,而且它的慢動(dòng)作的效果會(huì)比正常動(dòng)作要好,因?yàn)槁齽?dòng)作的特點(diǎn)其實(shí)是畫面中間是以pose為主的,有人就有pose,其實(shí)是一個(gè)競(jìng)爭(zhēng)狀態(tài)下的一個(gè)微動(dòng)態(tài)。但如果是一個(gè)常速,比如我在這說話這個(gè)手的動(dòng)作它是帶有邏輯性的,這其實(shí)是很難讓它在3D的環(huán)境中間完全模擬出來的,這一點(diǎn)應(yīng)該是生成式AI 的算法在短期內(nèi)很難解決的一個(gè)問題。
此前由AI生成的手的圖片
我們現(xiàn)在主要解決的方案是,二維畫面用control net 的方案,就是你先用自己的構(gòu)圖框死了畫面,這個(gè)構(gòu)圖本身是你自己做的,一個(gè)3D文件,或者是一個(gè)3D做出來的一個(gè)帶有明確的輪廓線的文件,你讓它不斷地給你重新打光、重新做渲染就行了,AI可以完成得很快的。
我在2023年的年初的時(shí)候看過一本書講得很好,就是Mathematica 軟件的作者斯蒂芬·沃爾夫勒姆寫GPT是如何運(yùn)作的,里面講到現(xiàn)在的AI生成式算法,它最擅長(zhǎng)解決的就是那些可約化的部分。人的語言其實(shí)是一種規(guī)律性的東西,人的語言永遠(yuǎn)不可能直接跟現(xiàn)象做對(duì)等關(guān)系,比如說一個(gè)礦泉水瓶子,其實(shí)你也沒有辦法靠語言去100%地描述它,你要想真正描述它,你必須把它一點(diǎn)點(diǎn)地測(cè)量出來,規(guī)定它具體的反射度、光線的折射度、反射度、還有它的透明度,這些東西才能把一個(gè)瓶子完整地說出來,那么這個(gè)部分并不是現(xiàn)在的生成式 AI 所擅長(zhǎng)的。因?yàn)檫@個(gè)部分是不可約化的,它的計(jì)算本身是算法很難解決的,它有點(diǎn)像一些程序性的計(jì)算方法跟蒙特卡洛式的算法的區(qū)別。蒙特卡洛式算法就是你得把這個(gè)東西測(cè)出來,不能用一個(gè)公式去簡(jiǎn)單解決它,它是解決不了的。你在用AI做一張圖的時(shí)候,你可能會(huì)發(fā)現(xiàn)我們用AI去算那種記憶非常的規(guī)律性的東西的時(shí)候是很容易做的,比如說動(dòng)態(tài)的云或者非動(dòng)態(tài)的云,AI算起來是非常容易的它很容易處理這種東西,因?yàn)槿藢?duì)這個(gè)東西的印象是非常的模糊的,人對(duì)于天上的云的印象是一種概念,并沒有一個(gè)我曾經(jīng)有記憶過云的一個(gè)一個(gè)的點(diǎn)是如何排布的,可能有一些氣象學(xué)家會(huì)感覺到AI算的很多云有不合理的地方,但是一般人是絕對(duì)看不出來的。這就是你對(duì)這個(gè)東西的認(rèn)識(shí),你是概念化、很約化的。
但是如果這件事情是人本來就很擅長(zhǎng)的,比如我們經(jīng)常發(fā)現(xiàn)AI生成的手有問題,因?yàn)槭值倪@個(gè)動(dòng)作充滿了邏輯性,它處于什么位置的時(shí)候是不容易約化的,它既有邏輯關(guān)系,又有三維方向上的排布的約束性,它并不是一個(gè)可以不管什么方向都能動(dòng)的東西,既有約束性又有邏輯性,就是沒有辦法絕對(duì)找到它的規(guī)律性,這種東西AI做出來就很困難。
所以當(dāng)我們?cè)嚼斫膺@個(gè)東西的時(shí)候,就越知道目前的這些生成式AI的圖形算法我們能用在什么地方,什么地方使用它就沒有太大的意義。比如說影子,陰影的生成現(xiàn)在來說就用傳統(tǒng)的方法更簡(jiǎn)單的,用AI算法是很困難的,它會(huì)經(jīng)常理解地不精確,只會(huì)看起來像個(gè)陰影,但你仔細(xì)一看就會(huì)發(fā)現(xiàn)這個(gè)陰影不對(duì)。因?yàn)楝F(xiàn)在都屬于平面階段,并沒有一種z方向也就是深度方向的信息,那樣一來會(huì)涉及到大量的算力,現(xiàn)在就是在一個(gè)平面的、可數(shù)的一個(gè)二維方向上去做出它的可約化的可能性。
《硅谷101》:你們現(xiàn)在用的比較多的是比如Gen-2那種已經(jīng)開發(fā)出來的軟件應(yīng)用?還是有可能也會(huì)使用如 Stable Diffusion 這種模型自己去做一些開發(fā)?
陸貝珂:都用。SD 用的更多,Midjourney 也常用。因?yàn)镾table Diffusion能很好地支持control net。只要有合適的模型,或者你自己煉了相關(guān)的合適模型,在很多開發(fā)里面它都明顯會(huì)降低成本,比如我剛才提到以前需要10個(gè)人、現(xiàn)在可能只需要3個(gè)人就可以。SD會(huì)很明顯幫助到前期開發(fā)、概念設(shè)計(jì),比如在畫草圖階段,你讓它生成一些星空或者某種風(fēng)格的建筑,只要你手里的Lora或者是CheckPoint的模型是里面有這個(gè)信息數(shù)據(jù)的,那還原它還是挺容易的。在這個(gè)基礎(chǔ)之上,再用設(shè)計(jì)師的能力去填補(bǔ)它做錯(cuò)了的那些地方就可以,這就比你從頭開始做肯定是要快得多了。
《硅谷101》:所以目前生成式的AI已經(jīng)是在幫影視特效行業(yè)起到降本增效的作用了嗎?如果量化的話,你覺得目前能夠幫你們加快多少的進(jìn)度或者是降低多少的預(yù)算呢?
陸貝珂:概念設(shè)計(jì)方面可能有30%-40%以上,正常的特效工作目前大概在5%左右。目前來說有一個(gè)門檻,就是AI生成的3D模型現(xiàn)在并不可用,就是有這樣的東西,我看Orio也開始有這樣的開發(fā),但是離真正的影視劇應(yīng)用距離還挺遠(yuǎn)的。所以目前AI在前期階段降本增效的效果更強(qiáng),在中間以及最后合成階段現(xiàn)在沒有產(chǎn)生特別大的影響。
《硅谷101》:中后期現(xiàn)在還差在哪,怎么樣才能達(dá)到商業(yè)可用的狀態(tài)呢?
陸貝珂:主要是準(zhǔn)確度,邏輯上不夠準(zhǔn)確。比如合成里面用 AI 進(jìn)行摳圖這個(gè)工作是大大提升了,但你要讓它正確地改動(dòng)某些光線,目前來說還是基本不可用的。還有需要靠你的審美意識(shí)的東西做連貫性的處理的部分目前來說還無法教給它,比如說最簡(jiǎn)單的調(diào)色,在大多數(shù)情況下電影的畫面都需要它的光具有一定主觀意圖,我們叫表現(xiàn)主義燈光,這種調(diào)整取決于你對(duì)這個(gè)故事和人物氛圍的理解,那這個(gè)東西你很難讓AI去解決,這得真的是由人一點(diǎn)點(diǎn)調(diào)才能調(diào)出來,就是它很難進(jìn)行約化的,也沒有絕對(duì)的規(guī)律性。大家在意識(shí)上、在審美上是追求創(chuàng)新的,而不是追求你跟別人講一樣的話。
《硅谷101》:接下來你希望生成式AI還能在什么方面發(fā)展,從而能夠更好地來幫助到特效的行業(yè)呢?
陸貝珂:我感覺現(xiàn)在的世界模型的開發(fā)應(yīng)該接下來會(huì)是一個(gè)很好的方向,因?yàn)槭澜缒P妥畲蟮囊粋€(gè)核心特點(diǎn)其實(shí)就是讓AI真正的認(rèn)識(shí)到那些不可約化的東西,還有以及認(rèn)識(shí)到自身的邊界在哪里。
現(xiàn)在的AI有一種感覺,它缺乏實(shí)際的自我邊界,對(duì)人來說叫自我認(rèn)識(shí)。你想想一個(gè)人,他不知道自己長(zhǎng)處在哪、短處在哪,他不知道自己不知道什么其實(shí)很可怕的AI其實(shí)現(xiàn)在就是這樣,你讓它干什么它都努著干,但其實(shí)當(dāng)它對(duì)世界有個(gè)真實(shí)的認(rèn)識(shí)的時(shí)候,它就會(huì)自己知道什么東西自己并不一定擅長(zhǎng)去處理。你跟一個(gè)正常的人打交道,他會(huì)告訴你我是什么專業(yè),我什么東西比較擅長(zhǎng),對(duì)吧?所以沒有必要說去強(qiáng)求說 AI一定要什么都知道。它目前只是基于算法就一定會(huì)往下編的模式,但如果這個(gè)模式中間加上了這種自我認(rèn)識(shí)感元素的時(shí)候,它就會(huì)在真實(shí)的工作中感覺到邊界在哪里的,因?yàn)槲覀冏鋈魏问虑槎际怯锌蚣苄缘?,真?shí)的世界就是這個(gè)樣子。
真實(shí)世界的框架來自于大量的物理事實(shí)和人際關(guān)系的情緒事實(shí),以及這個(gè)世界運(yùn)轉(zhuǎn)時(shí)候的一種邏輯,如果你只是從語言的角度去理解世界,就無法發(fā)現(xiàn)這個(gè)世界真實(shí)的框架。我覺得在目前GPT 4仍然屬于語言模型,還沒有達(dá)到開放式的世界模型的這種級(jí)別。但這個(gè)其實(shí)也不是我的專業(yè),我就是一個(gè)導(dǎo)演、應(yīng)該來說是一個(gè)藝術(shù)創(chuàng)作類人員。是因?yàn)槲以谡鎸?shí)的工作中經(jīng)歷著這些變化,才會(huì)有一個(gè)切身的感受。在這一部分上就不是從理論到理論了,是一個(gè)實(shí)踐反饋出來的狀態(tài)。
03 特效行業(yè)的進(jìn)化和Vision Pro的影響
《硅谷101》:影視行業(yè)從大約100 年前就開始慢慢地解鎖一些CG特效技術(shù)。貝導(dǎo)能不能幫我們稍微回溯一下影視特效行業(yè)發(fā)展的一些里程碑的影片或者事件?
陸貝珂:世界上從早期梅里愛那個(gè)時(shí)代,包括1927年德國(guó)拍的《大都會(huì)》開始那時(shí)候其實(shí)就已經(jīng)有手工特效,那些科幻環(huán)境、奇幻環(huán)境當(dāng)時(shí)都是畫在玻璃上的,然后再通過攝影機(jī)去拍攝它。后來一個(gè)里程碑式的作品就是《金剛》,出現(xiàn)了逐幀實(shí)體動(dòng)畫。大家很多人印象很深的《星球大戰(zhàn)(一)》實(shí)際上并不是電腦圖形圖像學(xué)真正發(fā)展的里程碑式的電影,它的太空還原這些方面的技術(shù)跟 1968 年的《太空奧德賽》的制作方案是非常非常接近的。但當(dāng)時(shí) Pixel 的一些動(dòng)畫片做了很多跟實(shí)體生物結(jié)合的那種 CG 生物,是很有時(shí)代意義的。在卡梅隆拍的《深淵》里面是后來還第一次用了動(dòng)力學(xué)解算出來的透明物體,《終結(jié)者2》里又把這個(gè)東西發(fā)展為液體金屬人。為什么這是標(biāo)志性的東西呢?它帶來了一種結(jié)果,就是有一種創(chuàng)作思維是必須植根于數(shù)字圖形圖像學(xué)的。
圖片來自《終結(jié)者2》
你拍飛船、光劍、怪物怪獸都有可能用實(shí)體特效來拍到,但如液體金屬人和那個(gè)深淵里的用海水組成的臉是實(shí)體特效完全做不出來的,是不可能完成的,所以它就帶來了一種創(chuàng)作上的一個(gè)分水嶺,它這個(gè)分水嶺就是說計(jì)算機(jī)動(dòng)畫產(chǎn)生了某種獨(dú)立性,在創(chuàng)作需求上開辟出了一個(gè)完全新、其他的特效方案無法完成的道路的道路。比如《三體》中,雷達(dá)、風(fēng)就是完全可以用傳統(tǒng)特效做出來的,但是 3D的整個(gè)船的切割、碎成那么多小條,傳統(tǒng)特效是不可能做出來的。
因?yàn)樗某霈F(xiàn)了開辟了一個(gè)全新的道路,所以才叫里程碑式的作品。接下來還有一個(gè)大的里程碑,就是雖然畫面本身你知道這是假的,但是很難通過單看畫面去判斷是否是由CG 做的。比如我們現(xiàn)在再看《侏羅紀(jì)公園》,能夠很明顯能看到哪些恐龍是CG做的、哪些恐龍是2D模型,但到了 21 世紀(jì)初,有一些電影的特效已經(jīng)越過了真實(shí)度的據(jù)顯現(xiàn),讓觀眾難以分辨,比如《阿凡達(dá)》。在《阿凡達(dá)》之前,比如《指環(huán)王》里的咕嚕你還是能感覺到他是3D做的。但《阿凡達(dá)》里面它有些地方是真實(shí)的人,純CG的樣子你已經(jīng)看不出來了。再有一個(gè)著名的做人臉還原的非常高的《返老還童》,那個(gè)相當(dāng)于是特效化妝的里程碑,觀眾觀影的時(shí)候他是一個(gè)真實(shí)的生活中的人,還不像指環(huán)王或者是阿凡達(dá)是一個(gè)在一個(gè)特殊的奇幻環(huán)境或者科技環(huán)境下自洽的一個(gè)東西。這個(gè)時(shí)候觀眾是非常敏感的,有一點(diǎn)點(diǎn)不像真人都你能辨別,所以難度非常高。
《硅谷101》:雖然現(xiàn)在的技術(shù)越來越成熟,但我們也發(fā)現(xiàn)目前特效制作涉及到了大量的步驟,三體的“古箏行動(dòng)”的那20分鐘的呈現(xiàn)也是拍了很久。目前還是有非常多CG做不到的地方需要去實(shí)拍的,那么你覺得接下來整個(gè)特效行業(yè)會(huì)有一個(gè)什么樣的發(fā)展呢?會(huì)不會(huì)是我們需要實(shí)拍的東西越來越少?十年之后,會(huì)不會(huì)“古箏行動(dòng)”用純CG就可以做出來了?
陸貝珂:完全有可能。走向純數(shù)字化制作的趨勢(shì)這是一定的、沒有什么可爭(zhēng)議的?,F(xiàn)在的整個(gè)媒介,比如說蘋果新出的Vision Pro它已經(jīng)開始在進(jìn)行媒介的轉(zhuǎn)換。所謂轉(zhuǎn)換媒介其實(shí)就是沉浸式的媒介會(huì)越來越普遍,這些媒介出來之后,傳統(tǒng)的二維拍攝式的采集影像的方案應(yīng)該會(huì)漸漸地被純 3D 制作的影像方案替代。因?yàn)樘烊坏某两矫浇?,它更符合純?shù)字化的制作的方法,有些東西是沒法拍的。
比如說Vision Pro要做MR的環(huán)境,你現(xiàn)在眼鏡戴好了,然后做好了空間計(jì)算,現(xiàn)在來一個(gè)人在你的桌子上走來走去,他跟另外一個(gè)人在這唱歌,另外一邊還有一個(gè)人在舞蹈。這個(gè)畫面是怎么用攝影機(jī)拍?是沒有辦法拍的,你要完成這個(gè)應(yīng)用,你肯定只能是CG人物、CG 角色,還有CG環(huán)境,你得依據(jù)空間計(jì)算把環(huán)境給你把這桌子的透視給還原出來,這叫反向追蹤,這些技術(shù)都是CG技術(shù),都沒有辦法在實(shí)拍的這個(gè)方案里面完成。這是原理上的不同,沒有什么其他可以的方案。
《硅谷101》:你覺得到那一天還有多長(zhǎng)時(shí)間?
陸貝珂:這個(gè)挺快的,動(dòng)畫片應(yīng)該現(xiàn)在已經(jīng)就可以做到了,真人還有一段距離。還有就是播放環(huán)境的問題,目前Vision Pro它可能可以完成,但是不代表你拿比較便宜的那種VR眼鏡也能做到。因?yàn)椴煌O(shè)備的算力不一樣,畫面的呈現(xiàn)是實(shí)時(shí)結(jié)算的,需要引擎支持,如果不是實(shí)時(shí)結(jié)算的,不需要你去還原這個(gè)空間計(jì)算的地方,相當(dāng)于你坐在這里只是看一個(gè)已經(jīng)編制好的或者錄制好的一段內(nèi)容而已,應(yīng)該現(xiàn)在就可以達(dá)到了。
【相關(guān)補(bǔ)充信息】
CG:Computer Graphics (計(jì)算機(jī)圖形學(xué))的英文縮寫,CG特效是用計(jì)算機(jī)制造出來的假象。當(dāng)傳統(tǒng)特效手段無法滿足影片要求的時(shí)候,就需要CG特效來實(shí)現(xiàn),CG特效幾乎可以實(shí)現(xiàn)所有人類能想像出來的效果。主要分為三維特效和合成特效兩種。
史蒂芬·沃爾夫勒姆(Stephen Wolfram):計(jì)算機(jī)科學(xué)、數(shù)學(xué)、理論物理方面的著名英國(guó)科學(xué)家。作為程序開發(fā)員,他是 數(shù)學(xué)軟件 Mathematica的發(fā)明者之一;他也以對(duì)計(jì)算型知識(shí)引擎 Wolfram Alpha上的工作而聞名;作為商人,他是 沃爾夫勒姆研究公司的創(chuàng)立者和首席執(zhí)行官。他于2023年3月發(fā)表了《ChatGPT在做什么…以及它為什么好使(What Is ChatGPT Doing ... and Why Does It Work? )》一書。
蒙特卡洛式算法:也稱統(tǒng)計(jì)模擬方法,是1940年代中期由于科學(xué)技術(shù)的發(fā)展和電子計(jì)算機(jī)的發(fā)明,而提出的一種以概率統(tǒng)計(jì)理論為指導(dǎo)的數(shù)值計(jì)算方法。是指使用隨機(jī)數(shù)(或更常見的偽隨機(jī)數(shù))來解決很多計(jì)算問題的方法。。主要工作原理是不斷抽樣、逐漸逼近。
Runway:一家美國(guó)圖片和視頻AI編輯軟件提供商,為設(shè)計(jì)師、藝術(shù)家和開發(fā)人員提供一系列的工具和平臺(tái),幫助他們利用人工智能技術(shù)創(chuàng)建作品。Gen-2是其發(fā)布的一款多模態(tài)人工智能系統(tǒng),可以根據(jù)文字、圖片或視頻剪輯生成視頻。
Stable Diffusion :是一種基于潛在擴(kuò)散模型(Latent Diffusion Models)的文本到圖像、圖像到圖像生成模型,能夠根據(jù)任意文本或圖像輸入,生成高質(zhì)量、高分辨率、高逼真的圖像。