文|MetaPost
在影視制作中,動(dòng)作捕捉是最常用到的一項(xiàng)技術(shù)。無論是《阿凡達(dá)》還是《指環(huán)王》里的咕嚕,都是先利用動(dòng)作捕捉采集演員的肢體表演,再將捕捉到的動(dòng)作渲染處理后,才呈現(xiàn)出震撼的視覺效果。
游戲行業(yè)也是動(dòng)捕技術(shù)的核心應(yīng)用場景。游戲動(dòng)畫中包含很多復(fù)雜的姿勢(shì)動(dòng)作,通過采集真人演員的動(dòng)作數(shù)據(jù),綁定到游戲角色的骨骼上,可以最大程度地還原人體真實(shí)的姿態(tài)、表情、重量和速度,從而讓玩家能夠體驗(yàn)到更加真實(shí)的游戲世界。
隨著“元宇宙”概念的全面普及,動(dòng)作捕捉對(duì)元宇宙的長期價(jià)值也逐漸顯現(xiàn)出來,它和引擎、傳輸、計(jì)算和顯示等技術(shù)處于同一級(jí)別,是元宇宙底層建設(shè)這塊“巨大拼圖”中的重要一塊。
01、動(dòng)捕技術(shù)發(fā)展歷程
類似動(dòng)作捕捉的技術(shù)最早出現(xiàn)在1915年,當(dāng)時(shí)的動(dòng)畫大師 Max Fleischer 制作了一臺(tái)放映機(jī),原理就是把膠片的內(nèi)容顯示到透光臺(tái)上。憑借著這臺(tái)放映機(jī),動(dòng)畫師可以很方便地照著畫面中人物的動(dòng)作造型,來繪制角色動(dòng)作。
1983年,加拿大思蒙弗雷澤大學(xué)的Tom Calvert在物理機(jī)械捕捉服裝上取得的重大突破,這一技術(shù)讓人們見識(shí)到了最早的機(jī)械類捕捉。與此同時(shí),麻省理工也推出了一套基于LED的“木偶圖像化(graphical marionetter)”系統(tǒng),這就是早期光學(xué)動(dòng)捕系統(tǒng)的雛形。
此番生物力學(xué)研究為未來的影片制作鋪平了道路,在接下來的時(shí)間里,當(dāng)動(dòng)作捕捉與計(jì)算機(jī)圖形技術(shù)相遇,動(dòng)作數(shù)據(jù)的易得性使動(dòng)作捕捉技術(shù)快速發(fā)展,并相繼被完整、大規(guī)模地運(yùn)用到游戲與電影行業(yè)。
90年末,電影《指環(huán)王》的拍攝則第一次將動(dòng)捕拍攝步驟帶到了拍攝現(xiàn)場,動(dòng)捕演員先驅(qū)Andy Serkis在場地中可以作為“咕?!边@一角色和其他演員進(jìn)行互動(dòng),這樣的互動(dòng)更加有利于角色的塑造,因?yàn)橹挥挟?dāng)演員在表演過程中獲得了其他演員的情緒和語言反饋,自身情緒才能更酣暢地被釋放,角色才能更加有血有肉、活靈活現(xiàn)。
2009年上映的電影《阿凡達(dá)》可以說是將動(dòng)作捕捉與表情捕捉技術(shù)成功結(jié)合的先驅(qū)者。導(dǎo)演James Cameron與團(tuán)隊(duì)使用了頭戴式面部捕捉相機(jī),并建立了有史以來最大的拍攝與動(dòng)作捕捉影棚。
圖 | 電影《阿凡達(dá)》動(dòng)作捕捉劇照
特效影視制作和游戲從來是不分家的,很快有人把動(dòng)作捕捉的概念帶到了游戲圈。在這個(gè)領(lǐng)域最具有先鋒意識(shí)的是當(dāng)時(shí)在主機(jī)領(lǐng)域與任天堂、索尼三分天下的世嘉。
它1994年推出的街機(jī)游戲《VR戰(zhàn)士》就使用了動(dòng)作捕捉模擬人物行動(dòng)。這種新概念在當(dāng)時(shí)粗糙的街機(jī)和家用機(jī)游戲市場成為一股清流,用逼真流暢的動(dòng)作嚇呆了一眾玩家。隔年,南夢(mèng)宮也推出了《刀魂》,作為自家動(dòng)作捕捉技術(shù)的先鋒軍,也取得了成功。
如今,動(dòng)作捕捉幾乎成為大型游戲工作室標(biāo)配,利用動(dòng)捕技術(shù),真人和動(dòng)畫人物是同步的,游戲角色會(huì)顯得更加真實(shí)、生動(dòng)。這就是為什么我們可以在游戲中看到電影級(jí)水平的動(dòng)作表演。
02、常見的動(dòng)捕技術(shù)
隨著技術(shù)的成熟,現(xiàn)在動(dòng)作捕捉技術(shù)應(yīng)用的領(lǐng)域也越來越廣泛了,從動(dòng)畫制作、人機(jī)交互、到機(jī)器人遙控、體育訓(xùn)練等等,甚至現(xiàn)在的虛擬人直播,也是用的動(dòng)捕技術(shù)。
面對(duì)不同的使用場景,動(dòng)捕技術(shù)也出現(xiàn)了多種技術(shù)路線,常見的有光學(xué)動(dòng)作捕捉技術(shù)、慣性動(dòng)作捕捉技術(shù)以及視覺動(dòng)作捕捉技術(shù)。
光學(xué)動(dòng)作捕捉技術(shù)操作的時(shí)候會(huì)直接在人的身體上進(jìn)行簡單的標(biāo)記,標(biāo)記點(diǎn)會(huì)直接反射到提前設(shè)定好的攝像機(jī)上,然后再通過反射的不同位置的成像信息來預(yù)算標(biāo)記點(diǎn)的空間運(yùn)動(dòng)信息,最終將信息進(jìn)行簡單地定位以及輸出。
圖 | 光學(xué)動(dòng)捕:身上標(biāo)記光點(diǎn)
慣性動(dòng)作捕捉技術(shù)會(huì)直接在人的身上佩戴陀螺儀,人在運(yùn)動(dòng)的時(shí)候,陀螺儀也會(huì)跟著進(jìn)行旋轉(zhuǎn)。此時(shí),直接通過感知陀螺儀的旋轉(zhuǎn)信息將人的運(yùn)動(dòng)推算出,然后實(shí)現(xiàn)動(dòng)作捕捉。
圖 | 慣性動(dòng)捕需穿戴各種設(shè)備
視覺動(dòng)作捕捉技術(shù)在操作的時(shí)候是不需要標(biāo)記和佩戴設(shè)備的,只要在人的活動(dòng)范圍內(nèi)通過普通的攝像頭進(jìn)行動(dòng)作的錄制,將人體關(guān)鍵信息進(jìn)行識(shí)別,然后采用特殊AI算法實(shí)現(xiàn)動(dòng)作捕捉。
圖 | AI引擎驅(qū)動(dòng)的動(dòng)捕技術(shù)
光學(xué)動(dòng)作捕捉技術(shù)和慣性動(dòng)作捕捉技術(shù)有一定的使用門檻,在影視和游戲領(lǐng)域比較常見,雖然呈現(xiàn)的效果非常精準(zhǔn),但存在兩個(gè)問題:第一,成本高。便宜的至少也需要幾萬,貴的則需要幾十萬至幾百萬不等,只有大型影視和游戲工作室才能負(fù)擔(dān)得起這種成本。第二,使用不方便。在制作現(xiàn)場,動(dòng)捕演員身上往往穿戴很多設(shè)備,穿戴設(shè)備與動(dòng)作捕捉需要團(tuán)隊(duì)多人配合。
而更便于在普通消費(fèi)者市場進(jìn)行普及的視覺動(dòng)作捕捉技術(shù),近年來受到蘋果、Meta等大廠的追逐。
03、Meta用一個(gè)頭顯搞定全身動(dòng)捕
早在2019年,Meta就曾公布其虛擬人頭像系統(tǒng),其特點(diǎn)是通過VR設(shè)備進(jìn)行3D動(dòng)捕技術(shù)來還原真人形象,可渲染出高度保真的膚色、紋理、毛發(fā)、微表情等細(xì)節(jié)。Meta希望未來人們?cè)谔摂M環(huán)境中見面就像在現(xiàn)實(shí)中一樣真實(shí)。
圖 | Meta旗下VR設(shè)備Quest可識(shí)別面部表情
據(jù)外媒報(bào)道,根據(jù)本月發(fā)布的一份論文,Meta提出了一種僅通過Quest實(shí)現(xiàn)全身動(dòng)捕的解決方案。也就是說,此前VR頭顯僅僅可以將面部表情進(jìn)行動(dòng)作捕捉,而現(xiàn)在已經(jīng)可以實(shí)現(xiàn)全身動(dòng)作捕捉。
這主要是由人工智能的預(yù)測(cè)能力所驅(qū)動(dòng)的。
對(duì)于上半身追蹤,通過在AI訓(xùn)練過程中獲得的經(jīng)驗(yàn),僅需來自現(xiàn)實(shí)世界的少量輸入就足以將雙手準(zhǔn)確地轉(zhuǎn)換到虛擬世界。例如,Quest的攝像頭可以看到你的手臂,肘部,手掌,所以可以很好地根據(jù)肌肉骨骼結(jié)構(gòu)估計(jì)上半身的完整姿態(tài)。
圖 | Quest頭顯可實(shí)現(xiàn)全身動(dòng)作捕捉
現(xiàn)在對(duì)于下半身,Meta同樣在探索利用這一原理。使用收集的追蹤數(shù)據(jù)訓(xùn)練人工智能,僅使用來自VR頭顯和兩個(gè)控制器的傳感器數(shù)據(jù),就可以逼真地制作全身虛擬人動(dòng)畫。
Meta團(tuán)隊(duì)使用人工生成的傳感器數(shù)據(jù)訓(xùn)練QuestSim (AI引擎)。為此,研究人員根據(jù)172人各8小時(shí)的運(yùn)動(dòng)捕捉剪輯模擬了頭顯和控制器的運(yùn)動(dòng)。這樣,他們就不必從頭開始捕捉頭顯和控制器與身體運(yùn)動(dòng)的數(shù)據(jù)。
動(dòng)作捕捉剪輯包括130分鐘的步行、110分鐘的慢跑、80分鐘的手勢(shì)、對(duì)話、90分鐘的白板討論和70分鐘的保持平衡。
圖 | AI引擎自我學(xué)習(xí)中
訓(xùn)練后,QuestSim可以根據(jù)真實(shí)的頭顯和控制器數(shù)據(jù)識(shí)別出一個(gè)人正在執(zhí)行的動(dòng)作。利用人工智能預(yù)測(cè),QuestSim甚至可以模擬沒有實(shí)時(shí)傳感器數(shù)據(jù)的身體部位運(yùn)動(dòng)。
研究人員還進(jìn)一步發(fā)現(xiàn),即使不用手柄控制器,只需要頭顯的60個(gè)姿勢(shì)(包含位置和方向數(shù)據(jù)),就足以重建各種運(yùn)動(dòng)姿態(tài),還原出來的效果同樣沒有物理偽影(本不存在卻出現(xiàn)在影像中的成像)。
對(duì)于動(dòng)捕技術(shù)的未來,中信證券認(rèn)為,動(dòng)捕技術(shù)有望在生物力學(xué)、工程應(yīng)用、游戲、影視、VR等方向進(jìn)一步發(fā)展和應(yīng)用。在元宇宙發(fā)展的過程中,捕捉用戶動(dòng)作并及時(shí)生成虛擬世界中的相應(yīng)表現(xiàn)是用戶高質(zhì)量體驗(yàn)的重要一環(huán),將來動(dòng)作捕捉將有廣泛的基礎(chǔ)應(yīng)用空間。