文|MetaPost
在影視制作中,動作捕捉是最常用到的一項技術(shù)。無論是《阿凡達(dá)》還是《指環(huán)王》里的咕嚕,都是先利用動作捕捉采集演員的肢體表演,再將捕捉到的動作渲染處理后,才呈現(xiàn)出震撼的視覺效果。
游戲行業(yè)也是動捕技術(shù)的核心應(yīng)用場景。游戲動畫中包含很多復(fù)雜的姿勢動作,通過采集真人演員的動作數(shù)據(jù),綁定到游戲角色的骨骼上,可以最大程度地還原人體真實的姿態(tài)、表情、重量和速度,從而讓玩家能夠體驗到更加真實的游戲世界。
隨著“元宇宙”概念的全面普及,動作捕捉對元宇宙的長期價值也逐漸顯現(xiàn)出來,它和引擎、傳輸、計算和顯示等技術(shù)處于同一級別,是元宇宙底層建設(shè)這塊“巨大拼圖”中的重要一塊。
01、動捕技術(shù)發(fā)展歷程
類似動作捕捉的技術(shù)最早出現(xiàn)在1915年,當(dāng)時的動畫大師 Max Fleischer 制作了一臺放映機(jī),原理就是把膠片的內(nèi)容顯示到透光臺上。憑借著這臺放映機(jī),動畫師可以很方便地照著畫面中人物的動作造型,來繪制角色動作。
1983年,加拿大思蒙弗雷澤大學(xué)的Tom Calvert在物理機(jī)械捕捉服裝上取得的重大突破,這一技術(shù)讓人們見識到了最早的機(jī)械類捕捉。與此同時,麻省理工也推出了一套基于LED的“木偶圖像化(graphical marionetter)”系統(tǒng),這就是早期光學(xué)動捕系統(tǒng)的雛形。
此番生物力學(xué)研究為未來的影片制作鋪平了道路,在接下來的時間里,當(dāng)動作捕捉與計算機(jī)圖形技術(shù)相遇,動作數(shù)據(jù)的易得性使動作捕捉技術(shù)快速發(fā)展,并相繼被完整、大規(guī)模地運用到游戲與電影行業(yè)。
90年末,電影《指環(huán)王》的拍攝則第一次將動捕拍攝步驟帶到了拍攝現(xiàn)場,動捕演員先驅(qū)Andy Serkis在場地中可以作為“咕?!边@一角色和其他演員進(jìn)行互動,這樣的互動更加有利于角色的塑造,因為只有當(dāng)演員在表演過程中獲得了其他演員的情緒和語言反饋,自身情緒才能更酣暢地被釋放,角色才能更加有血有肉、活靈活現(xiàn)。
2009年上映的電影《阿凡達(dá)》可以說是將動作捕捉與表情捕捉技術(shù)成功結(jié)合的先驅(qū)者。導(dǎo)演James Cameron與團(tuán)隊使用了頭戴式面部捕捉相機(jī),并建立了有史以來最大的拍攝與動作捕捉影棚。
圖 | 電影《阿凡達(dá)》動作捕捉劇照
特效影視制作和游戲從來是不分家的,很快有人把動作捕捉的概念帶到了游戲圈。在這個領(lǐng)域最具有先鋒意識的是當(dāng)時在主機(jī)領(lǐng)域與任天堂、索尼三分天下的世嘉。
它1994年推出的街機(jī)游戲《VR戰(zhàn)士》就使用了動作捕捉模擬人物行動。這種新概念在當(dāng)時粗糙的街機(jī)和家用機(jī)游戲市場成為一股清流,用逼真流暢的動作嚇呆了一眾玩家。隔年,南夢宮也推出了《刀魂》,作為自家動作捕捉技術(shù)的先鋒軍,也取得了成功。
如今,動作捕捉幾乎成為大型游戲工作室標(biāo)配,利用動捕技術(shù),真人和動畫人物是同步的,游戲角色會顯得更加真實、生動。這就是為什么我們可以在游戲中看到電影級水平的動作表演。
02、常見的動捕技術(shù)
隨著技術(shù)的成熟,現(xiàn)在動作捕捉技術(shù)應(yīng)用的領(lǐng)域也越來越廣泛了,從動畫制作、人機(jī)交互、到機(jī)器人遙控、體育訓(xùn)練等等,甚至現(xiàn)在的虛擬人直播,也是用的動捕技術(shù)。
面對不同的使用場景,動捕技術(shù)也出現(xiàn)了多種技術(shù)路線,常見的有光學(xué)動作捕捉技術(shù)、慣性動作捕捉技術(shù)以及視覺動作捕捉技術(shù)。
光學(xué)動作捕捉技術(shù)操作的時候會直接在人的身體上進(jìn)行簡單的標(biāo)記,標(biāo)記點會直接反射到提前設(shè)定好的攝像機(jī)上,然后再通過反射的不同位置的成像信息來預(yù)算標(biāo)記點的空間運動信息,最終將信息進(jìn)行簡單地定位以及輸出。
圖 | 光學(xué)動捕:身上標(biāo)記光點
慣性動作捕捉技術(shù)會直接在人的身上佩戴陀螺儀,人在運動的時候,陀螺儀也會跟著進(jìn)行旋轉(zhuǎn)。此時,直接通過感知陀螺儀的旋轉(zhuǎn)信息將人的運動推算出,然后實現(xiàn)動作捕捉。
圖 | 慣性動捕需穿戴各種設(shè)備
視覺動作捕捉技術(shù)在操作的時候是不需要標(biāo)記和佩戴設(shè)備的,只要在人的活動范圍內(nèi)通過普通的攝像頭進(jìn)行動作的錄制,將人體關(guān)鍵信息進(jìn)行識別,然后采用特殊AI算法實現(xiàn)動作捕捉。
圖 | AI引擎驅(qū)動的動捕技術(shù)
光學(xué)動作捕捉技術(shù)和慣性動作捕捉技術(shù)有一定的使用門檻,在影視和游戲領(lǐng)域比較常見,雖然呈現(xiàn)的效果非常精準(zhǔn),但存在兩個問題:第一,成本高。便宜的至少也需要幾萬,貴的則需要幾十萬至幾百萬不等,只有大型影視和游戲工作室才能負(fù)擔(dān)得起這種成本。第二,使用不方便。在制作現(xiàn)場,動捕演員身上往往穿戴很多設(shè)備,穿戴設(shè)備與動作捕捉需要團(tuán)隊多人配合。
而更便于在普通消費者市場進(jìn)行普及的視覺動作捕捉技術(shù),近年來受到蘋果、Meta等大廠的追逐。
03、Meta用一個頭顯搞定全身動捕
早在2019年,Meta就曾公布其虛擬人頭像系統(tǒng),其特點是通過VR設(shè)備進(jìn)行3D動捕技術(shù)來還原真人形象,可渲染出高度保真的膚色、紋理、毛發(fā)、微表情等細(xì)節(jié)。Meta希望未來人們在虛擬環(huán)境中見面就像在現(xiàn)實中一樣真實。
圖 | Meta旗下VR設(shè)備Quest可識別面部表情
據(jù)外媒報道,根據(jù)本月發(fā)布的一份論文,Meta提出了一種僅通過Quest實現(xiàn)全身動捕的解決方案。也就是說,此前VR頭顯僅僅可以將面部表情進(jìn)行動作捕捉,而現(xiàn)在已經(jīng)可以實現(xiàn)全身動作捕捉。
這主要是由人工智能的預(yù)測能力所驅(qū)動的。
對于上半身追蹤,通過在AI訓(xùn)練過程中獲得的經(jīng)驗,僅需來自現(xiàn)實世界的少量輸入就足以將雙手準(zhǔn)確地轉(zhuǎn)換到虛擬世界。例如,Quest的攝像頭可以看到你的手臂,肘部,手掌,所以可以很好地根據(jù)肌肉骨骼結(jié)構(gòu)估計上半身的完整姿態(tài)。
圖 | Quest頭顯可實現(xiàn)全身動作捕捉
現(xiàn)在對于下半身,Meta同樣在探索利用這一原理。使用收集的追蹤數(shù)據(jù)訓(xùn)練人工智能,僅使用來自VR頭顯和兩個控制器的傳感器數(shù)據(jù),就可以逼真地制作全身虛擬人動畫。
Meta團(tuán)隊使用人工生成的傳感器數(shù)據(jù)訓(xùn)練QuestSim (AI引擎)。為此,研究人員根據(jù)172人各8小時的運動捕捉剪輯模擬了頭顯和控制器的運動。這樣,他們就不必從頭開始捕捉頭顯和控制器與身體運動的數(shù)據(jù)。
動作捕捉剪輯包括130分鐘的步行、110分鐘的慢跑、80分鐘的手勢、對話、90分鐘的白板討論和70分鐘的保持平衡。
圖 | AI引擎自我學(xué)習(xí)中
訓(xùn)練后,QuestSim可以根據(jù)真實的頭顯和控制器數(shù)據(jù)識別出一個人正在執(zhí)行的動作。利用人工智能預(yù)測,QuestSim甚至可以模擬沒有實時傳感器數(shù)據(jù)的身體部位運動。
研究人員還進(jìn)一步發(fā)現(xiàn),即使不用手柄控制器,只需要頭顯的60個姿勢(包含位置和方向數(shù)據(jù)),就足以重建各種運動姿態(tài),還原出來的效果同樣沒有物理偽影(本不存在卻出現(xiàn)在影像中的成像)。
對于動捕技術(shù)的未來,中信證券認(rèn)為,動捕技術(shù)有望在生物力學(xué)、工程應(yīng)用、游戲、影視、VR等方向進(jìn)一步發(fā)展和應(yīng)用。在元宇宙發(fā)展的過程中,捕捉用戶動作并及時生成虛擬世界中的相應(yīng)表現(xiàn)是用戶高質(zhì)量體驗的重要一環(huán),將來動作捕捉將有廣泛的基礎(chǔ)應(yīng)用空間。