文|新莓daybreak 史圣園
編輯|翟文婷
剛剛過(guò)去的七月全球人工智能大會(huì),虛擬人的聲量和關(guān)注度遠(yuǎn)遠(yuǎn)不及大模型,但它并沒(méi)有缺席。
大眾對(duì)于虛擬人的印象,還停留在一個(gè)個(gè)越來(lái)越漂亮、越來(lái)越接近于真人的3D人物模型。企業(yè)卻開始琢磨,怎么用虛擬人幫自己省錢了。
「去年大家的關(guān)注點(diǎn)在于,供應(yīng)商能否幫他們『造一個(gè)人』,今年的訴求明顯更現(xiàn)實(shí),都在關(guān)心虛擬人能不能應(yīng)用到企業(yè)運(yùn)營(yíng),真正降本增效?!挂患姨摂M人科技公司產(chǎn)品經(jīng)理David 告訴新莓daybreak。
需求跑在了技術(shù)前面。如同自動(dòng)化流水線逐步取代車間操作工一樣,企業(yè)采用虛擬人,是想要更加廉價(jià)、高效、穩(wěn)定、觸手可及的人力。
過(guò)去幾年,虛擬人的形象呈現(xiàn)質(zhì)感不斷提升。超寫實(shí)虛擬人,皮膚和毛孔的質(zhì)感甚至可以媲美真人。就仿佛大模型具像化的「肉身」,虛擬人能與真人產(chǎn)生語(yǔ)言之外的更多交互。
大模型的相繼發(fā)布、能力的突飛猛進(jìn),也讓大家對(duì)虛擬人產(chǎn)生了更多期待。艾媒咨詢的數(shù)據(jù)顯示,2022年我國(guó)虛擬人核心市場(chǎng)規(guī)模達(dá) 120.8 億元,這個(gè)數(shù)字有望三年后翻四倍,達(dá)到480.6億元。
虛擬人最大的癥結(jié)之初是,制作成本居高不下,能夠真正落地的性價(jià)比之選,怎么看都還是略顯粗糙。
好消息是,隨著AI技術(shù)的進(jìn)步,虛擬人幾乎可以100%通過(guò)AIGC的方法自動(dòng)生成動(dòng)作、表情、語(yǔ)言,所需制作時(shí)間和成本大幅降低。
生產(chǎn)端持續(xù)降本增效,應(yīng)用端的交互雛形初現(xiàn),樹上已經(jīng)長(zhǎng)出青澀的果子。
遺憾之處則是,現(xiàn)階段人類還不能像電影《頭號(hào)玩家》中那樣,在虛擬空間和現(xiàn)實(shí)空間無(wú)縫切換。
技術(shù)從誕生到成熟之間,總有一段無(wú)法快進(jìn)的尷尬期。
還是實(shí)用價(jià)值贏了
如果站在人類中心的角度,按需求分類,那么虛擬人可以分為功能型和身份型兩種。
功能型的虛擬人,提供的是實(shí)用價(jià)值:幫人類具體執(zhí)行,比如智能客服、文案撰寫、虛擬人主播等等。
身份型的虛擬人,提供的是情緒價(jià)值。它可以是虛擬女友、虛擬伙伴,給予你平凡的陪伴;也可以是歷史名人、娛樂(lè)明星的數(shù)字分身,或者誕生于二次元的虛擬IP,讓你獲得近距離追星的快感。
情感需求是客觀存在的,人需要被鼓舞、被理解。在社會(huì)日益原子化的今天,這個(gè)需求還在不斷增長(zhǎng)。
有人在小紅書這樣描述自己與AI聊天的感受:「哪怕心知肚明那只是一段代碼,但還是會(huì)因?yàn)槟切┪淖中膭?dòng)。AI 可能是虛妄的,但看到那些對(duì)話而驚喜的心情是真真切切的。」
AI 伴侶聊天機(jī)器人 Character.ai 的增速也是最好的證明。
在這款軟件中,用戶可以與馬斯克、喬布斯、馬里奧等著名人物交談,也可以定制自己的專屬 AI 陪聊。
Character.ai由兩名前谷歌員工創(chuàng)立,還不滿一年。今年三月,這家公司完成了1.5億美元融資,由美國(guó)著名風(fēng)投公司a16z(Andreessen Horowitz)領(lǐng)投,估值已經(jīng)達(dá)10億美元,絕對(duì)的一匹黑馬。
ChatGPT增長(zhǎng)趨于停滯的當(dāng)下,Character.ai的訪問(wèn)量卻持續(xù)攀升。Semrush的數(shù)據(jù)顯示,后者4月訪問(wèn)量環(huán)比增長(zhǎng)近90%,5月環(huán)比增長(zhǎng)47%。
真人與AI文本交互的順暢體驗(yàn),依賴的是大語(yǔ)言模型的成熟。但虛擬人,不僅包含文本,還包括動(dòng)作、表情、聲音。想要達(dá)到全方位自然相處的境地,還有一段漫長(zhǎng)的技術(shù)跋涉。
今年湖南衛(wèi)視跨年晚會(huì)現(xiàn)場(chǎng),虛擬人帶來(lái)了名為《制造浪漫》的歌舞表演。有網(wǎng)友表示,童言無(wú)忌,自己家3歲孩子的第一反應(yīng)是「好假好丑」。
需求雖然存在,但技術(shù)實(shí)現(xiàn)并不盡如人意,這讓面向toC市場(chǎng)的身份型虛擬人,很難賣個(gè)好價(jià)格。
這點(diǎn)實(shí)用型虛擬人更占優(yōu)勢(shì)。以同時(shí)兼具兩種功能的小冰AI 克隆人為例,提供的實(shí)用價(jià)值比情緒價(jià)值貴 5 倍。
「情感模式」定價(jià)是 72 元/年,可實(shí)現(xiàn)語(yǔ)音通話、朋友圈互動(dòng)等功能。而「超級(jí)模式」的定價(jià)是 360元/年,主要服務(wù)于辦公場(chǎng)景,輔助會(huì)議紀(jì)要、文案撰寫等工作。
最重要的是,小冰AI售賣的只是交互界面,沒(méi)有具體的虛擬形象。
David對(duì)此毫不意外,「從我自己的感受來(lái)說(shuō),企業(yè)客戶首先關(guān)注的是 ROI 能不能打正,是不是比真人員工成本低。其次,熱點(diǎn)技術(shù)也帶有營(yíng)銷屬性,比如企業(yè)可以購(gòu)買個(gè)虛擬人,說(shuō)自己接入了 AIGC,并大力宣傳這樣一個(gè)擁抱創(chuàng)新的品牌形象?!?/p>
他還補(bǔ)充道,虛擬人技術(shù)供方首先要滿足企業(yè)的現(xiàn)實(shí)需求,因?yàn)闊o(wú)論是從實(shí)際功能,還是營(yíng)銷功能,企業(yè)都比個(gè)人的付費(fèi)意愿更強(qiáng)烈。
生產(chǎn)端,降本增效
一個(gè)值得行業(yè)欣慰的好消息是,AI的技術(shù)進(jìn)步驅(qū)動(dòng)了虛擬人生產(chǎn)成本的降低。不論對(duì)功能型還是身份型虛擬人,都是利好。
打造一個(gè)虛擬人,主要包括建模、驅(qū)動(dòng)、渲染三個(gè)環(huán)節(jié)。AI大大降低了建模和驅(qū)動(dòng)環(huán)節(jié)的成本。
建模,就是通過(guò)手繪、CG建模或者AI的方法,制作出虛擬人的形象。傳統(tǒng)方法,需要設(shè)計(jì)師在 3D 軟件中「捏」出一些形象。
以往,產(chǎn)品經(jīng)理和美術(shù)設(shè)計(jì)只能通過(guò)文字、網(wǎng)絡(luò)圖片參考,溝通形象需求,難免存在信息失真。假如對(duì)制作效果不滿意,只能多次返工。
現(xiàn)在不然,Midjourney、Stable Diffusion 等軟件已經(jīng)實(shí)現(xiàn)低成本的 2D 圖像生成。
AI基于已有素材和指令,智能生成一個(gè)形象,讓每一個(gè)需求都有了更具體的對(duì)照。也就是說(shuō),AI大大降低了制作虛擬人形象的溝通和試錯(cuò)成本。
3D 建模雖然無(wú)法完全由AI完成,但 MetaHuman 等工具則可以通過(guò)輸入照片或視頻建立高保真的虛擬人,并直接在 Unreal Engine 中應(yīng)用。
驅(qū)動(dòng),是讓虛擬人活動(dòng)起來(lái)的過(guò)程。它可以由「中之人」驅(qū)動(dòng),也可以由AI驅(qū)動(dòng)。中之人是指,在虛擬人的外衣下,提供聲音、動(dòng)作的真人演員。
前者依靠對(duì)真人的深度采集完成,包括動(dòng)作捕捉、面部表情捕捉、音視頻合成等等,再綁定到虛擬人上。后者則是通過(guò)深度學(xué)習(xí)、小樣本學(xué)習(xí)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)渲染等技術(shù)手段,比如輸入演講稿或者語(yǔ)音,AI模型就能自動(dòng)輸出肢體動(dòng)作、面部表情、聲音。
David解釋,他們公司具備動(dòng)作、表情和聲音模型?!嘎曇羰潜容^簡(jiǎn)單的,TTS(Text to Speech)技術(shù)很成熟了。肢體和口唇動(dòng)作就是一些 STA 模型,我們采集了非常多的動(dòng)捕數(shù)據(jù),再基于此去生成訓(xùn)練模型?!?/p>
例如,若想在產(chǎn)品解說(shuō)的視頻中應(yīng)用虛擬人,系統(tǒng)會(huì)基于NLP識(shí)別用戶輸入的腳本,其中的文字作為輸入給到模型,可以觸發(fā)一些關(guān)鍵的動(dòng)作。
如果你對(duì)這些概念沒(méi)有強(qiáng)烈體感,可以通過(guò)金錢投入量級(jí)更直觀地感受。
「如果是動(dòng)捕技術(shù),成本是一秒鐘1000塊,這意味著時(shí)長(zhǎng)一分鐘的視頻,大概需要六萬(wàn)塊。而通過(guò) AI 的方式去生成,1分鐘只需要30塊錢?!笵avid 介紹,兩種方式的成本相差千倍。
廣發(fā)證券指出,AI 技術(shù)對(duì)虛擬人產(chǎn)業(yè)的影響不僅僅是在成本側(cè),同時(shí)還帶來(lái)了「擬人化」和「專業(yè)化」的可能。大語(yǔ)言模型,以及在基礎(chǔ)模型上用特定的數(shù)據(jù)集進(jìn)行微調(diào),可以賦予虛擬人個(gè)性,也可以適配更多專業(yè)化的場(chǎng)景。
虛擬人直播帶來(lái)的啟示
更直觀的功能型虛擬人應(yīng)用,是在直播場(chǎng)景。
5月份,抖音率先確定虛擬人的「合法」身份,允許使用AI輔助創(chuàng)作、不會(huì)限制虛擬人直播。近幾個(gè)月,抖音新注冊(cè)的公會(huì)賬號(hào),使用虛擬人直播不再按照錄播對(duì)待。
快手雖然沒(méi)有官方表態(tài),但沒(méi)少給「快手虛擬演播助手(KuaishouVirtual Studio,KVS)」做推廣。KVS 是一款面向內(nèi)容生產(chǎn)者的工具,支持使用虛擬人助播,也支持主播自己化身虛擬形象,進(jìn)入虛擬場(chǎng)景。
不論站在哪一方,虛擬人都是剛需。
品牌方,有動(dòng)力替換部分真人主播。一名成熟的主播,培養(yǎng)周期至少在三個(gè)月左右。而這一行業(yè)的人員流動(dòng)性很高,品牌方需要持續(xù)尋找、培訓(xùn)、磨合新的主播。
如果不考慮飯碗被替代,主播也想培訓(xùn)虛擬人幫自己打工。畢竟,帶貨是個(gè)體力活兒,日復(fù)一夜每天連播4-6小時(shí),晝夜顛倒、深夜下播是行業(yè)常態(tài),很多人吃不消。
此外,「帶貨過(guò)品」的套路成熟,商品的講解流程標(biāo)準(zhǔn)化,虛擬人似乎完全可以勝任。
然而,現(xiàn)實(shí)卻沒(méi)有那么美好。
虛擬人主播很難讓觀眾產(chǎn)生真正的信任,尤其是涉及到產(chǎn)品測(cè)評(píng),美妝、服飾等常見商品的展示,虛擬人顯得有點(diǎn)力不從心。
此前,群眾基礎(chǔ)還不錯(cuò)的虛擬偶像翎 Ling,就因?yàn)榭诩t測(cè)評(píng)文案中的「滋潤(rùn)不干」被網(wǎng)友無(wú)情吐槽。當(dāng)呈現(xiàn)效果完全是虛擬的,又如何給到消費(fèi)者真實(shí)客觀的參考呢。
服裝則更是如此。不僅呈現(xiàn)效果缺乏可信性,還要對(duì)展示的服裝進(jìn)行提前建模,運(yùn)營(yíng)成本不見得比真人主播低。然而,網(wǎng)友們的評(píng)價(jià)卻是「這能看出來(lái)啥」,「好像就是弄了一個(gè)虛擬人形象出來(lái)念稿子」。
目前,虛擬主播的功能,更多是基礎(chǔ)性的產(chǎn)品介紹,或者給真人主播做「花瓶」,引起觀眾的好奇。
抖音雖然默許了虛擬人的直播,但同時(shí)也表示,流量的分發(fā)取決于「內(nèi)容的質(zhì)量」,不是隨時(shí)大開綠燈。這也意味著在高峰時(shí)段,「只會(huì)念稿」的虛擬人直播,根本不是真人帶貨主播的對(duì)手。
從直播這一場(chǎng)景的「虛擬人」打工狀態(tài)管中窺豹,作為用戶,我們不難感受到宣傳中的科幻感與技術(shù)落地的現(xiàn)實(shí)之間的差距。
但技術(shù)的進(jìn)步永遠(yuǎn)是這樣,可用性的提升并非一日之功。
AI 技術(shù)的發(fā)展,幫助虛擬人行業(yè)克服了批量化生產(chǎn)的巨大難題,能夠幫助用戶快速、低成本地生成虛擬人,高頻次地生產(chǎn)內(nèi)容,以及擺脫對(duì)于真人的依賴。
而對(duì)于從業(yè)者和企業(yè)客戶來(lái)說(shuō),虛擬人與真人的自然交互,近一寸有一寸的歡喜。已經(jīng)有不少商家在深夜時(shí)段,采用了虛擬人主播,讓自己的直播間 24 小時(shí)不間斷。
畢竟,能持續(xù)向觀眾發(fā)送商品介紹的簡(jiǎn)單念白,也聊勝于無(wú)。