文|科技新知
ChatGPT的橫空出世,算是接管了元宇宙的“瘋狂游戲”。由后者衍生出的數(shù)字人產(chǎn)業(yè),雖然商業(yè)路徑屢受質(zhì)疑,但如今借著AI東風(fēng),再次被炒得火熱。
除了百度、阿里等大廠加碼布局外,不少上市企業(yè)更是聞風(fēng)而動(dòng),迅速?zèng)_到了新市場(chǎng)的牌桌面前。天娛數(shù)科、萬(wàn)達(dá)信息、藍(lán)色光標(biāo)、奧飛娛樂等,均提到正在研發(fā)相關(guān)技術(shù),并且試圖將數(shù)字人接入ChatGPT。
落地到應(yīng)用上,包括蒙牛、鐘薛高等消費(fèi)品牌,紛紛推出數(shù)字代言人;眾多車企、銀行推出數(shù)字員工;薇婭背后的謙尋也在近期被曝出聯(lián)合虛擬偶像“星瞳”,開啟直播帶貨的嘗試。
更為直觀的感受是,打開短視頻平臺(tái)的直播間,AI數(shù)字人主播已經(jīng)取代了不少真人主播,進(jìn)行24小時(shí)無(wú)間斷帶貨,甚至像咨詢顧問劉潤(rùn)等在更新視頻內(nèi)容時(shí),也都由數(shù)字人代替。
并且與此前不同,新一批的數(shù)字人,從外觀上看幾乎和真人一模一樣,口型也和所要說(shuō)的內(nèi)容保持一致,只是在互動(dòng)上還常常答非所問,無(wú)法實(shí)現(xiàn)情緒共鳴。
順應(yīng)趨勢(shì),以抖音為代表的各大內(nèi)容平臺(tái),開始規(guī)范人工智能生成內(nèi)容,發(fā)布行業(yè)規(guī)范,給出公開態(tài)度,這也意味著接下來(lái)的市場(chǎng)爆發(fā)或在眼前。
那么,為什么已經(jīng)“涼”過(guò)一次的數(shù)字人突然又爆火?進(jìn)入GPT時(shí)代數(shù)字人會(huì)普及嗎?未來(lái)數(shù)字人發(fā)展還存在哪些難點(diǎn)?有替代真人的可能性嗎?
舊瓶裝了新酒
大多數(shù)人會(huì)以為,數(shù)字人是伴隨元宇宙的概念誕生的,但其雛形問世的時(shí)間還要更早。
2007年,日本公司Crypton Future Media就借助“初音未來(lái)”這一IP角色在年輕人心中打上“虛擬偶像”的烙印。盡管“元宇宙”一詞可以追溯到1992年發(fā)布的科幻小說(shuō)《雪崩》,但直到2021年Facebook更名為“Meta”后,“數(shù)字人”的說(shuō)法才開始真正走入大眾視野。
中國(guó)數(shù)字經(jīng)濟(jì)百人會(huì)發(fā)布的《數(shù)字人:數(shù)字經(jīng)濟(jì)新賽道》報(bào)告稱,整個(gè)2021年數(shù)字人相關(guān)企業(yè)融資共有2843起,融資金額達(dá)2540億元。
在元宇宙概念的加持下,大眾對(duì)數(shù)字人的熱情不亞于當(dāng)初的初音未來(lái)。虛擬博主一夜暴漲百萬(wàn)粉絲的案例比比皆是;更有數(shù)字人偶像參加綜藝選秀,甚至B站還專門開設(shè)了虛擬人直播區(qū)。
但風(fēng)吹過(guò)后,有時(shí)也很難開出新花。
開發(fā)元宇宙業(yè)務(wù)本就是一項(xiàng)資本密集型的項(xiàng)目,而產(chǎn)業(yè)基礎(chǔ)設(shè)施目前尚不成熟,這也導(dǎo)致諸多投資者損失重大。
僅一年多時(shí)間,以Meta為代表的互聯(lián)網(wǎng)大廠開始因?yàn)樵钪嫒氩环蟪?,在扎克伯格一句“我錯(cuò)了,我對(duì)此負(fù)責(zé)”后,數(shù)字人市場(chǎng)也隨之遇冷,逐漸淡出市場(chǎng)視線。
直到2022年底ChatGPT橫空出世,接棒元宇宙成為全球科技領(lǐng)域的超級(jí)大風(fēng)口。數(shù)字人作為信息技術(shù)交叉融合的前沿呈現(xiàn),再次被推到了聚光燈下。業(yè)內(nèi)人士普遍認(rèn)為,將能夠產(chǎn)生長(zhǎng)時(shí)間、多輪次、有邏輯文字互動(dòng)的ChatGPT與數(shù)字人相結(jié)合,那么一個(gè)無(wú)限向人類思維靠近的虛擬人即將誕生。
一些熱衷追逐前沿的個(gè)人或團(tuán)隊(duì),率先進(jìn)行了嘗試。
“這是我的首個(gè)數(shù)智人分身?!痹谡故玖艘黄谟伞氨救恕背鲧R的短視頻節(jié)目后,數(shù)字經(jīng)濟(jì)學(xué)者劉興亮告訴觀眾,視頻中與他形象、音色幾乎一模一樣,甚至同樣夾雜著山西口音的主播并非他本人,而是以他為原型制作的數(shù)字人。
國(guó)內(nèi)著名商業(yè)咨詢顧問劉潤(rùn)更是將其視頻中幾乎所有真人出鏡部分內(nèi)容,換成了“分身”。
國(guó)外擁有180萬(wàn)粉絲的Snapchat網(wǎng)紅Caryn Marjorie,更是開發(fā)了AI版本的自己,結(jié)合GPT-4,靠利用不同版本的Caryn AI,和粉絲談戀愛,按分鐘收費(fèi)。
除了視頻博主,線上講師、帶貨主播、導(dǎo)游、導(dǎo)覽等職業(yè),也成了數(shù)字人批量“上崗”的熱門領(lǐng)域,相關(guān)企業(yè)紛紛落地產(chǎn)品。
幾天前,萬(wàn)達(dá)集團(tuán)首批數(shù)字人亮相,這些數(shù)字分身采用真人主播形象,并且做到了一人化身多種角色;另外薇婭背后的謙尋也是開始加班加點(diǎn)培訓(xùn)虛擬帶貨主播;甚至各種定制數(shù)字人的廣告都已隨處可見。
當(dāng)然,最讓行業(yè)興奮的還是,各大平臺(tái)對(duì)數(shù)字人的態(tài)度開始轉(zhuǎn)變。
因?yàn)椴坏玫狡脚_(tái)的肯定和支持,博主、商家心里總會(huì)忐忑,擔(dān)心賬號(hào)有被封禁等風(fēng)險(xiǎn),繼而讓服務(wù)商也無(wú)法順利推進(jìn)和解決行業(yè)的需求。不過(guò)隨著抖音率先公開表態(tài),發(fā)布平臺(tái)規(guī)范,預(yù)計(jì)接下來(lái),會(huì)有更多互聯(lián)網(wǎng)平臺(tái)跟進(jìn)。
與元宇宙時(shí)期相比,現(xiàn)在的數(shù)字人明顯更加大眾化。一位業(yè)內(nèi)人士直言,“去年數(shù)字人還只是大企業(yè)或網(wǎng)紅專屬,現(xiàn)在基本上到了每個(gè)人都能有自己數(shù)字化分身的階段”。而在「科技新知」看來(lái),其中原因與大模型爆發(fā)、成本下降以及應(yīng)用場(chǎng)景開拓相關(guān)。
供給側(cè)突破
從技術(shù)實(shí)現(xiàn)路徑來(lái)看,目前國(guó)內(nèi)的數(shù)字人廠商主要以NLP技術(shù)、多模態(tài)融合交互、大模型、XR技術(shù)為底。
而隨著AI技術(shù)的提升和數(shù)據(jù)資源的豐富,以及更加先進(jìn)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型的引入,數(shù)字人的智能水平得到了大幅提升。其中多模態(tài)AI技術(shù)使得數(shù)字人的交互能力更上一個(gè)臺(tái)階,感知能力、思維決策、內(nèi)容輸出能力都得到顯著改善,在思想、語(yǔ)言、行為上和真人更加接近、更加智能化。
此外,ChatGPT的出現(xiàn)也為業(yè)內(nèi)提供了發(fā)展捷徑。無(wú)論在哪種場(chǎng)景下,交互才是數(shù)字人的核心。如果說(shuō)精美的CGI僅僅為這些數(shù)字人提供了一層漂亮的皮囊,那么它還需要一個(gè)真正“有趣的靈魂”和“聰明的大腦”。這就是大規(guī)模語(yǔ)言模型的用武之地。
數(shù)字人與生成式AI的結(jié)合,是整個(gè)產(chǎn)業(yè)發(fā)展的關(guān)鍵節(jié)點(diǎn),二者正在產(chǎn)生相互作用。中國(guó)傳媒大學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室中心首席科學(xué)家沈浩認(rèn)為,生成式AI的引入將為虛擬數(shù)字人賦予“最強(qiáng)大腦”。業(yè)內(nèi)專家也紛紛表示,虛擬數(shù)字人有望成為ChatGPT應(yīng)用的最佳化身和接口。
數(shù)字人和ChatGPT本質(zhì)上皆是智能度相對(duì)較高的人機(jī)交互。虛擬數(shù)字人可以向ChatGPT發(fā)出請(qǐng)求,獲取ChatGPT的回答,并將內(nèi)容呈現(xiàn)給用戶,對(duì)于企業(yè)來(lái)說(shuō)甚至不需要單獨(dú)訓(xùn)練,便可在短時(shí)間內(nèi)批量生產(chǎn)數(shù)字人。目前已有企業(yè)在進(jìn)行這方面的嘗試,例如虛擬技術(shù)服務(wù)商世優(yōu)科技。
AI技術(shù)除了給數(shù)字人帶來(lái)有趣的靈魂外,同時(shí)也覆蓋了數(shù)字人生產(chǎn)運(yùn)營(yíng)全流程,為行業(yè)帶來(lái)了更低的成本和更高效率,成為產(chǎn)品快速普及的基礎(chǔ)。
事實(shí)上,高昂的制作和運(yùn)營(yíng)成本一度讓不少中小企業(yè)望而卻步。以此前火爆的“美妝達(dá)人柳夜熙”為例,公開信息顯示,其3到4分鐘的視頻制作周期為一個(gè)多月,成本高達(dá)幾十萬(wàn)元。曾經(jīng)復(fù)雜的訓(xùn)練樣本數(shù)據(jù)采集,也導(dǎo)致數(shù)字人定制過(guò)程長(zhǎng),一定程度上限制了其快速應(yīng)用落地。
如今,隨著技術(shù)進(jìn)步,數(shù)字人的制作時(shí)長(zhǎng)和成本都在持續(xù)降低,甚至不少企業(yè)都開始了工廠式批量生產(chǎn)。
最開始,業(yè)內(nèi)做一個(gè)數(shù)字人需要幾個(gè)月,去年是以幾周為單位,今年做一些2D小樣本數(shù)字人已經(jīng)可以達(dá)到小時(shí)級(jí),并且成本降至千元級(jí)別?,F(xiàn)在只需要錄制幾分鐘的真人口播視頻、幾句語(yǔ)音素材形成一個(gè)“小樣本”,再通過(guò)基于自監(jiān)督機(jī)制的通用多模態(tài)模型經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,就能獲得與真人形象、語(yǔ)音近似的數(shù)字人。
在直播行業(yè),數(shù)字人的成本優(yōu)勢(shì)更為明顯。一名采用數(shù)字人直播的企業(yè)負(fù)責(zé)人提到:“一個(gè)AI主播定制費(fèi)用是8000元,一年系統(tǒng)使用費(fèi)8萬(wàn)多元,而一個(gè)真人主播平均月薪兩萬(wàn)元,一年也要24萬(wàn)元,可以省下來(lái)10多萬(wàn)元。二十個(gè)主播,一年就可以節(jié)省 200 萬(wàn)元?!边@還不算“閑時(shí)流量”所帶來(lái)的效益。
更智能的表現(xiàn)以及更低的成本,也挖掘出更廣泛的應(yīng)用場(chǎng)景。之前數(shù)字人主流應(yīng)用可能僅局限在代言、虛擬偶像等輕度互動(dòng)場(chǎng)景,現(xiàn)在除直播帶貨外,就連一些博主的日更都采用數(shù)字人,另外一些投資顧問、銷售甚至醫(yī)院醫(yī)師等都逐漸出現(xiàn)數(shù)字人的身影。
不過(guò)仍要注意,雖然快速低成本生成的數(shù)字人在服務(wù)性需求契合度上有較大成長(zhǎng),訓(xùn)練完成基本可以接入應(yīng)用場(chǎng)景;但客觀來(lái)說(shuō),更精細(xì)的打磨和團(tuán)隊(duì)可控性等等,還都有待完善。
待填的空白
自人工智能問世,“AI威脅論”的探討就從未停歇。ChatGPT火爆之際,也有人立刻列出了“最可能被ChatGPT取代的職業(yè)”清單,數(shù)字人帶貨的爆火也讓“取代李佳琦”成了直播行業(yè)關(guān)注的熱點(diǎn)。
不過(guò)現(xiàn)在鼓吹A(chǔ)I數(shù)字人將全面取代主播、大V等業(yè)態(tài),還屬言之過(guò)早。
首先需要明白的一點(diǎn),現(xiàn)階段的數(shù)字人主播,還算不上“真正的AI”。
「科技新知」在瀏覽多個(gè)數(shù)字人直播間后發(fā)現(xiàn),幾乎所有“主播”只能根據(jù)前期輸入的文本進(jìn)行復(fù)述,動(dòng)作也是循環(huán)播放的,交互能力和隨機(jī)應(yīng)變能力幾乎為零。
另外,并非所有用戶都對(duì)數(shù)字人抱有好感?!耙坏┌l(fā)現(xiàn)不是真人在直播,我會(huì)立刻滑走?!币晃粺嶂杂谠谥辈ラg購(gòu)物的消費(fèi)者為此做出了解釋,自己通常是被主播極具特色的個(gè)人風(fēng)格所吸引,而數(shù)字人主播即便再逼真,也很難復(fù)刻這種“人情味”?!耙粋€(gè)很簡(jiǎn)單的細(xì)節(jié),你打在公屏上互動(dòng)的語(yǔ)句,主播都看不懂、無(wú)法完成互動(dòng),甚至無(wú)法展示產(chǎn)品,那直播帶貨的意義何在?”
人機(jī)語(yǔ)音交互服務(wù)商一知智能CTO李一夫認(rèn)為,目前生成式AI通過(guò)大模型形成答案的速度還比較慢,而交互場(chǎng)景對(duì)于實(shí)時(shí)性的速度要求又非常高,所以當(dāng)前生成式AI還不能直接運(yùn)用到數(shù)字人的交互上,這個(gè)也是未來(lái)需要大模型去解決的問題之一。
從平臺(tái)角度來(lái)看,雖然已經(jīng)有平臺(tái)明確為數(shù)字人發(fā)放通行證,但平臺(tái)強(qiáng)調(diào)的重點(diǎn)在于內(nèi)容是否優(yōu)質(zhì),然而在抖音、快手、視頻號(hào)上,這些AI直播在某種程度上算是經(jīng)過(guò)了包裝的錄播和無(wú)人直播,既稱不上優(yōu)質(zhì),也得不到流量扶持。
所以,未來(lái)數(shù)字人運(yùn)營(yíng)人員還是需要花費(fèi)精力研究如何獲取流量,如何制定更好的內(nèi)容,并把這些輸入小模型,以生成更好地運(yùn)行腳本。
其次,數(shù)字人技術(shù)在應(yīng)用時(shí)也需要十分謹(jǐn)慎。
2018年圖靈獎(jiǎng)得主Geoffrey Hinton曾表示,非常擔(dān)憂AI所帶來(lái)的虛假信息傳播。這并非空穴來(lái)風(fēng),國(guó)內(nèi)外飽受AI變臉困擾的明星不在少數(shù)。網(wǎng)絡(luò)上曝出的以人臉、聲音合成技術(shù)為手段進(jìn)行詐騙的活動(dòng)也屢見不鮮。甚至,如果數(shù)字人技術(shù)用在了直播現(xiàn)場(chǎng),一旦出現(xiàn)黑客侵入等問題,可能會(huì)產(chǎn)生極大負(fù)面影響。
因此,在進(jìn)一步規(guī)?;瘧?yīng)用之前,數(shù)字人技術(shù)的安全性保障、數(shù)字人運(yùn)營(yíng)團(tuán)隊(duì)權(quán)限的可控性、相關(guān)部門的立法監(jiān)管等方面都有待完善。
經(jīng)過(guò)元宇宙、GPT的雙重洗禮,數(shù)字人雖已不是新生事物,但行業(yè)對(duì)其認(rèn)識(shí)還存在不少空白。整體來(lái)看,數(shù)字人的進(jìn)化路徑由擬人化走向同人化,最終將走向超人化,實(shí)現(xiàn)歸真超實(shí)。當(dāng)然這個(gè)過(guò)程中,如何給用戶前所未有的情感體驗(yàn),讓用戶接納,如何建設(shè)好周邊生態(tài),教育好用戶,如何建立行業(yè)規(guī)范標(biāo)準(zhǔn),健全監(jiān)管制度,都將成為這個(gè)新生產(chǎn)業(yè)發(fā)展的關(guān)鍵所在。