文 | 吳懟懟 斯維奇
編輯 | 吳懟懟
在常見的招聘軟件上搜索帶貨主播職位,會發(fā)現(xiàn)一部分薪資已經(jīng)悄無聲息地落回了四位數(shù)。
直播間依舊火熱,動輒百億銷售額、上億人次觀看量的情勢并沒有發(fā)生變化,但主播的薪資卻回落了。一個24小時不休息,面容姣好,口條順,業(yè)務(wù)精,工資還遠低于真人主播的勞動力逐漸成為一些小商家的心頭好。
水溫的變化,在22年8月就已經(jīng)開始。
這期間,樂華娛樂的CEO杜華制作了自己的數(shù)字人分身“華華子”在抖音直播帶貨,演員任泉也發(fā)布了自己的數(shù)字人視頻與抖音的觀眾分享,淘寶、抖音、視頻號也崛起了一批質(zhì)量參差不齊的帶貨主播與個人IP賬號。
數(shù)字人的技術(shù)逐漸成熟并普及,首先在電商領(lǐng)域造成沖擊,二流帶貨主播,一夜失業(yè)。
當AIGC風(fēng)潮進一步助推直播市場熱潮,互聯(lián)網(wǎng)巨頭也相繼推出數(shù)字人服務(wù),中小商家選擇數(shù)字人主播以降低成本,似乎風(fēng)景一變。但在魚龍混雜的時代里,一切現(xiàn)象都仍需觀察。
01 “每一家直播帶貨都需要一個數(shù)字人”
不僅是各大短視頻平臺和電商平臺,在微信視頻號,在政務(wù)大廳,都有數(shù)字人的存在。
直播前期投入大,風(fēng)險高,一些有帶貨需求的小商家就會轉(zhuǎn)向虛擬數(shù)字人。
對于小商家而言,考慮虛擬數(shù)字人的原因首先是優(yōu)秀的主播數(shù)量少,穩(wěn)定性欠缺。
在直播火熱的時候,一個形象氣質(zhì)俱佳、專業(yè)能力過硬的主播常常被挖來挖去,既拉高了行業(yè)的薪資預(yù)期,也讓直播的穩(wěn)定性受到影響。
其次,實地直播成本高,曝光效率低。小商家知名度低、商單少,就更加需要通過更長的直播時間增加曝光,有時需要做到24小時全天直播。
然而整個運營團隊跟著主播三班倒,全天候運營難度大不說,直播場地、攝影燈光設(shè)備、場控、直播助理、后端、客服、化妝師也樣樣要錢,而且也并不保證時時刻刻都有人看。閑時流量轉(zhuǎn)化率低,但卻食之無味棄之可惜。
選擇虛擬數(shù)字人,商家們算的是一筆經(jīng)濟賬。
對于希望快速提高個人IP知名度的個人,多平臺、注冊多個賬號、高頻率更新視頻是一大實現(xiàn)途徑。
但傳統(tǒng)短視頻的制作過程常常耗費大量時間和精力。從準備素材、起草文案,到規(guī)劃分鏡并添加視覺與音效元素,再到反復(fù)調(diào)整直至達到最佳效果,一個簡單視頻的制作往往需要耗費良久,如若要保證每日更新,拍攝素材量也需要跟上。即使拍攝團隊都就位,本人也可能瑣事纏身,分身乏術(shù)。
虛擬數(shù)字人也提供了連軸轉(zhuǎn)之外的選擇。一旦根據(jù)本人的視頻克隆出自己的數(shù)字人分身,生成數(shù)字人的視頻幾乎就是點點鼠標的事情。通過書寫簡短的文字或語音內(nèi)容,即可驅(qū)動數(shù)字人進行口頭表達。
一些視頻號、抖音博主利用數(shù)字人打造個人IP矩陣,能夠?qū)崿F(xiàn)短時間的大量曝光,更有甚者有“一夜爆紅”的案例。
于政府、銀行、網(wǎng)絡(luò)運營商,數(shù)字人也有發(fā)揮作用的空間。消費和出行復(fù)蘇后,文旅部門于旅行公司一起宣傳景區(qū),介紹當?shù)靥厣率匙⌒?,快速輸出短視頻內(nèi)容,數(shù)字人也能助力政府部門降本增效。
一些明星也選擇制作屬于自己的數(shù)字人分身,盡管不一定有借此進一步的曝光需要,更沒有帶貨需求,但踩在時代浪花之上總會給人建立一種高瞻遠矚的印象。
02 入局者眾,水平參差
在中國,AI數(shù)字人公司如雨后春筍般涌現(xiàn),互聯(lián)網(wǎng)巨頭也紛紛涉足其中。市場上出現(xiàn)了眾多數(shù)字人服務(wù),騰訊云、阿里、京東、百度、科大訊飛、微軟都相繼推出AI電商產(chǎn)品,智能化助力商家自播。商湯、硅基智能、風(fēng)平智能、閃剪、奇妙元、元分身等中小型公司更是數(shù)不勝數(shù)。
面向C端用戶的Heygen為個人用戶提供了數(shù)字人制作的機會,按分鐘計費,也降低了入場門檻。功能強大,擁有數(shù)百種成熟完善的公模,搭配幾十種世界語言,可以通過商品鏈接自動生成帶貨視頻,完成度極高幾乎不需要任何改動,簡直是為跨境電商而生。
一方面是高歌猛進的集體繁榮,當我們比對半年來的數(shù)字人變化,會訝異技術(shù)的日新月異。另一方面是服務(wù)的良莠不齊和消費者們并不完全買單的不虞之事。
首先是在不同的應(yīng)用場景中,數(shù)字人表現(xiàn)有別。
體驗型產(chǎn)品無法通過數(shù)字人來展示,如服裝類和珠寶類直播需要主播真人親自穿戴,版型是否合身,材質(zhì)是否親膚,都需要通過實際展示,這也是直播的題中之義。而母嬰類和科技類的商品則需要更專業(yè)的呈現(xiàn)方式來提高可信度,建立和消費者的信任關(guān)系,數(shù)字人尚且還不能做到。
其次是“似真非真”的尷尬。
盡管在直播過程中,數(shù)字人可以點對點歡迎、感謝活躍用戶、感謝刷禮物用戶,甚至普遍性地能根據(jù)預(yù)設(shè)關(guān)鍵詞自動回復(fù),在短時間內(nèi)難辨真假,但與真人相比,它們的交互性仍顯不足。
人們甚至?xí)杏X這種“像真人卻不真實”的效果,產(chǎn)生所謂的「恐怖谷效應(yīng)」。
「恐怖谷效應(yīng)」是指在制作仿真人類外貌和行為的機器人或數(shù)字人時,人類會在其逼真程度達到一定階段時感到反感或恐懼,而不是產(chǎn)生親近感。這個概念最早由日本機器人學(xué)家與作家森俊男于1970年代提出,用以描述當機器人越來越像人類時,人類的情感反應(yīng)出現(xiàn)突然的下降,然后隨著機器人更加逼真而再次上升。
當虛擬數(shù)字人的外貌和行為越來越接近真人,但仍然有一些微小差異,這種差異會讓人感到反感或不自在,因為它們接近真實但又不完全相同。有時直播間的觀眾看了半個小時,突然發(fā)現(xiàn)原來主播并不是真人,會有人產(chǎn)生不適的感覺。
迭代快,技術(shù)復(fù)雜,資源消耗大,發(fā)展不平衡,信息不透明,都直接或間接地導(dǎo)致這個行業(yè)魚龍混雜。有的數(shù)字人真假莫辨,有的只是“可動照片”,動動口型,表情非常不自然。
數(shù)字人的制作涉及到多個技術(shù)領(lǐng)域,包括計算機圖形學(xué)、人工智能、機器學(xué)習(xí)等。不同技術(shù)的復(fù)雜度和成熟度不同,可能導(dǎo)致一些團隊在某些方面取得突出成果,而在其他方面表現(xiàn)較差。
此外,數(shù)字人的質(zhì)量和逼真程度通常依賴于大量的訓(xùn)練數(shù)據(jù)和計算資源。一些大型科技公司可能有更多的資源用于數(shù)據(jù)采集、模型訓(xùn)練和優(yōu)化,從而能夠創(chuàng)造更高水平的數(shù)字人。相比之下,小型公司或團隊可能受限于資源,也會導(dǎo)致數(shù)字人的質(zhì)量較低。
03 懸在我們頭頂?shù)倪_摩克利斯之劍
即使在魚龍混雜的市場中選擇了適合而滿意的服務(wù),在數(shù)字人的發(fā)展道路上,依然有一個繞不開的問題,即虛擬數(shù)字人的版權(quán)歸屬。
數(shù)字人的生成通常依賴于真人提供的圖像、聲音和動作數(shù)據(jù)。一旦數(shù)字人生成后,可能會引發(fā)有關(guān)版權(quán)和知識產(chǎn)權(quán)的爭議。誰擁有生成數(shù)字人所需的原始數(shù)據(jù)的權(quán)利?誰有權(quán)決定數(shù)字人的使用和分發(fā)?這些問題可能引發(fā)法律糾紛和知識產(chǎn)權(quán)爭議。
更早以前的虛擬人,以超現(xiàn)實或2D的形象存在,如在抖音上爆火的虛擬美妝達人柳夜熙,或者是依賴中之人配音的Vtuber絆愛,他們和現(xiàn)實世界的人的聯(lián)系其實并沒有那么緊密。
數(shù)字人是基于真人視頻、動作捕捉、語音識別等技術(shù)生成的,必然建立在真人模型之上。即使存在由多個人面部特征組合的合成人,并不直接與任何另一個現(xiàn)實中存在的人相同,也依然需要這個基礎(chǔ)。然而,一旦數(shù)字人生成后,它們與原始人的聯(lián)系逐漸淡化,可以脫離原始人的行動,數(shù)字人能根據(jù)輸入的文案自動生成視頻。
商家購買的實際上是一次克隆自己的機會,在提供自己數(shù)分鐘的口述視頻后,基于視頻中的動作、發(fā)音、表情,捕捉特征并生成一個高度近似本人的數(shù)字分身。
方便起見,一些小商家會選擇自己的臉作為數(shù)字人的形象,即使是員工,也可能是持有公司股權(quán)的員工。如果實在其貌不揚,也能夠選擇將美顏功能拉滿,依然還算看得過去。即使為形象業(yè)務(wù)俱佳的主播制作了數(shù)字人分身,離職后要么不允許商家繼續(xù)使用,要么還是長期支付使用費用。
而前面提到的合成人形象雖然不存在版權(quán)問題,但在一些平臺,“公?!笨梢杂糜谥谱鞫桃曨l,但用于直播會被封號。所謂“公?!?,就是數(shù)字人企業(yè)制作的合成人形象,一般會同時送給多個客戶共同使用。
由于數(shù)字人可以根據(jù)預(yù)設(shè)的文案自動生成內(nèi)容,它們有可能被用來傳播虛假信息、造謠傳謠或進行欺騙。數(shù)字人的逼真外表和語音可能讓人難以分辨真?zhèn)?。雖然商家都或多或少以營利為目的使用數(shù)字人,在平臺的監(jiān)管下不必自掘墳?zāi)?,但是一個頂著真人外表卻無法直接追溯到具體的人的發(fā)言始終存在這樣的風(fēng)險。
今年五月初,抖音發(fā)布了關(guān)于人工智能生成內(nèi)容的平臺規(guī)范和行業(yè)倡議,倡議提到虛擬人背后的真人使用者,必須進行實名注冊和認證。其直播時,必須由真人驅(qū)動進行實時互動,不允許完全由人工智能驅(qū)動進行互動。此外,發(fā)布者應(yīng)對人工智能生成內(nèi)容進行顯著標識,幫助其他用戶區(qū)分虛擬與現(xiàn)實,特別是易混淆場景。
AI數(shù)字人的繁榮不禁讓人想到《黑鏡》第六季第一集「Joan is Awful」,故事講述一位平凡的女子Joan意外發(fā)現(xiàn)自己的人生被翻拍成影集,在流媒體平臺上上演,由好萊塢大牌明星Salma Hayek挑大梁主演。Joan的生活與劇集幾乎同步進行,日?,嵤?、晦暗的人生秘密都在屏幕上任人欣賞,而需要數(shù)月的時間拍攝的高質(zhì)量劇集通過AI數(shù)字人形象生成,能夠在極短的時間內(nèi)送到觀眾面前。
當Joan的生活被公開,她丟了工作和未婚夫,咨詢律師無果,決定采取極端措施宣泄自己的情緒。她去舉辦婚禮的教堂現(xiàn)場大便,至少能夠摧毀劇中演員的生活。如此不雅的行為讓主演Salma Hayek找上門,但即使是演員本人也沒有話語權(quán),內(nèi)容生產(chǎn)公司簽訂的協(xié)議使之完全自由使用她的數(shù)字虛擬形象生成內(nèi)容。演員無權(quán)停播這個節(jié)目,也無法控制自己的數(shù)字人形象在劇中的行為,因此兩人協(xié)商去砸毀量子計算機,為這個故事畫上句號。
劇中Streamberry公司創(chuàng)造的量子計算機,它能根據(jù)現(xiàn)實影像資料生成虛擬世界影像,并且完成整個虛擬世界節(jié)目的拍攝、包裝、剪輯。公司借助數(shù)字人形象完全讓電腦生成內(nèi)容,這種方式能夠降低傳統(tǒng)劇集拍攝成本,顯著提高內(nèi)容生產(chǎn)效率。劇中這臺計算機確實被砸壞了,但與之相近的運作方式卻正在我們身邊發(fā)生。
一個真假難辨的數(shù)字形象,使用權(quán)卻不完全掌握在自己手中,一旦其行動脫離自己掌控,后果將不堪設(shè)想,身份認同、行為掌控、個人隱私、倫理和道德考量乃至于技術(shù)與人性的沖突,種種問題都會逐一浮現(xiàn)。
AI數(shù)字人產(chǎn)業(yè)繁榮的同時,我們也須時刻銘記懸在我們頭頂?shù)倪_摩克利斯之劍。