文|腦極體
讓郭德綱飆英文、讓霉霉說中文的翻譯視頻生成工具HeyGen和掀起AI證件照熱潮的“妙鴨相機”一樣,在一陣瘋狂刷屏之后,又迅速在各大群里銷聲匿跡了。
十月份,由HeyGen制作的各種明星跨語言翻譯視頻,在全網(wǎng)瘋傳,大家震撼于AIGC地道的中英文表達,完全沒有譯制片的腔調(diào),惟妙惟肖的音色還原、高度對齊的口型聲音,讓不少人表示,“真的有被嚇到”“配音演員要失業(yè)了”……
太陽底下無新事,這個現(xiàn)象級AIGC應(yīng)用,也逃不過“速朽”的命運。
如今我所在的LLM大模型討論群里,偶爾有人發(fā)一個中英翻譯視頻,根本無人討論,可能大多數(shù)人連點開看看,都提不起興趣。
大眾的新鮮感很快會過去,“明星譯制片”只有看個樂子的娛樂屬性,并不是高頻剛需,獵奇嘗鮮之后,到了真金白銀付費的時候,自然風(fēng)過了無痕。
這一年,大模型無疑是全球最大的熱點。但熱歸熱,最終在商業(yè)市場立足的大模型應(yīng)用仍然稀少。
明明已經(jīng)是“百模爭艷”,為何成功產(chǎn)品化的現(xiàn)象級應(yīng)用,就那么幾個?
而這些產(chǎn)品成熟也不缺熱度的爆款A(yù)IGC應(yīng)用,為何無法將流量轉(zhuǎn)化為持久的經(jīng)濟效益,商業(yè)化仍是一團迷霧?
本文希望從“AI譯制片”這個小切口,探討一下大模型的產(chǎn)品化條件和商業(yè)化迷思。
一夜爆紅是產(chǎn)品化的勝利
首先要明確一點,妙鴨也好,HeyGen也好,AIGC應(yīng)用的一夜爆紅,對于大模型產(chǎn)業(yè)來說,絕對是一件正面的事。
大模型只是一種基礎(chǔ)技術(shù),相當(dāng)于鋼材,大模型廠商相當(dāng)于煉鋼廠,還要有人設(shè)計出洗衣機、跑步機、微波爐等一個個具體的產(chǎn)品,新技術(shù)才能為人所用。
而HeyGen的一夜爆紅,正是產(chǎn)品化的勝利。
技術(shù)原理上,跨語言翻譯視頻制作并不是什么新事物,業(yè)內(nèi)已經(jīng)有很多科技公司、影視公司、后期制作公司在探索并推出了專業(yè)級工具平臺。
簡單來說,就是升級版的TTS(Text To Speech)技術(shù)。利用大語言模型對文本進行更地道的翻譯,然后對聲音空間進行更好的建模,訓(xùn)練一個跨語種遷移TTS模型,讓風(fēng)格遷移、音色遷移、情感遷移更加魯棒,合成的語音更加自然、還原。
這種技術(shù)的特點就是高效,整個翻譯過程全自動化,可以批量生成翻譯視頻。不過在自然度和表現(xiàn)力細(xì)節(jié)上,還是不如真人配音演員的演繹那么細(xì)膩、有創(chuàng)造力。
總結(jié)一下就是,HeyGen背后的技術(shù)原理,并非什么獨家秘籍。
其火爆的原因,是極高的產(chǎn)品化能力。
一般來說,AI技術(shù)的產(chǎn)品化,要經(jīng)歷三個步驟:
第一步:選擇工具。
工欲善其事,必先利其器,工具是開發(fā)人員喜歡花費大量時間爭論的話題。HeyGen的工具選擇,是比較務(wù)實的,甚至看起來特別“小白”,那就是頭部閉源模型+開源“大禮包”。
有網(wǎng)友扒出,HeyGen是用Whisper將語音轉(zhuǎn)文字,GPT4(目前未開源)進行文本翻譯,聲音克隆+生成音頻用so-vits-svc,最后用GeneFace++,將翻譯后的語音與視頻中說話者的嘴唇動作同步。
大模型熱潮以來,我們看到了許多開發(fā)者在衡量和挑選“最好”的大模型,而市面上有各種不同的基座模型供應(yīng)商,提供類似的競品服務(wù),開發(fā)者想要找到絕對意義上最好的工具,幾乎不可能。這些底層工具如基座模型、編程語言等,先進性都可能變化。選擇好相對較優(yōu)的工具組合,然后快速去開發(fā)demo、驗證想法、迭代升級,才是開發(fā)者最應(yīng)該做的。
第二步:原型設(shè)計。
HeyGen選擇的工具,無論是GPT4的API,還是開源模型,都是比較容易獲取的,但大多數(shù)普通人都不會從搜索GitHub倉庫、處理軟件bug中獲得多少樂趣。
就拿跨語種視頻翻譯來說,其中涉及了多模態(tài)內(nèi)容的翻譯,包括語音、文本以及視頻,在字幕翻譯、語音合成、智能配音方面,目前都有很好的自動化,但將多模態(tài)功能集成到一起,實現(xiàn)端到端一鍵翻譯的產(chǎn)品還不多見。
所以,HeyGen構(gòu)建了一個簡單易上手的訪問界面,通過集成多種模型、多種工具,降低了翻譯門檻,用戶只需要上傳初始視頻-選擇目標(biāo)語言-一鍵輸出,就可以坐等聲音克隆完成了。
HeyGen的核心價值,就是讓非技術(shù)用戶不必陷入繁多的技術(shù)細(xì)節(jié)中,不需要安裝N多個額外的工具,就可以與多個模型交互,完成轉(zhuǎn)寫、翻譯、配音、圖像處理、音畫同步等一大堆復(fù)雜的事情,輕松進行高維度、可交互的內(nèi)容創(chuàng)作。
第三步:產(chǎn)品化。
明星、名人的跨語言翻譯視頻固然精彩,但只是一種用例,并且只能停留于C端用戶玩梗,涉及自然人的聲音、肖像等版權(quán)問題,是無法大規(guī)模普及并商用的。所以,雖然明星譯制片帶火了HeyGen,但HeyGen想要將產(chǎn)品投放市場并發(fā)揮價值,還需要更有說服力的產(chǎn)品力。
從HeyGen官網(wǎng)可以看到,數(shù)字人+跨語言翻譯視頻,才是HeyGen的核心產(chǎn)品力,并給出了跨境電商營銷視頻、跨語種品牌宣傳、老師制作教學(xué)視頻、社交媒體吸粉、為生日婚禮等紀(jì)念日制作令人難忘的個人視頻等,一系列落地場景。
在此基礎(chǔ)上,HeyGen讓數(shù)字人跨語言翻譯視頻,可以通過自動化流水線來制作。
用戶可以上傳自己的照片,進行個性化形象定制,也可以在HeyGen提供的數(shù)字人素材和模板中選擇,輸入腳本后就能生成自己所需的多語種視頻了。
至此, HeyGen順利完成了AI譯制產(chǎn)品化的轉(zhuǎn)換,從而取得了巨大的成功,導(dǎo)致了“多年譯制無人問,一朝HeyGen天下知”的景況。
從AI寫真到AI譯制片的爆火,一次次說明,產(chǎn)品化是承上啟下、不可或缺的一步,再怎么強調(diào)也不為過。
可以肯定地說,不能完成從技術(shù)到原型設(shè)計再到產(chǎn)品化的轉(zhuǎn)換,將是許多大模型投資回報率低的主要原因,也是許多AI創(chuàng)業(yè)項目失敗的原因之一。
難逃“速朽”命運,商業(yè)化的魔咒
然而,即便如此成功的產(chǎn)品化,HeyGen又一次重復(fù)了“妙鴨”前輩的故事,在訪問量陡增之后,又很快在各大群里銷聲匿跡了。
公域流量的退潮,似乎是爆款A(yù)IGC應(yīng)用的共同命運。
對此,有人認(rèn)為,HeyGen是在“悶聲發(fā)大財”。雖然獵奇玩家散去了,但留下來的用戶還是給HeyGen貢獻了收入增長,HeyGen連續(xù)九個月環(huán)比增長率在50%以上。創(chuàng)始人Joshua Xu也在社交媒體上公布了相關(guān)數(shù)據(jù),僅七個月時間,ARR年度經(jīng)常性收入就達到了100萬美元。
問題來了,HeyGen的商業(yè)化潛力是可持續(xù)的嗎?
我們認(rèn)為,HeyGen將要面臨的商業(yè)化挑戰(zhàn),還是非常大的。
首先,技術(shù)工具無法被壟斷,僅靠多模態(tài)AI無法建立商業(yè)模式。
HeyGen憑借大模型強大的多模態(tài)和理解能力,讓跨語種翻譯視頻制作,達到了傳統(tǒng)AI譯制所望塵莫及的水平,這是非常厲害的工作。但大模型就像c++、數(shù)據(jù)庫一樣,只是一種新技術(shù)工具,它是無法被壟斷的。HeyGen所使用的開源工具極易獲得,閉源模型API也敞開了迎客,所以僅靠底層工具無法建立商業(yè)模式和競爭壁壘。
而產(chǎn)品創(chuàng)意、交互界面的開發(fā)門檻并不高,大量科技企業(yè)和個人開發(fā)者都可以輕松復(fù)刻并優(yōu)化升級,產(chǎn)品被超越或許只在旦夕之間。
如今點開海外科技媒體的報道頁面,會看到類似HeyGen(原movio)的視頻生成工具,推薦清單高達95個之多。可以說,HeyGen提供了一個寶貴的AIGC用例,但很快就開啟了一場白熱化競爭,這對其后續(xù)收入的持續(xù)增長是很大的威脅。
其次,C端付費剛性,B端行業(yè)壁壘深,收入增長曲線會放緩。
目前,HeyGen收入主要靠C端客戶付費。免費版本只支持一個免費的credits字幕,顯然僅供玩票,而最低的創(chuàng)作者(Creator)付費檔也要24美元/月,對于個人博主來說雖然不算太貴,但隨著一大堆同質(zhì)化產(chǎn)品的價格“內(nèi)卷”,未來也會面臨性價比不高的窘?jīng)r。
而商業(yè)用戶(business)雖然付費能力強、價格接受度高,但對跨語言視頻翻譯的技術(shù)含金量則要求更為復(fù)雜。HeyGen商業(yè)版本的客戶,大多是制作電商營銷廣告、語言學(xué)習(xí)數(shù)字人、多語種新聞播報、譯制片等,對翻譯質(zhì)量就會提出更為細(xì)粒度的要求,比如文本翻譯的長度,要盡量和目標(biāo)語言接近,來保持說話口型的一致性。還有,不同人說話的韻律不一樣,停頓的位置、重音的位置都要對齊,才能高度還原個人風(fēng)格。
再比如,老人、小孩說同一個文本時,因為角色人設(shè)的不同,遣詞造句也應(yīng)該不一樣,翻譯后的文本、語音都需要跟人設(shè)相對齊。
還有很多文化細(xì)節(jié),是跨語種翻譯中要進行強把控的,很多還是要人工譯者去完成。畢竟商用場景不同于娛樂場景,跨語言容易產(chǎn)生歧義,一旦出現(xiàn)1%的錯誤,都可能讓做對的99%工作打了水漂,面臨丟單甚至海外市場合規(guī)風(fēng)險。
所以說,商業(yè)用戶需要復(fù)雜、高質(zhì)量、高控制的產(chǎn)品。這就需要廠商在數(shù)據(jù)方面,尤其是小語種等少樣本數(shù)據(jù),有獨家的、高質(zhì)量的數(shù)據(jù)積累。模型訓(xùn)練,強行業(yè)知識等,都要長期積累和迭代,達到專業(yè)譯者的水平。
目前,已經(jīng)有AI公司針對精品化視頻譯制的需求,推出了ToB的產(chǎn)品解決方案,訓(xùn)練跨語種 Voice Conversion模型,采集配音演員的口型,由人工控制,再經(jīng)由VC模型生成配音結(jié)果,比TTS模型的表現(xiàn)力更強,細(xì)節(jié)保留更多。
目前國內(nèi)的AI巨頭都很重視B端市場,資源充足,并且在機器翻譯TTS、多模態(tài)AI技術(shù)方面的積累深厚,都可能是HeyGen商業(yè)用戶的爭奪者。
大模型的產(chǎn)品創(chuàng)新風(fēng)口,才剛剛開始,要保持商業(yè)化的優(yōu)勢身位,如逆水行舟,“當(dāng)紅頂流”也不能掉以輕心。
爆款應(yīng)用“速生速朽”,大模型的商業(yè)迷思
2022年11月30日,ChatGPT問世,在一周年剛剛過去之際,這場大語言模型的熱潮,將所有人都席卷其中。或許還有人無知無覺,但也注定無法置身事外。
一年以來,時常有妙鴨相機、HeyGen這樣的爆款應(yīng)用,在社交媒體刷屏。這證明了幾件事:
1.大模型是條件,而不是結(jié)果。運用好這些新工具,創(chuàng)造新產(chǎn)品的人,會獲得新時代里無限多的機會。
2.基建是問題,但也不是問題。提到大模型,業(yè)界總會擔(dān)憂算力卡被限制,國產(chǎn)大模型能力有差距,但悲觀者正確,樂觀者前行。實際上,無論算力基建、開發(fā)工具、基座模型,在今天都不是,也不該是應(yīng)用開發(fā)者的阻礙。
業(yè)內(nèi)有人說過,國產(chǎn)卡只要達到N卡60%的性能,用戶就會買單。而一些開發(fā)者告訴我,密集使用了文心一言、訊飛星火等國產(chǎn)大模型,基礎(chǔ)邏輯推理確實能叫板GPT 3.5-turbo,非基礎(chǔ)能力比如func call、穩(wěn)定性等也可圈可點。而妙鴨、HeyGen也都是中國企業(yè)所開發(fā)的,行動比洞見更重要。
3.產(chǎn)品化,是大模型商業(yè)化的必要條件。做了那么多通用大模型和行業(yè)大模型,如果沒有大量產(chǎn)品化的成果,是無法轉(zhuǎn)化為使用價值和經(jīng)濟效益的?!案淖兪澜纭钡牟皇谴竽P停歉鞣N各樣的產(chǎn)品,無數(shù)個HeyGen,幫助開發(fā)者完成從原型設(shè)計到產(chǎn)品化的轉(zhuǎn)換,降低試錯成本,將是接下來大模型廠商最重要的動作。
4.建立商業(yè)壁壘的,是剛需場景+強業(yè)務(wù)知識/數(shù)據(jù)+軟件工程。HeyGen的商業(yè)化挑戰(zhàn),說明大模型不是壁壘,產(chǎn)品也不是壁壘,這些都是很容易被復(fù)制的。而行業(yè)知識/數(shù)據(jù),大規(guī)模軟件工程的流程控制、降本增效,可以針對特定場景的需求深入挖掘、快速開發(fā)、快速迭代優(yōu)化,才符合AI技術(shù)特性,才是商業(yè)化的保障。
幾位行業(yè)大模型應(yīng)用的開發(fā)者,不約而同地跟我說過一件事:先找到場景,再優(yōu)化產(chǎn)品和服務(wù)。也就是先想好商業(yè)變現(xiàn)的路線,確定自己的壁壘達到了,再去扎扎實實做產(chǎn)品,心里才能不慌。
比如一個ToC的民宿大模型,解決的是旅客入住民宿時,管家介入太深顯得沒有邊界感,過度打擾;管家介入太淺,又缺乏服務(wù)價值感,無法及時解決問題。基于大模型的語音交互助手,就在旅客和管家之間,起到了很好的緩沖橋梁作用,讓服務(wù)恰到好處。而旅客在當(dāng)?shù)氐牟惋?、游玩、購物等活動,也都是圍繞“住”展開的,通過民宿大模型提供優(yōu)質(zhì)可靠的推薦服務(wù),也帶來了商業(yè)轉(zhuǎn)換的潛力。
一個ToB的金融大模型應(yīng)用開發(fā)者也表示,企業(yè)機構(gòu)內(nèi)部的多樣化需求,是不可能由一個通用的、標(biāo)準(zhǔn)化的軟件產(chǎn)品來承載的,所以ToB大模型創(chuàng)業(yè),既要做業(yè)務(wù)分析咨詢,又要做軟件開發(fā)寫代碼,才能真正服務(wù)好客戶。AI軟件開發(fā)的流程化、自動化,對于控制成本非常重要,不能每個項目都靠一群博士“手搓”代碼。
對商業(yè)和場景的深刻洞察,對行業(yè)和客戶的理解,比掌握算法、掌握技術(shù)都要難得多,也是開發(fā)者最應(yīng)該重視的核心能力。
最后我想說,雖然大模型已經(jīng)非?;鹆耍珓e急著擔(dān)心“泡沫”、害怕“追高”,這才是開始。
國際咨詢機構(gòu)的調(diào)查報告顯示,65%的受訪者目前有時或很少使用生成式人工智能,而約占90%的受訪者認(rèn)為,AI應(yīng)該被“經(jīng)?;蚩偸恰笔褂谩?/p>
也就是說,大眾對機器學(xué)習(xí)和生成式 AI(Gen AI)的接受度很高,而實際滲透率并不高。妙鴨、HeyGen等現(xiàn)象級Gen AI產(chǎn)品,無疑邁出了一大步,而只有它們,是遠遠不夠的。
爆款A(yù)IGC應(yīng)用,只是AI和大模型價值潛力的一小部分。目前還沒有一種商業(yè)模式長期跑通,恰恰說明技術(shù)的新大陸上,留給登陸者、建設(shè)者們的發(fā)揮空間還很大。