文|腦極體
2014年的時候,我在互聯(lián)網(wǎng)企業(yè)里做內(nèi)容工作,當時業(yè)內(nèi)很流行凱文·凱利的“一千個粉絲”理論,相信“找到一千個種子用戶,產(chǎn)品就能夠活下去”。
找到種子用戶干嘛呢?核心KPI之一,就是鼓勵他們創(chuàng)造內(nèi)容,提高平臺的UGC數(shù)量與質(zhì)量。
普通人也輕松能創(chuàng)作的圖文短視頻,用愛發(fā)電的同人衍生,極具創(chuàng)意的鬼畜視頻……UGC(User-generated content用戶生產(chǎn)內(nèi)容),以高效、豐富、多元的產(chǎn)出方式,和PGC(Professional-generated content專家生產(chǎn)內(nèi)容)、OGC(Occupationally-generated Content職業(yè)生產(chǎn)內(nèi)容)一起,讓互聯(lián)網(wǎng)數(shù)字內(nèi)容呈現(xiàn)出前所未有的繁榮多彩。
一個時代有一個時代的主題,如今業(yè)內(nèi)流行的內(nèi)容生產(chǎn)模式,則是AIGC。
AI-generated content,字面意思是AI生產(chǎn)內(nèi)容。AI寫詩、AI作曲、AI繪畫、AI換臉……甚至有創(chuàng)始人認為,游戲中導(dǎo)入圖片生成模型的“捏臉系統(tǒng)”都是AIGC。
那么問題來了,讓AI替人舞文弄墨,對話交互問答、創(chuàng)意寫作、生成詩歌圖文或是以假亂真的視頻,不都是舊新聞了嚒,都屬于自然語言生成Natural Language Generation (NLG)的應(yīng)用,是NLP自然語言處理技術(shù)的一大類任務(wù),已經(jīng)應(yīng)用將近30年了。
怎么突然就以AIGC的概念成為資本熱捧的對象呢?
故事恐怕還是要從“元宇宙”說起。
AIGC,到底生產(chǎn)的是什么內(nèi)容?
在內(nèi)外網(wǎng)搜索 “AIGC”時,精準匹配的是簡體中文信息,而英文AI-generated content一詞,在海外平臺主要還是以自動化生成文本的NLG技術(shù)為主。所以,AIGC應(yīng)該是一個在中國率先流行起來的專有名詞。
目前為止,與AIGC相關(guān)的創(chuàng)作類型主要有三種:
1、內(nèi)容平臺的一種自動化作業(yè)方式,比如CCTV的AIGC平臺,就包括智能采編、模板生成、畫質(zhì)優(yōu)化等等;部分語音類app,通過語音合成 (TTS)技術(shù),提供文本自動轉(zhuǎn)語音的能力;流媒體平臺,通過算法對畫面畫質(zhì)進行優(yōu)化,提高清晰度等等。
2、AI科研機構(gòu)的多模態(tài)應(yīng)用,實現(xiàn)內(nèi)容生成。比如中科院自動化所的跨模態(tài)通用人工智能平“紫東太初”,就能夠做到“以圖生音”“以音生圖”。百度文心大模型的“AI畫家”,則在前不久的元宵節(jié),生成與地點相匹配的專屬畫作。
3、科技企業(yè)及創(chuàng)業(yè)公司的數(shù)字人、虛擬人制作。通過自主開發(fā)、平臺開發(fā)等形式,合成全新的人物形象,與用戶開展互動。比如AI手語主播,通過AI算法將文本轉(zhuǎn)化為手語信息,為聽障朋友提供服務(wù);品牌代言人,火星車數(shù)字人祝融號跟廣大用戶進行互動;虛擬偶像,通過生動的表情、動作、語言等展示才藝,與粉絲對話;以及智能客服、游戲陪玩等等。
通過上述AIGC應(yīng)用,或許不難理解,為什么NLG往往依靠夸張新聞點(比如deepfake)偶爾進入大眾視野,而AIGC一詞出道即爆紅了。
小紅靠捧,大紅靠命:AIGC的“含科量”有多高?
如前所說,自然語言生成NLG作為AI創(chuàng)作內(nèi)容的一種主流方式,此前在大部分時間內(nèi)都是行業(yè)內(nèi)自娛自樂,偶爾憑借“換臉”之類的奇趣新聞火一把,但僅此而已。
而AIGC這一概念,在當下能夠迅速走紅,可以說是時也、運也。
首先,深度學習技術(shù)本身不斷迭代,能夠生成更具個性化、擬人化的內(nèi)容。
隨著自然語言處理技術(shù)的不斷發(fā)展,近年來AI的閱讀理解創(chuàng)作能力進步飛快,已經(jīng)達到了驚人的水平,技術(shù)成熟給了AIGC廣泛應(yīng)用的基礎(chǔ)。
隨著AI模型GPT-3的問世,機器已經(jīng)能夠達到人類小學的閱讀寫作水平,頂級AI企業(yè)的中文普通話識別準確率能夠達到98%以上,多語言、小語種、方言的識別率也不斷升級。此外,情感計算、因果計算、知識圖譜、元學習等多種技術(shù)開始被引入深度學習,大幅改善了人機交互的自然感。
這些新成果應(yīng)用在內(nèi)容創(chuàng)作上,就是大家能看到AI寫出更流利通順的文章、用更自然的音色去朗讀一本書、更聲情并茂地跟人對話、對用戶輸入的語句理解得更準確,一句話,終于開始擺脫“人工智障”的標簽了。
第二,AI基礎(chǔ)設(shè)施不斷發(fā)展,多模態(tài)大模型的相繼成熟落地。
如果只是生成單一的內(nèi)容,那么AIGC或許還不至于讓見多識廣的大眾眼前一亮。而多模態(tài)大模型的出現(xiàn),讓融合性創(chuàng)新成為可能。
多模態(tài)大模型,既需要具備NLP(自然語言理解)大模型、CV(計算機視覺)大模型等的能力,理解語言、視覺的內(nèi)容,還要能夠跨模態(tài)生成全新的內(nèi)容,由此帶來了非常多的創(chuàng)意空間。比如通過一部小說的文字描寫,生成故事畫面、人物形象、環(huán)境布景等,可以幫助創(chuàng)作者大大節(jié)省時間。
正因如此,多模態(tài)大模型需要處理的數(shù)據(jù)類型多,規(guī)模量大,模型參數(shù)已經(jīng)達到千億級別,需要龐大的算力來支撐。得益于全國多地對AI基礎(chǔ)設(shè)施的重視和建設(shè),才能夠讓多模態(tài)應(yīng)用達到比較好的效果,進而支撐AIGC創(chuàng)作業(yè)態(tài)的進一步發(fā)展。
此外,AI平臺化的生態(tài)搭建,以及充足廣闊的產(chǎn)業(yè)實踐空間。
大模型雖好,對于很多企業(yè)和創(chuàng)作者來說,想要自己從頭開發(fā)一套大模型用來進行AIGC既不經(jīng)濟、也不現(xiàn)實。這時候,AI平臺化、民主化就變得至關(guān)重要。
去年推出的許多多模態(tài)大模型,如紫東太初、文心、M6等,都通過AI平臺進行開源,可以直接調(diào)用并通過云端算力進行訓練。一些科技企業(yè)也將數(shù)字人技術(shù)開源開放,這些動作大大降低了企業(yè)和創(chuàng)業(yè)者的開發(fā)門檻,創(chuàng)作效率提升,進而助力高質(zhì)量AIGC變得普及。
目前,南京、武漢等地,已經(jīng)開始形成多模態(tài)應(yīng)用的產(chǎn)業(yè)集群。而千行百業(yè)的數(shù)字化、數(shù)字經(jīng)濟的持續(xù)發(fā)展,也給予了AIGC前所未有的產(chǎn)業(yè)空間與實踐場景。比如此次受資本追捧的一些AIGC公司,就瞄準了“游戲+AI”場景,通過算法生成數(shù)字人、語言互動等方式,滿足玩家在虛擬世界中個性化、定制化的體驗需求。而更多的產(chǎn)業(yè)實踐,也會源源不斷地產(chǎn)生新的數(shù)據(jù),推動算法的迭代升級。
AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的發(fā)展,當下已經(jīng)能夠支持內(nèi)容創(chuàng)作的大變革,AIGC的流行,自然也就水到渠成了。
“含資量”不低,警惕AIGC的虛火
AI創(chuàng)作的大行其道,是科技發(fā)展到一定水平后的必然現(xiàn)象。但資本熱捧,許多投融資消息突如其來,卻給“AIGC”一詞添上了一種別樣的味道。
為什么說是“突然”呢?如前所說,AI寫詩之類的NLG應(yīng)用并不罕見,但一直沒有被以“AIGC”一詞整合包裝起來。2021年7月,一位股民詢問擁有虛擬數(shù)字技術(shù)開發(fā)業(yè)務(wù)的絲路視覺:在AIGC技術(shù)上是否有儲備或應(yīng)用?結(jié)果被該企業(yè)發(fā)言人直接反問:啥是AIGC?顯然,當時“AIGC”一詞就連從事相關(guān)業(yè)務(wù)的企業(yè)高管都不熟悉。
而在某問答平臺上,關(guān)于“AIGC未來會扮演什么樣的角色”的問題,只有一個回答,來自某投資機構(gòu),而該機構(gòu)正是某AIGC沙龍的組織方,參與討論的創(chuàng)始人也主要描繪了一種核心的AIGC應(yīng)用場景,那就是元宇宙。
而剛剛拿下千萬美金融資的某AI公司,正在布局的AIGC領(lǐng)域也聚焦在虛擬人技術(shù),為游戲行業(yè)提供基于AI的智能NPC、自動化QA、對話系統(tǒng)和AI陪玩。完成1億美元融資、由紅杉中國領(lǐng)投的某獨角獸,核心產(chǎn)品則是AI bot,表示希望作為虛擬世界的先鋒,圍繞元宇宙開展多維度的基建。
從這些脈絡(luò)中不難看出,AIGC技術(shù)本身很真實,但長期以來一直處于默默發(fā)展、偶爾出圈的狀態(tài)。能夠在近期快速成為一個風口、一種網(wǎng)紅概念,與元宇宙的爆火、資本的動向,不無關(guān)系。
在這個新故事中,一般會有如下邏輯:1.元宇宙需要很多數(shù)字人、需要個性化的數(shù)字環(huán)境;2.這些內(nèi)容光靠人來開發(fā)周期太長,需要更高效的生產(chǎn)方式;3.AI的能力就是提質(zhì)增效,適合用來創(chuàng)作;4.所以,AIGC有前途。
歸根結(jié)底就是,元宇宙要火了,AI能做。
AI能做是真,但元宇宙到底啥時候火,可就沒個準數(shù)了。
我們此前探討過,作為一個復(fù)雜龐大的技術(shù)集群概念,元宇宙依賴很多技術(shù)的成熟,距離真正成型還很遙遠。在這一天到來之前,沒有人能清楚地定義什么是元宇宙,自然也不可能量化出到底需要多少虛擬人、數(shù)字人。那么,為了元宇宙而生的AIGC,到底價值幾何,可能就跟元宇宙一樣,是個見仁見智的玄學了。
既然AIGC的走紅是技術(shù)發(fā)展的產(chǎn)物,那么它的上限,自然也要受到技術(shù)規(guī)律的約束。誠然,AI的發(fā)展給內(nèi)容創(chuàng)作帶來了很多可能,但技術(shù)也決定了很多內(nèi)容依然是AI無法做到的:
首先,AIGC的內(nèi)容質(zhì)量有待提升。
OpenAI用于編寫內(nèi)容的通用GPT-3模型發(fā)布之后,很多內(nèi)容機構(gòu)都基于它開發(fā)了相應(yīng)的創(chuàng)作模型。目前來看,主要應(yīng)用還是一些重復(fù)枯燥工作的自動化,以CCTV的AIGC平臺為例,主要是自動完成挖掘新聞熱點,將新聞報道數(shù)據(jù)進行深度關(guān)聯(lián)、輔助編輯選題策劃,基于模板快速生成海報圖片圖表,智能生成內(nèi)容標簽,修復(fù)歷史視頻等等。
一些用于生成內(nèi)容的AI編寫器,創(chuàng)作能力實在是不太行。要么只能用于生成一些符合SEO(搜索引擎優(yōu)化)的營銷內(nèi)容,比如YouTube視頻標題、Facebook廣告標題、GoogleAds標題和描述、亞馬遜產(chǎn)品描述等等,主要是更通順地把關(guān)鍵詞堆疊在一起,你不會覺得某寶的寶貝標題就是一篇“大作”吧。
要么是由機器學習黑匣子生成的博客文章。對于這類文章,平臺們往往也會提醒,AI無法復(fù)制情感,沒有靈魂、同理心、經(jīng)驗等細微差別。所以也會建議使用AIGC工具的創(chuàng)作者,雇用人類作家來校對這些工具創(chuàng)建的內(nèi)容。
所以至少目前為止,AIGC能提供很多幫助,但還是無法取代人類創(chuàng)作者的。
這是我用一個海外AI一句話生成器寫出來的文章,可以說是前言不搭后語,大家給它打幾分呢?
其次,AIGC的交互能力還不夠自然。
雖說NLP技術(shù)有了極大的進步,人工智能聊天機器人可以幫助企業(yè)與潛在客戶聊天、給轄區(qū)居民撥打電話、為電商平臺用戶提供售前售后咨詢服務(wù)……但想必大家依然還是能夠很明顯地區(qū)別出,對面到底是真人還是聊天機器人。反正我本人,如果需要完成一些復(fù)雜的交流和操作,都會一開始就輸入“人工客服”“找人工”等命令,而不是跟智能客服在那里“鬼打墻”。
目前,基于AI技術(shù)的人機交互還需要漫長的試錯、實踐、積累、迭代,更適用于一些重復(fù)率高、流程標準化、對專業(yè)度或靈活響應(yīng)度沒那么高的交流。比如在智能音箱里跟主人閑聊,作為虛擬偶像滿足粉絲的基本情感互動需求,或是在電商場景里作為主播“念稿子”直播帶貨。
這里面其實已經(jīng)有非常大的想象空間了,雖然距離“元宇宙”中那種“和真實的人一樣”的愿景還有距離。
從應(yīng)用前景來看,“含科量”滿滿的AIGC,打開了內(nèi)容創(chuàng)作的想象力,將會給包括虛擬人、數(shù)字人、圖文音影游等各種應(yīng)用創(chuàng)新帶來可能。
在廣闊的產(chǎn)業(yè)和個人消費市場,AIGC正等待著展翅高飛。而“含資量”不低的AIGC風口,當元宇宙的熱潮退卻后,又會有多少裸泳的人,就需要時間來告訴我們答案了。