文|洞見(jiàn)新研社 辰紋
“未來(lái)十年,AIGC(人工智能自主生產(chǎn)內(nèi)容)將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫?shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容?!?/p>
李彥宏7月在百度世界大會(huì)上的發(fā)言話音未落,AI作畫(huà)的風(fēng)潮如同一場(chǎng)旋風(fēng),席卷了互聯(lián)網(wǎng)的每個(gè)角落,不光引發(fā)了社會(huì)各界的廣泛討論,而且開(kāi)始從專(zhuān)業(yè)領(lǐng)域走進(jìn)普通人的生活。
曾敗于AI的天才棋手柯潔、知名畫(huà)師烏合麒麟等都曾參與過(guò)相關(guān)討論,閑魚(yú)上甚至出現(xiàn)售賣(mài)AI繪畫(huà)作品的帖子,“1分鐘內(nèi)出圖”,“5元4張”,主打一個(gè)低價(jià)高速。
而隨著像百度、華為這樣的科技巨頭以及資本的入場(chǎng),更是將AI繪畫(huà)的熱度抬高了一個(gè)等級(jí)。
百度和華為分別推出了各自的AI繪畫(huà)平臺(tái)“文心一格”與ModelArts。
生成式AI平臺(tái)“TIAMAT”則在10月12日宣布完成由知名風(fēng)投機(jī)構(gòu)DCM投資的數(shù)百萬(wàn)美元天使輪融資。
在此之前,Stability AI獲得了1.01億美元種子輪融資,正式晉升獨(dú)角獸行列;幾乎同一時(shí)間,另一家人工智能獨(dú)角獸公司Jasper也宣布獲得了1.25億美元的新融資。
AI作畫(huà)爆火,展示了AIGC技術(shù)的突破進(jìn)展,當(dāng)然有值得高興的地方,可技術(shù)的進(jìn)步與落地如何產(chǎn)生價(jià)值,進(jìn)而引導(dǎo)相關(guān)行業(yè)完成生產(chǎn)力與生產(chǎn)關(guān)系的重建,卻仍有諸多疑問(wèn)待解。
01 為什么是AI作畫(huà)?
AI作畫(huà)并不是什么新鮮事物,早在2012年就已經(jīng)有所發(fā)展,只是AI繪畫(huà)的早期作品看起來(lái)還很粗糙,直到今年年初時(shí),AI繪畫(huà)還只停留在“能看”的階段。
其實(shí)對(duì)比一下現(xiàn)階段的AI寫(xiě)作、AI作曲、AI配音、AI唱歌等技術(shù),可以發(fā)現(xiàn)這些活A(yù)I都能做,但與人類(lèi)相比,存在明顯的差距,當(dāng)時(shí)的AI繪畫(huà)大致也是這樣的水平。
大眾對(duì)AI繪畫(huà)觀感的轉(zhuǎn)變發(fā)生在今年8月,美國(guó)游戲設(shè)計(jì)師Jason Allen用一張AI繪畫(huà)作品《太空歌劇院》,拿下了美國(guó)科羅拉多州博覽會(huì)美術(shù)競(jìng)賽一等獎(jiǎng)。
大賽評(píng)委對(duì)這副AI作品的評(píng)語(yǔ)是:即使它是AI生成的作品,也依舊配得上這樣的成績(jī)。
雖然這副作品在AI生成之后,設(shè)計(jì)師還進(jìn)行了上千次的修改,花費(fèi)了近80個(gè)小時(shí)才完成,但并不妨礙公眾對(duì)AI能力的重新認(rèn)識(shí):原來(lái)AI繪畫(huà)已經(jīng)可以超越人類(lèi)了!
《太空歌劇院》能獲得專(zhuān)業(yè)評(píng)委認(rèn)可并獲獎(jiǎng),背后支撐技術(shù)的突破功不可沒(méi)。
在今年年初時(shí),AI繪圖軟件Disco Diffuion解決了效率問(wèn)題,可以在很短的時(shí)間內(nèi)批量生產(chǎn)繪畫(huà)作品;
后續(xù)幾個(gè)月,經(jīng)過(guò)DALL·E 2與MidJourney等AI繪畫(huà)平臺(tái)的相繼測(cè)試,AI已經(jīng)可以生成符合大眾審美要求的人物形象;
到了7月份,Disco Diffuion成功解決了細(xì)節(jié)與效率的問(wèn)題,AI繪畫(huà)的精度提升到藝術(shù)品級(jí)別,生產(chǎn)效率提升到秒級(jí),創(chuàng)造所需的門(mén)檻也大大降低,普通電腦甚至手機(jī)也能適用。
AI繪畫(huà)最終引爆的導(dǎo)火索當(dāng)屬Disco Diffuion的開(kāi)源,此次開(kāi)源開(kāi)放的不僅僅是程序,還有訓(xùn)練好的模型,這大大降低了AI繪畫(huà)創(chuàng)業(yè)的難度,同時(shí)也對(duì)技術(shù)的普及起到了極大的推動(dòng)作用。
在技術(shù)之外,C端用戶(hù)的瘋狂追捧,也成為AI繪畫(huà)爆火的重要因素。
相比其他AIGC創(chuàng)造,AI繪畫(huà)的門(mén)檻更低,參與度更高。
最開(kāi)始時(shí),MidJourney、Disco diffusion、Stable Diffusion等AI繪圖平臺(tái)生產(chǎn)了大量AI繪畫(huà)作品,這些作品在推特、Facebook等社交媒體平臺(tái)發(fā)布后,引發(fā)大量用戶(hù)圍觀,特別是當(dāng)用戶(hù)輸入幾個(gè)關(guān)鍵詞,就能在十幾秒內(nèi)生成一幅高質(zhì)量的繪畫(huà)作品,極大刺激了用戶(hù)的參與熱情。
在中國(guó),是由搖滾樂(lè)隊(duì)萬(wàn)能青年旅店的MV作品《殺死那個(gè)石家莊人》在B站率先引爆的,這個(gè)MV的每個(gè)畫(huà)面都取自歌曲的歌詞,由Midjourney平臺(tái)生成。
在此之后,《七里香》《孤勇者》《加州旅館》《波西米亞狂想曲》等熱門(mén)歌曲都被UP主們用AI繪畫(huà)的作品作為MV的素材重新創(chuàng)作了一次。
對(duì)此,有專(zhuān)業(yè)人士評(píng)述,對(duì)于用戶(hù)而言,AI作畫(huà)讓原來(lái)沒(méi)有繪畫(huà)基礎(chǔ)的人,能夠享受到創(chuàng)作帶來(lái)的愉悅,對(duì)于一些專(zhuān)業(yè)畫(huà)師,則是一個(gè)很好的工具,能夠更有效率的完成作品。
B站上有個(gè)熱評(píng),在一定程度上反應(yīng)了C端用戶(hù)喜歡AI繪畫(huà)的原因:一是出概念、找靈感,二是當(dāng)成P圖素材與手工結(jié)合。
02 一座待挖的金礦
那么問(wèn)題來(lái)了,AI繪畫(huà)能賺錢(qián)嗎?又該怎樣賺錢(qián)呢?
AI繪畫(huà)平臺(tái)們面對(duì)洶涌而至的C端需求,利用社交平臺(tái)的引流,推出類(lèi)似于付費(fèi)服務(wù)或者“會(huì)員制”的收費(fèi)模式。
由于目前面向C端的AI繪畫(huà)平臺(tái)大多為輕量級(jí)的工具應(yīng)用,能夠展現(xiàn)出來(lái)的玩法和內(nèi)容場(chǎng)景都比較有限,同時(shí)C端用戶(hù)進(jìn)入AI繪畫(huà)平臺(tái),大多出于好奇嘗鮮的目的,當(dāng)新鮮感過(guò)去之后,如果不是專(zhuān)業(yè)人員,很難再刺激用戶(hù)進(jìn)行二次消費(fèi),因而當(dāng)前這種純粹To C的商業(yè)模式的根基并不穩(wěn)固。
但若圍繞AI繪畫(huà)在C端用戶(hù)中的社交屬性,以及AIGC本身所包含的內(nèi)容社區(qū)屬性去挖掘,則仍有一個(gè)非常大的成長(zhǎng)空間等待開(kāi)拓,利用微信小程序,創(chuàng)造了日增5萬(wàn)用戶(hù)的紀(jì)錄的AI繪畫(huà)平臺(tái)“盜夢(mèng)師”團(tuán)隊(duì)也認(rèn)為這是一個(gè)機(jī)會(huì),但“難度很大”。
五大時(shí)尚刊物之一《時(shí)尚芭莎》在36周年紀(jì)念刊特地邀約了幾位AI畫(huà)手,借助AI繪畫(huà)工具完成了一幅東方美學(xué)與超現(xiàn)實(shí)主義相結(jié)合的畫(huà)作,這可視為AI繪畫(huà)在B端應(yīng)用的一個(gè)典型。
而在醫(yī)療、工業(yè)設(shè)計(jì)、動(dòng)漫設(shè)計(jì)、游戲制作、服裝設(shè)計(jì)等領(lǐng)域中,AI繪畫(huà)可以施展的空間就更大了。
比如,有一種心理咨詢(xún)療法叫繪畫(huà)藝術(shù)療法,有的病人很難用語(yǔ)言表達(dá)自己的心理狀態(tài),咨詢(xún)師就會(huì)請(qǐng)他們繪畫(huà),從畫(huà)中看出他們的心理狀態(tài)。
但不是每個(gè)病人都會(huì)畫(huà)畫(huà),如果在其中應(yīng)用到AI繪畫(huà)的能力,病人表述畫(huà)作的構(gòu)思與關(guān)鍵詞,AI生成畫(huà)面后經(jīng)病人確認(rèn),或可為心理咨詢(xún)療法提供更多的支持。
比如,網(wǎng)絡(luò)小說(shuō)與漫畫(huà)的聯(lián)創(chuàng),通常情況下,小說(shuō)的寫(xiě)作速度會(huì)高于漫畫(huà)的繪制速度,但有了AI繪畫(huà)后,可以大膽想象直接將小說(shuō)的內(nèi)容生成漫畫(huà)圖片,此時(shí)不光提高內(nèi)容生產(chǎn)速度,更是整個(gè)內(nèi)容生態(tài)的重構(gòu)。
再比如,在元宇宙的世界中,從元宇宙場(chǎng)景的創(chuàng)建,到個(gè)人自我角色在元宇宙中的內(nèi)容創(chuàng)作,AI繪畫(huà)乃至AIGC都是不可或缺的一項(xiàng)能力,很多專(zhuān)業(yè)人士認(rèn)為,AI繪畫(huà)乃至AIGC與元宇宙的結(jié)合是必然趨勢(shì)。
其實(shí)AI繪畫(huà)能夠落地哪些場(chǎng)景,行業(yè)都有共識(shí),在技術(shù)之外,AI繪畫(huà)平臺(tái)之間競(jìng)爭(zhēng)的焦點(diǎn)則在于成本。
針對(duì)B端市場(chǎng),面向一個(gè)特定行業(yè)時(shí),AI繪畫(huà)要對(duì)相關(guān)模型進(jìn)行大量的專(zhuān)業(yè)訓(xùn)練,其中需要花費(fèi)高額模型訓(xùn)練成本,當(dāng)營(yíng)收無(wú)法覆蓋研發(fā)支出時(shí),其商業(yè)模式也就無(wú)法成立了。
特別是當(dāng)AI繪畫(huà)或?qū)⑷〈鷮?zhuān)業(yè)畫(huà)師時(shí),企業(yè)需要考慮的因素就更多了,兩者之間的成本差是一方面,更重要的是,企業(yè)會(huì)要求AI不但要便宜,還要比人類(lèi)畫(huà)的更好,才會(huì)有動(dòng)力和足夠的理由推動(dòng)變革的進(jìn)行。
03 什么是中國(guó)式AI作畫(huà)該有的樣子?
回到中國(guó)市場(chǎng),在行業(yè)內(nèi)普遍由DALL-E 2和Stable Diffusion等國(guó)外模型唱主角的背景下,如何讓AI繪畫(huà)更好的表達(dá)中國(guó)元素成為一個(gè)不容忽視的問(wèn)題。
為什么要這么說(shuō),我們先來(lái)看看一副AI繪畫(huà)作品是如何產(chǎn)生的。
在盜夢(mèng)師小程序中輸入文本:
沐浴在晨光里;山頂上有中國(guó)式建筑;壯麗的、奇妙的;約翰·豪;山水;湖泊;云;早晨;農(nóng)田;王凌;神話;光效;夢(mèng);格雷格·魯特科夫斯基,虛擬引擎;詹姆斯·格尼;ArtStation
幾秒之后就能生成以下一副作品。
很明顯,模型對(duì)中文語(yǔ)義與中國(guó)文化的理解非常重要,特別是在實(shí)際落地階段,模型如果不能理解具有中國(guó)特色的行業(yè)特點(diǎn),那么AI繪畫(huà)出的產(chǎn)品將很難適用行業(yè)及場(chǎng)景的需求。
對(duì)此,盜夢(mèng)師雖然用的是Stable Diffusion模型,但對(duì)該模型進(jìn)行了中國(guó)本土化的改造,用自己寫(xiě)的follow instruction的方式對(duì)模型進(jìn)行訓(xùn)練,并且加入了大量本地化數(shù)據(jù)。
TIAMAT也認(rèn)為,AI模型的訓(xùn)練過(guò)程其實(shí)和小學(xué)生練習(xí)寫(xiě)作的過(guò)程非常相似,不斷吸收優(yōu)秀作品的寫(xiě)作風(fēng)格、修辭手法,才能最終創(chuàng)作出一篇高分作品,其中采用中國(guó)元素的數(shù)據(jù)資源進(jìn)行訓(xùn)練是極為關(guān)鍵的一環(huán)。
百度發(fā)布的AI繪畫(huà)平臺(tái)文心ERNIE-ViLG 2.0中,則采用了知識(shí)增強(qiáng)算法的混合降噪專(zhuān)家建模。
為了能夠準(zhǔn)確理解用戶(hù)在使用AI繪畫(huà)應(yīng)用時(shí)輸入文字的語(yǔ)義,特別是一些復(fù)雜描述,ERNIE-ViLG 2.0通過(guò)視覺(jué)、語(yǔ)言等多源知識(shí)指引擴(kuò)散模型學(xué)習(xí),強(qiáng)化文圖生成擴(kuò)散模型對(duì)于語(yǔ)義的精確理解。
為了增強(qiáng)AI繪畫(huà)生成作品的精細(xì)度,ERNIE-ViLG 2.0又引入了基于時(shí)間步的混合降噪專(zhuān)家模型來(lái)提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專(zhuān)家”網(wǎng)絡(luò),從而實(shí)現(xiàn)更加細(xì)致的降噪任務(wù)建模,進(jìn)而提升生成圖像的質(zhì)量。
眾所周知,要想提高AI作畫(huà)的能力,特別是對(duì)中文語(yǔ)義和中國(guó)文化的理解,就必須有大量的中文圖文數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,這是一個(gè)極其繁瑣與耗費(fèi)時(shí)間與金錢(qián)的過(guò)程,如果沒(méi)有足夠多的市場(chǎng)需求,一般的AI繪畫(huà)平臺(tái)不會(huì)投入太多資源。
百度不同,它在搜索、AI以及深度學(xué)習(xí)框架等業(yè)務(wù)的研發(fā)中已經(jīng)積累了海量的中文圖文數(shù)據(jù)資源,這些資源可以隨時(shí)調(diào)用,同時(shí)也成為ERNIE-ViLG 2.0的核心競(jìng)爭(zhēng)力,相比其他模型,ERNIE-ViLG 2.0在表達(dá)具有中國(guó)風(fēng)意境的畫(huà)作中表現(xiàn)更為突出。
在某種程度上來(lái)說(shuō),AI作畫(huà)的技術(shù)突破雖然是由美國(guó)帶動(dòng)的,但中國(guó)的跟進(jìn)速度并不慢,演化到現(xiàn)在,AI繪畫(huà)并不是簡(jiǎn)簡(jiǎn)單單的市場(chǎng)開(kāi)拓方面的商業(yè)競(jìng)爭(zhēng),更是關(guān)乎到自主掌控AI關(guān)鍵技術(shù)的競(jìng)爭(zhēng),而其中取勝的關(guān)鍵是技術(shù)研發(fā)過(guò)程中尋找市場(chǎng)的內(nèi)生需求,通過(guò)因地制宜的本土化適配,做好細(xì)分市場(chǎng)和細(xì)分場(chǎng)景的落地。