正在閱讀:

當(dāng)AI懂創(chuàng)作、會畫畫,AIGC爆發(fā)的底層邏輯是什么?

掃一掃下載界面新聞APP

當(dāng)AI懂創(chuàng)作、會畫畫,AIGC爆發(fā)的底層邏輯是什么?

AIGC領(lǐng)域的三重“軍備競賽”。

文|豹變  李鑫

編輯|劉楊

「核心提示」

無論是賣出天價的AI作畫,還是近期風(fēng)靡全球的ChatGPT,都預(yù)示著AIGC(人工智能生成內(nèi)容)賽道將迎來產(chǎn)業(yè)大爆發(fā)。此時,理解AIGC的演進歷程和底層架構(gòu),以及AIGC會帶來哪些改變,將成為觀察產(chǎn)業(yè)趨勢的關(guān)鍵。

未來的藝術(shù)展,會不會變成機器人之間的PK?

這個問題如果問在幾十年前,人們可能會說這是遙遠(yuǎn)的科幻,而在人工智能(AI)一日千里的今天,回答它恐怕需要思考再三。

2018年,一幅由AI創(chuàng)作,名為《埃德蒙·貝拉米畫像》曾在紐約佳士得拍賣行以43.25萬美元的價格被拍下——這是估價的40多倍,成為第一幅被拍賣的人工智能作品。

去年9月,另一幅名為《太空歌劇院》的作品獲得了美國科羅拉多州博覽會藝術(shù)比賽的金獎。令人意外的是,這幅作品并非作者杰森·艾倫親自手繪,而是用AI作畫工具Midjourney完成。

賽后,兩位評委都稱此前并不知道Midjourney是AI工具,但二人隨后也都表示,即使他們知道,同樣也會授予作者最高獎項。這一度引發(fā)AI創(chuàng)作的作品該不該拿來參加比賽的大討論。

不過,如果和最近火遍全球的ChatGPT做對比,AI作畫似乎只是開胃菜。這個能作詩、編懸疑小說、甚至寫代碼的人工智能聊天機器人,上線兩個月便收獲1億用戶,以至于特斯拉CEO馬斯克直言:“ChatGPT非常好,我們離強大到危險的AI不遠(yuǎn)了?!北葼枴どw茨甚至定性ChatGPT的出現(xiàn)“不亞于互聯(lián)網(wǎng)和個人電腦的誕生”。

AI作畫、ChatGPT有什么共性?本質(zhì)上,它們都屬于AIGC的范疇,即人工智能生成內(nèi)容。

AIGC潛力不容小視,根據(jù)Precedence Research預(yù)測,AIGC將在2022年后迎來應(yīng)用的爆發(fā)。預(yù)計市場空間將由2022年的108億美元上漲至2032年的1181億美元,10年的復(fù)合增速高達(dá)27%。

可見,AIGC將會在未來的商業(yè)世界中扮演越來越重要的角色,此時了解其演進歷程和底層邏輯將成為關(guān)鍵。

技術(shù)、需求雙輪驅(qū)動

AIGC看似一夜爆發(fā),實則是多年技術(shù)沉淀的結(jié)果。

1957年,歷史上第一支由計算機創(chuàng)作的音樂作品《依利亞克組曲》誕生,這被看作AIGC故事的起點。

不過,在人工智能發(fā)展初期,受限于種種因素,相關(guān)算法大多基于預(yù)先定義的規(guī)則或者模板,遠(yuǎn)算不上智能。而相關(guān)高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),也讓各國政府紛紛減少在人工智能領(lǐng)域的投入,AIGC 沒有取得顯著進展。

AIGC真正引發(fā)市場關(guān)注,來自近年生成式對抗網(wǎng)絡(luò)(GAN)、Transformer、擴散模型(Diffusion Model)等深度學(xué)習(xí)生成算法相繼涌現(xiàn)。這些生成算法為AI高品質(zhì)輸出內(nèi)容打下基礎(chǔ)。

比如畫出獲獎作品《太空歌劇院》的Midjourney,就參考了CLIP和Diffusion,構(gòu)建了自己的閉源模型。而ChatGPT的底層——AI大模型GPT3.5,底層技術(shù)則是來自2017年谷歌重磅發(fā)布的Transformer。

如果說技術(shù)推動只是AIGC發(fā)展的左腳,那么創(chuàng)新需求的牽引,則是AIGC加速落地的右腳。

隨著用戶對內(nèi)容數(shù)量和質(zhì)量的需求爆增,但傳統(tǒng)的內(nèi)容生產(chǎn)模式在產(chǎn)能和質(zhì)量上,正逐步暴露短板。

內(nèi)容的生產(chǎn)方式可分為三類:偏傳統(tǒng)的專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)、更新穎的人工智能生成內(nèi)容(AIGC)。

PGC內(nèi)容往往制作標(biāo)準(zhǔn)高、工作周期長,但由于供給端人力資源有限,PGC難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求;UGC模式則相反,它滿足了個性化需求且提高了容量上限,但由于其對制作者、生成工具、內(nèi)容話題沒有限制,質(zhì)量無法保證。

AIGC雖然暫時無法替代這兩種內(nèi)容生產(chǎn)模式,但能對兩種生產(chǎn)方式起到優(yōu)化作用。借助AIGC,創(chuàng)作者一方面能夠通過持續(xù)深度學(xué)習(xí)提升內(nèi)容的專業(yè)性;另一方面AI也能輔助專業(yè)創(chuàng)作者,提升創(chuàng)作效率。

在文本領(lǐng)域,騰訊打造的“夢幻寫手”的新聞寫作系統(tǒng)能夠在規(guī)定的22種場景中進行寫作,具有0.46秒的平均發(fā)稿速度;在音頻領(lǐng)域,風(fēng)險投資機構(gòu)a16z曾透露,Siri聯(lián)合創(chuàng)始人Tom Gruber目前已經(jīng)打造了能夠?qū)崟r動態(tài)編曲的自適應(yīng)音樂平臺LifeScore。用戶只需向LifeScore輸入一系列的音樂“原材料“,AI就會改編并實時混音,帶來音樂表演。

隨著AIGC時代來臨,商業(yè)世界的變化遠(yuǎn)不止于此。

如何打出新型“閃電戰(zhàn)”?

眾所周知,英國人發(fā)明了坦克,但德國人發(fā)明了基于坦克的閃電戰(zhàn)。

一項新技術(shù)、工具誕生后,誰能將其用到極致,誰越能占據(jù)主動。

本輪生產(chǎn)力革命的受益者,或許不只是AIGC技術(shù)的發(fā)明人,更是把AIGC技術(shù)用到極致,進行模式創(chuàng)新的先行者。正如當(dāng)年的互聯(lián)網(wǎng),以瀏覽器為起點,后續(xù)衍生出了社交網(wǎng)絡(luò)、電商、視頻、游戲等一系列更具想象空間的新模式。

在電商行業(yè),AIGC正試圖降低商家和用戶間的交易成本。

2021年4月,阿里巴巴上線了3D版天貓家裝城。對于商家,天貓幫助其快速構(gòu)建3D購物空間;對于消費者,3D版天貓家裝城支持消費者自己動手做家裝搭配,消費者可以沉浸式體驗“云逛街”。

數(shù)據(jù)顯示,3D購物的轉(zhuǎn)化率平均值為70%,較行業(yè)平均水平提升了9倍,同比正常引導(dǎo)成交客單價提升超200%,同時商品退換貨率明顯降低。

再比如在金融行業(yè),AIGC正幫助企業(yè)不斷增強品牌粘性。

2022年年初,商湯科技為寧波銀行上海分行專屬打造了001號數(shù)字人員工“小寧”,這位數(shù)字人化身大堂經(jīng)理為日??蛻籼峁└黝悩I(yè)務(wù)咨詢和服務(wù)辦理。

去年12月16日,“小寧”主持了一場虛實結(jié)合、打破次元壁的線上直播活動?;顒又?,“小寧”可以幽默介紹自己的工作內(nèi)容,并向網(wǎng)友推薦寧波銀行的多種金融產(chǎn)品和優(yōu)惠福利。從粉絲互動到直播帶貨,商湯數(shù)字人“虛擬IP”可以自主直播運營,用更低的業(yè)務(wù)運營成本為企業(yè)前端帶來全天候的“用戶觸達(dá)”。

數(shù)字人商業(yè)潛力巨大。根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報告》的預(yù)測,到2030年,中國虛擬人整體市場規(guī)模將達(dá)到2700億元人民幣。從商業(yè)模式上看,虛擬數(shù)字人的客單價相對更高。

小冰CEO李笛在接受采訪時曾表示,之前他們嘗試銷售終端內(nèi)容時,只能按劑量去銷售,形成的是類似菜市場一樣的內(nèi)容市場,單價非常低?!昂髞?,我們把生成的能力捆綁在數(shù)字人身上,平均客單價迅速從20萬提高到了300萬。”

目前,隨著以ChatGPT為代表的自然語言技術(shù)(NLP)再一次在單點取得突破,進一步降低AI的使用和觸達(dá)門檻,AIGC的商業(yè)化表現(xiàn)不俗。

2021年成立的Jasper,通過其文字生成功能,用戶可以生成社交媒體標(biāo)題,編寫短視頻腳本、廣告營銷文本、電子郵件內(nèi)容等工作。成立當(dāng)年,Jasper就擁有7萬多名客戶,其中不乏Airbnb、IBM等知名企業(yè)。2021年一年便創(chuàng)造了4000萬美元的收入,2022年預(yù)估收入為7500萬美元。 

這些數(shù)字充分展示了AIGC產(chǎn)業(yè)不俗的商業(yè)化落地速度和效果。隨著自然語言技術(shù)、計算機視覺技術(shù)和AIGC生成算法的不斷發(fā)展和優(yōu)化,AIGC產(chǎn)業(yè)的商業(yè)化應(yīng)用將會更加廣泛和深入。這些應(yīng)用不僅可以幫助企業(yè)提高效率、降低成本、提升競爭力,也可以為用戶提供更加個性化、智能化的服務(wù)和體驗。

AIGC掀起“三大軍備競賽” 

AIGC的爆發(fā),正吸引知名投資機構(gòu)圍觀。

去年9月,紅杉美國發(fā)表《生成式Al:一個創(chuàng)造性的新世界》,核心觀點認(rèn)為AIGC將成為眾多產(chǎn)業(yè)新一輪范式轉(zhuǎn)移的開始。

在文章結(jié)尾,作者憧憬,如果技術(shù)繼續(xù)沿著當(dāng)下的變化速度發(fā)展,那么AI自己寫備忘錄、將文字輕松轉(zhuǎn)變?yōu)槠た怂闺娪暗目苹梦磥?,將不再遙遠(yuǎn)。

紅杉的預(yù)測是不是空想?事實上,目前AIGC領(lǐng)域逐步掀起的三重“軍備競賽”,正加速讓理想照進現(xiàn)實。

第一重軍備賽,來自更大的模型,它讓AIGC更會表達(dá)。

大模型之所以重要,是因為AIGC生成的文本、圖像、音頻等多模態(tài)內(nèi)容,結(jié)構(gòu)和語義相對復(fù)雜,要想生成高質(zhì)量內(nèi)容,需要模型具備強大的學(xué)習(xí)和表達(dá)能力。此時,大模型具有更多參數(shù)、更深網(wǎng)絡(luò)結(jié)構(gòu)、更豐富學(xué)習(xí)數(shù)據(jù)的特點,可以更好地擬合和表達(dá)生成任務(wù)的模式和特征,在AIGC中發(fā)揮其獨特優(yōu)勢,實現(xiàn)高質(zhì)量的內(nèi)容生成。

比如在自然語義處理(NLP)領(lǐng)域,龍頭公司OpenAI在2022年開發(fā)的ChatGPT的底層大模型GPT-3.5,就包含1750億的參數(shù),且調(diào)用了8000億個單詞(相當(dāng)于1351萬本牛津詞典)的訓(xùn)練數(shù)據(jù)。這千億參數(shù),海量學(xué)習(xí)數(shù)據(jù),也讓ChatGPT應(yīng)對不少問題能對答如流,正常得不像個機器。

在計算機視覺領(lǐng)域,國內(nèi)人工智能龍頭企業(yè)商湯科技的視覺大模型同樣布局深厚。2021年商湯推出一套名為SenseCore AI大裝置的人工智能基礎(chǔ)設(shè)施,這套裝置同時布局模型層、平臺層、算力層,能夠低成本、大規(guī)模生產(chǎn)人工智能模型。

基于這套大裝置,商湯開發(fā)的視覺大模型,參數(shù)已達(dá)到320億,是基于公開信息可查的計算機視覺中,具有最大參數(shù)量的模型。

之所以視覺大模型的參數(shù)量少于語言大模型,主要是由于相比語言文字,可用于訓(xùn)練的視覺數(shù)據(jù)信息維度相對偏少,而且受到此前計算機硬件的限制,計算機視覺技術(shù)的發(fā)展和自然語言處理技術(shù)存在數(shù)十年差距。但隨著數(shù)據(jù)量和計算能力的增加,視覺大模型在未來幾年內(nèi)將有顯著發(fā)展。

打造領(lǐng)先的大模型,除了取決于先進的算法,還取決于豐富的產(chǎn)業(yè)實踐經(jīng)驗。因為只有基于大量應(yīng)用實踐,企業(yè)才能構(gòu)建泛化性能更好、通用性更強的大模型。

自2016年起,商湯科技開始全面布局AIGC包括文字、語音、圖像、視頻、代碼、三維人物動作等多模態(tài)的數(shù)據(jù)分析和內(nèi)容生產(chǎn)。這些豐富的應(yīng)用實踐,不但促進了商湯AIGC大模型的研發(fā),也反過來促進多模態(tài)內(nèi)容的生產(chǎn),彼此形成正循環(huán)。

大模型之外,第二重軍備賽點,來自更高的算力。

大算力,一方面可以支持更復(fù)雜的模型和更大規(guī)模的數(shù)據(jù)訓(xùn)練,提高AIGC生成內(nèi)容的質(zhì)量和多樣性;另一方面可以提高AIGC生成內(nèi)容的生產(chǎn)效率和速度,支持實時生成和個性化定制。

不過,獲得大算力,需要支付高昂的成本,一般的小企業(yè)無法負(fù)擔(dān)。

《財經(jīng)十一人》曾測算,如果某企業(yè)想以1萬枚英偉達(dá)A800 GPU為基準(zhǔn)構(gòu)建智能算力集群,每枚GPU價格10萬元,那么僅GPU的采購成本就高達(dá)10億元。再考慮到服務(wù)器采購成本通常占據(jù)數(shù)據(jù)中心建設(shè)成本的30%,構(gòu)建一個智能算力集群的建設(shè)成本將超過30億元。

高昂的成本,也使得全國算力網(wǎng)絡(luò)的建設(shè),只有政府和產(chǎn)業(yè)資深行業(yè)玩家才能參與。2022年5月,西南地區(qū)最大的人工智能計算中心——成都智算中心正式上線。

這座智算中心由成都高新區(qū)、郫都區(qū)與華為公司共同建設(shè)運營,總投資高達(dá)109億元。其中,人工智能算力平臺采用基于華為昇騰AI基礎(chǔ)軟硬件的AI集群,算力達(dá)到300 PFLOPS(每秒30億億次浮點運算),相當(dāng)于15萬臺高性能PC的計算能力。

在上海,作為商湯科技SenseCore AI大裝置的底座,全新啟用的商湯臨港人工智能智算中心(AIDC)目前上線了1.745 EFLOPS(每秒174.5億億次浮點運算)的算力規(guī)模,并獲得強勁的市場需求。

截至2022年8月,上海臨港AIDC對外服務(wù)算力已突破1 EFLOPS。為算法模型的分析、低成本訓(xùn)練、大規(guī)模數(shù)據(jù)管理提供支撐。

不過,雖然AIGC可以輔助提高內(nèi)容的創(chuàng)作效率,甚至改變內(nèi)容的創(chuàng)作模式,但這項技術(shù)仍會讓設(shè)計、文案等非行業(yè)人士感覺高高在上。此時,只有更細(xì)化地打造出面向各個行業(yè)的垂直型AIGC工具,才能真正實現(xiàn)行業(yè)的革新。

這也使得產(chǎn)業(yè)玩家要想脫穎而出,需要打贏第三軍備競賽點——讓應(yīng)用門檻更低,讓AIGC應(yīng)用更普惠。

目前Open AI近期已宣布開放ChatGPT和語音轉(zhuǎn)文本模型Whisper模型API(應(yīng)用接口),開發(fā)人員可以通過API將ChatGPT和Whisper模型集成到自己的應(yīng)用程序和服務(wù)中,并由此訪問到最前沿的語言以及語音到文本功能。

通過一系列全面優(yōu)化,自去年12月以來,OpenAI也已成功將ChatGPT的使用成本降低了90%;谷歌的AutoDraw應(yīng)用程序,可以幫助用戶自動將簡筆畫轉(zhuǎn)換為專業(yè)的矢量圖形,省去了用戶自己做圖的麻煩;

商湯科技則在近日發(fā)布了擁有30億參數(shù)的多模態(tài)多任務(wù)通用大模型“書生(INTERN)2.5”,并在GitHub上的商湯通用視覺開源平臺OpenGVLab中開源?!皶↖NTERN)2.5”在多模態(tài)多任務(wù)處理能力方面有多項突破,將視覺、語音及多任務(wù)建模三個模型能力有效融合,其圖文跨模態(tài)開放任務(wù)處理能力可為自動駕駛、機器人等通用場景任務(wù)提供高效精準(zhǔn)的感知和理解能力支持。

利用多模態(tài)多任務(wù)通用大模型輔助完成自動駕駛場景中各類復(fù)雜任務(wù)

“書生(INTERN)2.5”是商湯科技向通用人工智能(AGI)邁出的堅實一步,已建立起AGI模型的研發(fā)架構(gòu),憑借在計算機視覺方面的積累,其視覺能力在全球處于領(lǐng)先位置,語言能力仍在增強,相信在這一競賽中后續(xù)會推出更大、更強的AGI模型。

AIGC規(guī)模化落地后,各行各業(yè)將產(chǎn)生怎樣的變化?在近期召開的“2023全球人工智能開發(fā)者先鋒大會”上,商湯科技CEO徐立提出了一個“新二八定律”。

他表示,過去傳統(tǒng)行業(yè)的二八定律,是機器20%的指令/代碼解決80%的事情,企業(yè)會把部分能力抽象出來,變成各種庫、編譯包,所以20%的工作是自動化的,剩下的80%由人來定制。

“但是當(dāng)有了生成式AI,我們將迎來‘新二八定律’,即80%的工作由機器完成,20%的工作才由人來做?;P屯苿拥男袠I(yè)領(lǐng)域的變化,再推動行業(yè)應(yīng)用的迭代,這套流程可能成為未來標(biāo)準(zhǔn)化的生產(chǎn)流程?!?/p>

寫在最后

有關(guān)技術(shù)如何在社會中擴散?演化經(jīng)濟學(xué)家卡蘿塔·佩蕾絲在其《技術(shù)革命與金融資本》一書中總結(jié)道,每一輪技術(shù)革命都會經(jīng)歷兩期、四階段:導(dǎo)入期(爆發(fā)階段、狂熱階段)和展開期(協(xié)同階段、成熟階段)。

在導(dǎo)入期,新技術(shù)會被引入少數(shù)行業(yè)做示范,然后大量熱錢會在此時涌入。而一旦導(dǎo)入期示范效果好,新技術(shù)就會進入大規(guī)模應(yīng)用時期,也叫展開期。

展開期建立在技術(shù)和制度框架彼此協(xié)調(diào)的基礎(chǔ)上,是一個相對穩(wěn)定而繁榮的發(fā)展時期。許多國家會在展開期達(dá)到高就業(yè)水平。因此,人們往往將展開期看作“黃金時代”或“美好年代”。

回看當(dāng)下,近幾年智能駕駛、智能監(jiān)控、AIGC產(chǎn)業(yè)等AI細(xì)分賽道的持續(xù)爆發(fā),其示范效應(yīng)或?qū)⑼苿尤斯ぶ悄墚a(chǎn)業(yè)整體逐步從導(dǎo)入期進入展開期。

而隨著ChatGPT等應(yīng)用的橫空出世,我們也會發(fā)現(xiàn),AI產(chǎn)業(yè)的演進已誕生更明確的方向,即通過大模型結(jié)合大算力實現(xiàn)通用型AI,讓非資深的企業(yè)和個人也能享受到技術(shù)進步。此時,誰能提前深度布局大模型以及配套強算力,誰將構(gòu)筑更高的壁壘,更早收獲產(chǎn)業(yè)紅利。

你覺得哪一行更容易獲得AI紅利?

 

來源:藍(lán)鯨

原標(biāo)題:當(dāng)AI懂創(chuàng)作、會畫畫,AIGC爆發(fā)的底層邏輯是什么?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

當(dāng)AI懂創(chuàng)作、會畫畫,AIGC爆發(fā)的底層邏輯是什么?

AIGC領(lǐng)域的三重“軍備競賽”。

文|豹變  李鑫

編輯|劉楊

「核心提示」

無論是賣出天價的AI作畫,還是近期風(fēng)靡全球的ChatGPT,都預(yù)示著AIGC(人工智能生成內(nèi)容)賽道將迎來產(chǎn)業(yè)大爆發(fā)。此時,理解AIGC的演進歷程和底層架構(gòu),以及AIGC會帶來哪些改變,將成為觀察產(chǎn)業(yè)趨勢的關(guān)鍵。

未來的藝術(shù)展,會不會變成機器人之間的PK?

這個問題如果問在幾十年前,人們可能會說這是遙遠(yuǎn)的科幻,而在人工智能(AI)一日千里的今天,回答它恐怕需要思考再三。

2018年,一幅由AI創(chuàng)作,名為《埃德蒙·貝拉米畫像》曾在紐約佳士得拍賣行以43.25萬美元的價格被拍下——這是估價的40多倍,成為第一幅被拍賣的人工智能作品。

去年9月,另一幅名為《太空歌劇院》的作品獲得了美國科羅拉多州博覽會藝術(shù)比賽的金獎。令人意外的是,這幅作品并非作者杰森·艾倫親自手繪,而是用AI作畫工具Midjourney完成。

賽后,兩位評委都稱此前并不知道Midjourney是AI工具,但二人隨后也都表示,即使他們知道,同樣也會授予作者最高獎項。這一度引發(fā)AI創(chuàng)作的作品該不該拿來參加比賽的大討論。

不過,如果和最近火遍全球的ChatGPT做對比,AI作畫似乎只是開胃菜。這個能作詩、編懸疑小說、甚至寫代碼的人工智能聊天機器人,上線兩個月便收獲1億用戶,以至于特斯拉CEO馬斯克直言:“ChatGPT非常好,我們離強大到危險的AI不遠(yuǎn)了。”比爾·蓋茨甚至定性ChatGPT的出現(xiàn)“不亞于互聯(lián)網(wǎng)和個人電腦的誕生”。

AI作畫、ChatGPT有什么共性?本質(zhì)上,它們都屬于AIGC的范疇,即人工智能生成內(nèi)容。

AIGC潛力不容小視,根據(jù)Precedence Research預(yù)測,AIGC將在2022年后迎來應(yīng)用的爆發(fā)。預(yù)計市場空間將由2022年的108億美元上漲至2032年的1181億美元,10年的復(fù)合增速高達(dá)27%。

可見,AIGC將會在未來的商業(yè)世界中扮演越來越重要的角色,此時了解其演進歷程和底層邏輯將成為關(guān)鍵。

技術(shù)、需求雙輪驅(qū)動

AIGC看似一夜爆發(fā),實則是多年技術(shù)沉淀的結(jié)果。

1957年,歷史上第一支由計算機創(chuàng)作的音樂作品《依利亞克組曲》誕生,這被看作AIGC故事的起點。

不過,在人工智能發(fā)展初期,受限于種種因素,相關(guān)算法大多基于預(yù)先定義的規(guī)則或者模板,遠(yuǎn)算不上智能。而相關(guān)高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),也讓各國政府紛紛減少在人工智能領(lǐng)域的投入,AIGC 沒有取得顯著進展。

AIGC真正引發(fā)市場關(guān)注,來自近年生成式對抗網(wǎng)絡(luò)(GAN)、Transformer、擴散模型(Diffusion Model)等深度學(xué)習(xí)生成算法相繼涌現(xiàn)。這些生成算法為AI高品質(zhì)輸出內(nèi)容打下基礎(chǔ)。

比如畫出獲獎作品《太空歌劇院》的Midjourney,就參考了CLIP和Diffusion,構(gòu)建了自己的閉源模型。而ChatGPT的底層——AI大模型GPT3.5,底層技術(shù)則是來自2017年谷歌重磅發(fā)布的Transformer。

如果說技術(shù)推動只是AIGC發(fā)展的左腳,那么創(chuàng)新需求的牽引,則是AIGC加速落地的右腳。

隨著用戶對內(nèi)容數(shù)量和質(zhì)量的需求爆增,但傳統(tǒng)的內(nèi)容生產(chǎn)模式在產(chǎn)能和質(zhì)量上,正逐步暴露短板。

內(nèi)容的生產(chǎn)方式可分為三類:偏傳統(tǒng)的專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)、更新穎的人工智能生成內(nèi)容(AIGC)。

PGC內(nèi)容往往制作標(biāo)準(zhǔn)高、工作周期長,但由于供給端人力資源有限,PGC難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求;UGC模式則相反,它滿足了個性化需求且提高了容量上限,但由于其對制作者、生成工具、內(nèi)容話題沒有限制,質(zhì)量無法保證。

AIGC雖然暫時無法替代這兩種內(nèi)容生產(chǎn)模式,但能對兩種生產(chǎn)方式起到優(yōu)化作用。借助AIGC,創(chuàng)作者一方面能夠通過持續(xù)深度學(xué)習(xí)提升內(nèi)容的專業(yè)性;另一方面AI也能輔助專業(yè)創(chuàng)作者,提升創(chuàng)作效率。

在文本領(lǐng)域,騰訊打造的“夢幻寫手”的新聞寫作系統(tǒng)能夠在規(guī)定的22種場景中進行寫作,具有0.46秒的平均發(fā)稿速度;在音頻領(lǐng)域,風(fēng)險投資機構(gòu)a16z曾透露,Siri聯(lián)合創(chuàng)始人Tom Gruber目前已經(jīng)打造了能夠?qū)崟r動態(tài)編曲的自適應(yīng)音樂平臺LifeScore。用戶只需向LifeScore輸入一系列的音樂“原材料“,AI就會改編并實時混音,帶來音樂表演。

隨著AIGC時代來臨,商業(yè)世界的變化遠(yuǎn)不止于此。

如何打出新型“閃電戰(zhàn)”?

眾所周知,英國人發(fā)明了坦克,但德國人發(fā)明了基于坦克的閃電戰(zhàn)。

一項新技術(shù)、工具誕生后,誰能將其用到極致,誰越能占據(jù)主動。

本輪生產(chǎn)力革命的受益者,或許不只是AIGC技術(shù)的發(fā)明人,更是把AIGC技術(shù)用到極致,進行模式創(chuàng)新的先行者。正如當(dāng)年的互聯(lián)網(wǎng),以瀏覽器為起點,后續(xù)衍生出了社交網(wǎng)絡(luò)、電商、視頻、游戲等一系列更具想象空間的新模式。

在電商行業(yè),AIGC正試圖降低商家和用戶間的交易成本。

2021年4月,阿里巴巴上線了3D版天貓家裝城。對于商家,天貓幫助其快速構(gòu)建3D購物空間;對于消費者,3D版天貓家裝城支持消費者自己動手做家裝搭配,消費者可以沉浸式體驗“云逛街”。

數(shù)據(jù)顯示,3D購物的轉(zhuǎn)化率平均值為70%,較行業(yè)平均水平提升了9倍,同比正常引導(dǎo)成交客單價提升超200%,同時商品退換貨率明顯降低。

再比如在金融行業(yè),AIGC正幫助企業(yè)不斷增強品牌粘性。

2022年年初,商湯科技為寧波銀行上海分行專屬打造了001號數(shù)字人員工“小寧”,這位數(shù)字人化身大堂經(jīng)理為日??蛻籼峁└黝悩I(yè)務(wù)咨詢和服務(wù)辦理。

去年12月16日,“小寧”主持了一場虛實結(jié)合、打破次元壁的線上直播活動?;顒又?,“小寧”可以幽默介紹自己的工作內(nèi)容,并向網(wǎng)友推薦寧波銀行的多種金融產(chǎn)品和優(yōu)惠福利。從粉絲互動到直播帶貨,商湯數(shù)字人“虛擬IP”可以自主直播運營,用更低的業(yè)務(wù)運營成本為企業(yè)前端帶來全天候的“用戶觸達(dá)”。

數(shù)字人商業(yè)潛力巨大。根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報告》的預(yù)測,到2030年,中國虛擬人整體市場規(guī)模將達(dá)到2700億元人民幣。從商業(yè)模式上看,虛擬數(shù)字人的客單價相對更高。

小冰CEO李笛在接受采訪時曾表示,之前他們嘗試銷售終端內(nèi)容時,只能按劑量去銷售,形成的是類似菜市場一樣的內(nèi)容市場,單價非常低。“后來,我們把生成的能力捆綁在數(shù)字人身上,平均客單價迅速從20萬提高到了300萬?!?/p>

目前,隨著以ChatGPT為代表的自然語言技術(shù)(NLP)再一次在單點取得突破,進一步降低AI的使用和觸達(dá)門檻,AIGC的商業(yè)化表現(xiàn)不俗。

2021年成立的Jasper,通過其文字生成功能,用戶可以生成社交媒體標(biāo)題,編寫短視頻腳本、廣告營銷文本、電子郵件內(nèi)容等工作。成立當(dāng)年,Jasper就擁有7萬多名客戶,其中不乏Airbnb、IBM等知名企業(yè)。2021年一年便創(chuàng)造了4000萬美元的收入,2022年預(yù)估收入為7500萬美元。 

這些數(shù)字充分展示了AIGC產(chǎn)業(yè)不俗的商業(yè)化落地速度和效果。隨著自然語言技術(shù)、計算機視覺技術(shù)和AIGC生成算法的不斷發(fā)展和優(yōu)化,AIGC產(chǎn)業(yè)的商業(yè)化應(yīng)用將會更加廣泛和深入。這些應(yīng)用不僅可以幫助企業(yè)提高效率、降低成本、提升競爭力,也可以為用戶提供更加個性化、智能化的服務(wù)和體驗。

AIGC掀起“三大軍備競賽” 

AIGC的爆發(fā),正吸引知名投資機構(gòu)圍觀。

去年9月,紅杉美國發(fā)表《生成式Al:一個創(chuàng)造性的新世界》,核心觀點認(rèn)為AIGC將成為眾多產(chǎn)業(yè)新一輪范式轉(zhuǎn)移的開始。

在文章結(jié)尾,作者憧憬,如果技術(shù)繼續(xù)沿著當(dāng)下的變化速度發(fā)展,那么AI自己寫備忘錄、將文字輕松轉(zhuǎn)變?yōu)槠た怂闺娪暗目苹梦磥?,將不再遙遠(yuǎn)。

紅杉的預(yù)測是不是空想?事實上,目前AIGC領(lǐng)域逐步掀起的三重“軍備競賽”,正加速讓理想照進現(xiàn)實。

第一重軍備賽,來自更大的模型,它讓AIGC更會表達(dá)。

大模型之所以重要,是因為AIGC生成的文本、圖像、音頻等多模態(tài)內(nèi)容,結(jié)構(gòu)和語義相對復(fù)雜,要想生成高質(zhì)量內(nèi)容,需要模型具備強大的學(xué)習(xí)和表達(dá)能力。此時,大模型具有更多參數(shù)、更深網(wǎng)絡(luò)結(jié)構(gòu)、更豐富學(xué)習(xí)數(shù)據(jù)的特點,可以更好地擬合和表達(dá)生成任務(wù)的模式和特征,在AIGC中發(fā)揮其獨特優(yōu)勢,實現(xiàn)高質(zhì)量的內(nèi)容生成。

比如在自然語義處理(NLP)領(lǐng)域,龍頭公司OpenAI在2022年開發(fā)的ChatGPT的底層大模型GPT-3.5,就包含1750億的參數(shù),且調(diào)用了8000億個單詞(相當(dāng)于1351萬本牛津詞典)的訓(xùn)練數(shù)據(jù)。這千億參數(shù),海量學(xué)習(xí)數(shù)據(jù),也讓ChatGPT應(yīng)對不少問題能對答如流,正常得不像個機器。

在計算機視覺領(lǐng)域,國內(nèi)人工智能龍頭企業(yè)商湯科技的視覺大模型同樣布局深厚。2021年商湯推出一套名為SenseCore AI大裝置的人工智能基礎(chǔ)設(shè)施,這套裝置同時布局模型層、平臺層、算力層,能夠低成本、大規(guī)模生產(chǎn)人工智能模型。

基于這套大裝置,商湯開發(fā)的視覺大模型,參數(shù)已達(dá)到320億,是基于公開信息可查的計算機視覺中,具有最大參數(shù)量的模型。

之所以視覺大模型的參數(shù)量少于語言大模型,主要是由于相比語言文字,可用于訓(xùn)練的視覺數(shù)據(jù)信息維度相對偏少,而且受到此前計算機硬件的限制,計算機視覺技術(shù)的發(fā)展和自然語言處理技術(shù)存在數(shù)十年差距。但隨著數(shù)據(jù)量和計算能力的增加,視覺大模型在未來幾年內(nèi)將有顯著發(fā)展。

打造領(lǐng)先的大模型,除了取決于先進的算法,還取決于豐富的產(chǎn)業(yè)實踐經(jīng)驗。因為只有基于大量應(yīng)用實踐,企業(yè)才能構(gòu)建泛化性能更好、通用性更強的大模型。

自2016年起,商湯科技開始全面布局AIGC包括文字、語音、圖像、視頻、代碼、三維人物動作等多模態(tài)的數(shù)據(jù)分析和內(nèi)容生產(chǎn)。這些豐富的應(yīng)用實踐,不但促進了商湯AIGC大模型的研發(fā),也反過來促進多模態(tài)內(nèi)容的生產(chǎn),彼此形成正循環(huán)。

大模型之外,第二重軍備賽點,來自更高的算力。

大算力,一方面可以支持更復(fù)雜的模型和更大規(guī)模的數(shù)據(jù)訓(xùn)練,提高AIGC生成內(nèi)容的質(zhì)量和多樣性;另一方面可以提高AIGC生成內(nèi)容的生產(chǎn)效率和速度,支持實時生成和個性化定制。

不過,獲得大算力,需要支付高昂的成本,一般的小企業(yè)無法負(fù)擔(dān)。

《財經(jīng)十一人》曾測算,如果某企業(yè)想以1萬枚英偉達(dá)A800 GPU為基準(zhǔn)構(gòu)建智能算力集群,每枚GPU價格10萬元,那么僅GPU的采購成本就高達(dá)10億元。再考慮到服務(wù)器采購成本通常占據(jù)數(shù)據(jù)中心建設(shè)成本的30%,構(gòu)建一個智能算力集群的建設(shè)成本將超過30億元。

高昂的成本,也使得全國算力網(wǎng)絡(luò)的建設(shè),只有政府和產(chǎn)業(yè)資深行業(yè)玩家才能參與。2022年5月,西南地區(qū)最大的人工智能計算中心——成都智算中心正式上線。

這座智算中心由成都高新區(qū)、郫都區(qū)與華為公司共同建設(shè)運營,總投資高達(dá)109億元。其中,人工智能算力平臺采用基于華為昇騰AI基礎(chǔ)軟硬件的AI集群,算力達(dá)到300 PFLOPS(每秒30億億次浮點運算),相當(dāng)于15萬臺高性能PC的計算能力。

在上海,作為商湯科技SenseCore AI大裝置的底座,全新啟用的商湯臨港人工智能智算中心(AIDC)目前上線了1.745 EFLOPS(每秒174.5億億次浮點運算)的算力規(guī)模,并獲得強勁的市場需求。

截至2022年8月,上海臨港AIDC對外服務(wù)算力已突破1 EFLOPS。為算法模型的分析、低成本訓(xùn)練、大規(guī)模數(shù)據(jù)管理提供支撐。

不過,雖然AIGC可以輔助提高內(nèi)容的創(chuàng)作效率,甚至改變內(nèi)容的創(chuàng)作模式,但這項技術(shù)仍會讓設(shè)計、文案等非行業(yè)人士感覺高高在上。此時,只有更細(xì)化地打造出面向各個行業(yè)的垂直型AIGC工具,才能真正實現(xiàn)行業(yè)的革新。

這也使得產(chǎn)業(yè)玩家要想脫穎而出,需要打贏第三軍備競賽點——讓應(yīng)用門檻更低,讓AIGC應(yīng)用更普惠。

目前Open AI近期已宣布開放ChatGPT和語音轉(zhuǎn)文本模型Whisper模型API(應(yīng)用接口),開發(fā)人員可以通過API將ChatGPT和Whisper模型集成到自己的應(yīng)用程序和服務(wù)中,并由此訪問到最前沿的語言以及語音到文本功能。

通過一系列全面優(yōu)化,自去年12月以來,OpenAI也已成功將ChatGPT的使用成本降低了90%;谷歌的AutoDraw應(yīng)用程序,可以幫助用戶自動將簡筆畫轉(zhuǎn)換為專業(yè)的矢量圖形,省去了用戶自己做圖的麻煩;

商湯科技則在近日發(fā)布了擁有30億參數(shù)的多模態(tài)多任務(wù)通用大模型“書生(INTERN)2.5”,并在GitHub上的商湯通用視覺開源平臺OpenGVLab中開源?!皶↖NTERN)2.5”在多模態(tài)多任務(wù)處理能力方面有多項突破,將視覺、語音及多任務(wù)建模三個模型能力有效融合,其圖文跨模態(tài)開放任務(wù)處理能力可為自動駕駛、機器人等通用場景任務(wù)提供高效精準(zhǔn)的感知和理解能力支持。

利用多模態(tài)多任務(wù)通用大模型輔助完成自動駕駛場景中各類復(fù)雜任務(wù)

“書生(INTERN)2.5”是商湯科技向通用人工智能(AGI)邁出的堅實一步,已建立起AGI模型的研發(fā)架構(gòu),憑借在計算機視覺方面的積累,其視覺能力在全球處于領(lǐng)先位置,語言能力仍在增強,相信在這一競賽中后續(xù)會推出更大、更強的AGI模型。

AIGC規(guī)?;涞睾螅餍懈鳂I(yè)將產(chǎn)生怎樣的變化?在近期召開的“2023全球人工智能開發(fā)者先鋒大會”上,商湯科技CEO徐立提出了一個“新二八定律”。

他表示,過去傳統(tǒng)行業(yè)的二八定律,是機器20%的指令/代碼解決80%的事情,企業(yè)會把部分能力抽象出來,變成各種庫、編譯包,所以20%的工作是自動化的,剩下的80%由人來定制。

“但是當(dāng)有了生成式AI,我們將迎來‘新二八定律’,即80%的工作由機器完成,20%的工作才由人來做?;P屯苿拥男袠I(yè)領(lǐng)域的變化,再推動行業(yè)應(yīng)用的迭代,這套流程可能成為未來標(biāo)準(zhǔn)化的生產(chǎn)流程?!?/p>

寫在最后

有關(guān)技術(shù)如何在社會中擴散?演化經(jīng)濟學(xué)家卡蘿塔·佩蕾絲在其《技術(shù)革命與金融資本》一書中總結(jié)道,每一輪技術(shù)革命都會經(jīng)歷兩期、四階段:導(dǎo)入期(爆發(fā)階段、狂熱階段)和展開期(協(xié)同階段、成熟階段)。

在導(dǎo)入期,新技術(shù)會被引入少數(shù)行業(yè)做示范,然后大量熱錢會在此時涌入。而一旦導(dǎo)入期示范效果好,新技術(shù)就會進入大規(guī)模應(yīng)用時期,也叫展開期。

展開期建立在技術(shù)和制度框架彼此協(xié)調(diào)的基礎(chǔ)上,是一個相對穩(wěn)定而繁榮的發(fā)展時期。許多國家會在展開期達(dá)到高就業(yè)水平。因此,人們往往將展開期看作“黃金時代”或“美好年代”。

回看當(dāng)下,近幾年智能駕駛、智能監(jiān)控、AIGC產(chǎn)業(yè)等AI細(xì)分賽道的持續(xù)爆發(fā),其示范效應(yīng)或?qū)⑼苿尤斯ぶ悄墚a(chǎn)業(yè)整體逐步從導(dǎo)入期進入展開期。

而隨著ChatGPT等應(yīng)用的橫空出世,我們也會發(fā)現(xiàn),AI產(chǎn)業(yè)的演進已誕生更明確的方向,即通過大模型結(jié)合大算力實現(xiàn)通用型AI,讓非資深的企業(yè)和個人也能享受到技術(shù)進步。此時,誰能提前深度布局大模型以及配套強算力,誰將構(gòu)筑更高的壁壘,更早收獲產(chǎn)業(yè)紅利。

你覺得哪一行更容易獲得AI紅利?

 

來源:藍(lán)鯨

原標(biāo)題:當(dāng)AI懂創(chuàng)作、會畫畫,AIGC爆發(fā)的底層邏輯是什么?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。