正在閱讀:

專訪昆侖萬(wàn)維CEO方漢:國(guó)產(chǎn)大模型的差距不在算力或數(shù)據(jù),在于工程經(jīng)驗(yàn)

掃一掃下載界面新聞APP

專訪昆侖萬(wàn)維CEO方漢:國(guó)產(chǎn)大模型的差距不在算力或數(shù)據(jù),在于工程經(jīng)驗(yàn)

方漢認(rèn)為,各家目前搶發(fā)大模型還是在追求“大力出奇跡”,但工程上的技巧和經(jīng)驗(yàn)才是大模型競(jìng)爭(zhēng)的主要因素,比拼的是做實(shí)驗(yàn)的速度和人才的厚度。

昆侖萬(wàn)維CEO方漢 圖片來(lái)源:昆侖萬(wàn)維

界面新聞?dòng)浾?| 李彪

接力OpenAI、微軟的重磅產(chǎn)品轟炸,國(guó)產(chǎn)大模型在四月開(kāi)啟了“鳴槍沖刺”。

4月17日,昆侖萬(wàn)維(300418.SZ)旗下“天工3.5”類GPT大模型正式啟動(dòng)邀請(qǐng)測(cè)試。按照官方說(shuō)法,天工大模型參數(shù)規(guī)模達(dá)千億級(jí),名字中的“3.5”源于“ ChatGPT基于GPT3.5大模型 ”,代表“天工大模型已經(jīng)非常接近OpenAI ChatGPT的智能水平 ”。

事實(shí)上,從ChatGPT開(kāi)年帶火A股市場(chǎng)概念股以來(lái),昆侖萬(wàn)維一直是聲量最大、股價(jià)顯著受影響的龍頭公司之一——從1月伊始的14.39元/股漲至48.75元/股,不滿三個(gè)月漲幅已高達(dá)239%。

?數(shù)據(jù)來(lái)源:股價(jià)來(lái)自Wind,證監(jiān)會(huì)關(guān)注函、昆侖萬(wàn)維年報(bào)
制圖:界面新聞

除產(chǎn)品直接對(duì)標(biāo)ChatGPT外,昆侖萬(wàn)維還計(jì)劃將現(xiàn)有資金最大程度用于支持AIGC領(lǐng)域的研發(fā)和商業(yè)化。在上周最新發(fā)布的業(yè)績(jī)年報(bào)中,集團(tuán)董事會(huì)決議在2022年不派發(fā)現(xiàn)金紅利、不送紅股、不以資本公積金轉(zhuǎn)增股本 ,未分配利潤(rùn)全部轉(zhuǎn)入下一季度。

據(jù)此,昆侖萬(wàn)維提出了未來(lái)十年的戰(zhàn)略口號(hào)——“All in AGI與AIGC”。昆侖萬(wàn)維CEO方漢接受界面新聞專訪時(shí)表示,AIGC內(nèi)部?jī)?yōu)先級(jí)的提升經(jīng)過(guò)了一個(gè)動(dòng)態(tài)變化過(guò)程?!拔覀?cè)?020年6月開(kāi)始布局AIGC時(shí),最早作為一個(gè)實(shí)驗(yàn)性項(xiàng)目立項(xiàng)。直到去年年底,‘All in AIGC與AIGC’才上升為了集團(tuán)戰(zhàn)略?!?/p>

根據(jù)先前回復(fù)深交所的關(guān)注函介紹,天工大模型產(chǎn)品由昆侖萬(wàn)維與初創(chuàng)公司奇點(diǎn)智源合作自研。昆侖萬(wàn)維主要為奇點(diǎn)智源提供硬件方面的支持,已合計(jì)采購(gòu)價(jià)值4400萬(wàn)美元的硬件設(shè)備。雙方開(kāi)發(fā)的中國(guó)版類ChatGPT的知識(shí)產(chǎn)權(quán)歸奇點(diǎn)智源所有,昆侖萬(wàn)維享有未來(lái)商業(yè)化產(chǎn)生的凈利潤(rùn)的50%。

憑借游戲業(yè)務(wù)起家、2015年上市的昆侖萬(wàn)維還將“All in AIGC”戰(zhàn)略描述為尋找第二增長(zhǎng)曲線。

數(shù)據(jù)來(lái)源:證監(jiān)會(huì)關(guān)注函
制圖:界面新聞

方漢表示,起步調(diào)研階段,OpenAI當(dāng)時(shí)的GPT-3模型未開(kāi)源,且市面上的同類開(kāi)源模型并不多。由于圍繞底層開(kāi)發(fā)上層的AIGC應(yīng)用走不通,自2020年年底,昆侖萬(wàn)維便決定自建大模型。

方漢告訴界面新聞?dòng)浾?,從一片蠻荒到一擁而上,國(guó)產(chǎn)大模型在極速變化中發(fā)展。各家目前搶發(fā)大模型還是在追求“大力出奇跡”,首先要入場(chǎng),然后追趕和競(jìng)爭(zhēng)。

以下為采訪內(nèi)容,經(jīng)過(guò)不改變?cè)獾木庉嫞?/span>

界面新聞:天工大模型對(duì)標(biāo)GPT-3.5是基于什么標(biāo)準(zhǔn)?

方漢:對(duì)于專業(yè)研發(fā),大模型能力的量化其實(shí)都是有一系列公開(kāi)的測(cè)試數(shù)據(jù)集作為統(tǒng)一參考標(biāo)準(zhǔn)。我們自己內(nèi)部已經(jīng)利用了這些公開(kāi)的測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行一個(gè)評(píng)測(cè),公開(kāi)數(shù)據(jù)的測(cè)試是天工對(duì)標(biāo)GPT3.5的一個(gè)重要原因。

GPT-3.5、GPT-4的論文中都附了相應(yīng)的大型測(cè)試數(shù)據(jù)集,目前可能有將近20類,涵蓋了大模型多維度的各項(xiàng)能力測(cè)試。大模型廠商發(fā)布產(chǎn)品前都會(huì)用這些數(shù)據(jù)做評(píng)測(cè),并得到一組分?jǐn)?shù),這是專業(yè)圈子內(nèi)比較認(rèn)可的公平、公正的評(píng)價(jià)標(biāo)準(zhǔn)。

界面新聞:各家大模型產(chǎn)品都會(huì)去測(cè)試嗎?天工的分?jǐn)?shù)是多少?

方漢:不僅是發(fā)布產(chǎn)品,做研發(fā)也要靠測(cè)試去保證下一階段工作的推進(jìn)。

現(xiàn)在各家宣傳模型參數(shù)級(jí)別動(dòng)輒千億、萬(wàn)億,其實(shí)統(tǒng)計(jì)口徑是不一樣的。誰(shuí)都沒(méi)有說(shuō)謊,但是模型表現(xiàn)不能簡(jiǎn)單粗暴地靠參數(shù)量比較。用公開(kāi)數(shù)據(jù)集測(cè)試后,各家對(duì)于自己處在什么梯隊(duì)、競(jìng)爭(zhēng)對(duì)手的得分都是心中有數(shù)的。

天工在17號(hào)才開(kāi)始邀請(qǐng)測(cè)試,具體分?jǐn)?shù)現(xiàn)在還無(wú)法對(duì)外公布。

界面新聞:去年12月,昆侖萬(wàn)維發(fā)布了一系列天工系列的多模態(tài)應(yīng)用,包括作畫、編程、作曲,其中天工巧繪是基于開(kāi)源的Stable Diffusion模型,天工3.5發(fā)布后會(huì)做遷移嗎?

方漢:這之間有一個(gè)上下游的區(qū)別。預(yù)訓(xùn)練大模型是作畫、編程、作曲這樣的多模態(tài)AIGC應(yīng)用的底層基礎(chǔ)。而我們的作曲應(yīng)用天工樂(lè)府、編程應(yīng)用天工智碼都是基于自研的天工系列模型,天工巧繪的下游基于Stable Diffusion模型。這次天工3.5大模型正式推出后,我們可以用來(lái)替代它的底層模型。

天工3.5并不是突然從石頭中蹦出來(lái)的大模型,我們的合作方奇點(diǎn)智源在2021年就已經(jīng)發(fā)了130億參數(shù)的大模型,之后不斷去迭代它的中間模型。天工3.5是目前的里程碑應(yīng)用,這之前還有很多中間模型,只是沒(méi)有對(duì)外發(fā)布。

界面新聞:在產(chǎn)品公開(kāi)測(cè)試后,用戶喜歡提一些刁鉆的問(wèn)題來(lái)難倒大模型,你認(rèn)為這種對(duì)話測(cè)試能真實(shí)反映大模型的能力嗎?

方漢:大家現(xiàn)在喜歡難倒大模型的問(wèn)題,像腦筋急轉(zhuǎn)彎、段子和網(wǎng)絡(luò)梗,大部分都屬于語(yǔ)義問(wèn)題。腦筋急轉(zhuǎn)彎是一種語(yǔ)言游戲,用它來(lái)考可以,也是一個(gè)很有娛樂(lè)性的話題,我并不反對(duì)。

但從大模型落地的角度,這類問(wèn)題在實(shí)踐生活并不是大多數(shù)用戶真正想解決的問(wèn)題。用戶當(dāng)下的需求是寫作業(yè)、做PPT開(kāi)會(huì)等等,就是說(shuō)我們要更多從人類的通用治理上考核大模型,考核一種普適性的能力。

界面新聞:國(guó)內(nèi)已經(jīng)開(kāi)啟測(cè)試同類型的大模型產(chǎn)品,你都有試用過(guò)嗎,體驗(yàn)如何?

方漢:你現(xiàn)在就像訓(xùn)練機(jī)器模型一樣,不斷地變換提示詞(prompt)希望我來(lái)評(píng)價(jià)友商,但人類不會(huì)犯這種錯(cuò)誤(笑)。

市面上的大模型產(chǎn)品我有部分試用過(guò),但不適合公開(kāi)點(diǎn)評(píng)個(gè)人體驗(yàn)。

界面新聞:昆侖萬(wàn)維2020年6月開(kāi)始布局AIGC之時(shí)就已經(jīng)確定要自建大模型嗎?

方漢: 我們一開(kāi)始就打算直接從底層做預(yù)訓(xùn)練的大模型。因?yàn)?020年底左右,當(dāng)時(shí)開(kāi)源模型項(xiàng)目也不多,唯一的GPT-3也沒(méi)有開(kāi)源,國(guó)內(nèi)廠商唯一的路線就是自建,不存在做應(yīng)用的選項(xiàng)。

界面新聞:在此過(guò)程中,AIGC的優(yōu)先級(jí)是怎樣的?部門規(guī)模如何??jī)?nèi)部由誰(shuí)帶隊(duì)?

方漢:現(xiàn)在同行互相挖人這么厲害, 對(duì)外只能統(tǒng)一說(shuō)由我?guī)ш?duì)。

優(yōu)先級(jí)是一個(gè)動(dòng)態(tài)變化的過(guò)程,我們不能說(shuō)自己兩年前就能未卜先知,最初是一個(gè)帶有預(yù)言性質(zhì)的探索項(xiàng)目,肯定不如已經(jīng)產(chǎn)生收入的主營(yíng)業(yè)務(wù)重要。直到去年年底發(fā)布“天工”系列AIGC產(chǎn)品時(shí),我們已經(jīng)把優(yōu)先級(jí)提到一個(gè)很高的位置,現(xiàn)在的戰(zhàn)略是“All in AIGC”。

人員規(guī)模的具體數(shù)字不便透露,人才資源現(xiàn)在應(yīng)該是各個(gè)公司最機(jī)密的部分。

參考OpenAI的創(chuàng)業(yè)先例,幾十人、百人左右的團(tuán)隊(duì)足以搞出來(lái)大模型。

界面新聞:公司據(jù)稱已經(jīng)投入數(shù)千萬(wàn)美元在項(xiàng)目上,主要的成本項(xiàng)在那些地方?

方漢:最大的成本肯定是采購(gòu)訓(xùn)練卡,買或者租英偉達(dá)的A100系列GPU,然后是人力成本。

界面新聞:對(duì)于當(dāng)下熱議“國(guó)產(chǎn)大模型缺算力還是還缺數(shù)據(jù)”,你怎么看?

方漢:從現(xiàn)在發(fā)布一款入門級(jí)的大模型來(lái)說(shuō),我覺(jué)得兩樣都不缺。

從算力的角度看,現(xiàn)在都知道OpenAI大概擁有28000張卡,更多可能超過(guò)3萬(wàn)。但其實(shí)2021年時(shí),他們大概只有4000張,2022年8月份以前有6000張,那時(shí)GPT-3.5、GPT-4都已經(jīng)訓(xùn)練完了。

OpenAI所用到的數(shù)據(jù)主要是著名的開(kāi)源數(shù)據(jù)語(yǔ)料庫(kù),國(guó)產(chǎn)廠商百分之七八十也能拿到。目前國(guó)產(chǎn)大模型廠商都是將英文數(shù)據(jù)、中文數(shù)據(jù)一起用做預(yù)訓(xùn)練的。中文語(yǔ)料的質(zhì)量是不如英文,這是客觀事實(shí),但目前通過(guò)混用模式已經(jīng)足夠訓(xùn)練模型。

界面新聞:現(xiàn)在國(guó)產(chǎn)大模型的差距主要不在資源端?

方漢:對(duì)的,資源是一張門票,比方說(shuō)沒(méi)有2000張GPU,你連訓(xùn)練都做不了,但有資源之后,那就是拼工程上的經(jīng)驗(yàn)。工程上的技巧和經(jīng)驗(yàn)是大模型競(jìng)爭(zhēng)的主要因素,比拼的是做實(shí)驗(yàn)的速度和人才的厚度。

界面新聞:如何理解工程經(jīng)驗(yàn)?

方漢:以訓(xùn)練數(shù)據(jù)為例,其實(shí)業(yè)界最難的不是找數(shù)據(jù),而是如何丟數(shù)據(jù)。什么樣的數(shù)據(jù)不用?篩選數(shù)據(jù)的標(biāo)準(zhǔn)是什么?如何做數(shù)據(jù)的剪枝、清洗等。

通過(guò)篩選數(shù)據(jù)調(diào)整參數(shù)、改進(jìn)模型設(shè)計(jì)才是最核心的機(jī)密,這也是OpenAI沒(méi)有在論文中公開(kāi)的核心技術(shù)。

界面新聞: 據(jù)悉GPT-3.5訓(xùn)練1750參數(shù)所用的3000多億單詞訓(xùn)練語(yǔ)料有60%來(lái)自于C4數(shù)據(jù)集(谷歌開(kāi)源的Colossal Clean Crawled Corpus)。C4數(shù)據(jù)集含有上萬(wàn)億的經(jīng)過(guò)清洗的、分類規(guī)整的英文單詞,而目前國(guó)內(nèi)已知的最大中文語(yǔ)料庫(kù)TUCNews(清華大學(xué)開(kāi)發(fā))只有7億左右的中文詞匯,如何看待這種落差?

方漢:公共的大型中文語(yǔ)料數(shù)據(jù)庫(kù)的缺失是客觀存在的差距,也不是一時(shí)半會(huì)能趕上的。我覺(jué)得國(guó)家層面也會(huì)意識(shí)到中文數(shù)據(jù)的重要性,未來(lái)會(huì)進(jìn)行政策上的改進(jìn)。

基本上各家的訓(xùn)練語(yǔ)料庫(kù)也不會(huì)公開(kāi),所以我認(rèn)為,短時(shí)間內(nèi)大模型的涌現(xiàn)不會(huì)讓中文語(yǔ)料數(shù)據(jù)庫(kù)的改觀特別大。

還有一個(gè)值得重視的現(xiàn)象,由于大模型本身的能力能夠進(jìn)行語(yǔ)言間的知識(shí)遷移,這就導(dǎo)致能夠生成海量的中文語(yǔ)料。未來(lái)如何看待以及管理AI生成的中文語(yǔ)料庫(kù)是重要問(wèn)題。

界面新聞:現(xiàn)在大公司都在搶發(fā)產(chǎn)品,未來(lái)大模型是否會(huì)成為主流大廠人手一個(gè)的標(biāo)配,進(jìn)而使該領(lǐng)域進(jìn)入到割據(jù)封閉的壁壘生態(tài)?

方漢: 雖然行業(yè)還是非常早期的搶跑入場(chǎng)階段,但未來(lái)會(huì)如同操作系統(tǒng)的發(fā)展歷史一樣,Windows與Linux:大廠會(huì)擁有質(zhì)量最高的大模型,開(kāi)源界也會(huì)出現(xiàn)相對(duì)質(zhì)量還OK的模型,這樣的開(kāi)源大模型會(huì)成為中小型企業(yè)、用戶的選擇,幫助他們基于這些大模型去做自己的二次開(kāi)發(fā)和工作。

未來(lái)的大模型生態(tài)主要有兩類參與者,一類做底層模型,一類做上層的應(yīng)用產(chǎn)品。 我認(rèn)為這個(gè)生態(tài)會(huì)相對(duì)均衡,不會(huì)一家獨(dú)大。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

昆侖萬(wàn)維

3k
  • 利好政策“接棒”發(fā)力,滬深300ETF平安(510390)、中證500ETF平安(510590)有望持續(xù)受益修復(fù)行情預(yù)期升溫
  • 游戲股震蕩走高,中青寶漲超13%

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

專訪昆侖萬(wàn)維CEO方漢:國(guó)產(chǎn)大模型的差距不在算力或數(shù)據(jù),在于工程經(jīng)驗(yàn)

方漢認(rèn)為,各家目前搶發(fā)大模型還是在追求“大力出奇跡”,但工程上的技巧和經(jīng)驗(yàn)才是大模型競(jìng)爭(zhēng)的主要因素,比拼的是做實(shí)驗(yàn)的速度和人才的厚度。

昆侖萬(wàn)維CEO方漢 圖片來(lái)源:昆侖萬(wàn)維

界面新聞?dòng)浾?| 李彪

接力OpenAI、微軟的重磅產(chǎn)品轟炸,國(guó)產(chǎn)大模型在四月開(kāi)啟了“鳴槍沖刺”。

4月17日,昆侖萬(wàn)維(300418.SZ)旗下“天工3.5”類GPT大模型正式啟動(dòng)邀請(qǐng)測(cè)試。按照官方說(shuō)法,天工大模型參數(shù)規(guī)模達(dá)千億級(jí),名字中的“3.5”源于“ ChatGPT基于GPT3.5大模型 ”,代表“天工大模型已經(jīng)非常接近OpenAI ChatGPT的智能水平 ”。

事實(shí)上,從ChatGPT開(kāi)年帶火A股市場(chǎng)概念股以來(lái),昆侖萬(wàn)維一直是聲量最大、股價(jià)顯著受影響的龍頭公司之一——從1月伊始的14.39元/股漲至48.75元/股,不滿三個(gè)月漲幅已高達(dá)239%。

?數(shù)據(jù)來(lái)源:股價(jià)來(lái)自Wind,證監(jiān)會(huì)關(guān)注函、昆侖萬(wàn)維年報(bào)
制圖:界面新聞

除產(chǎn)品直接對(duì)標(biāo)ChatGPT外,昆侖萬(wàn)維還計(jì)劃將現(xiàn)有資金最大程度用于支持AIGC領(lǐng)域的研發(fā)和商業(yè)化。在上周最新發(fā)布的業(yè)績(jī)年報(bào)中,集團(tuán)董事會(huì)決議在2022年不派發(fā)現(xiàn)金紅利、不送紅股、不以資本公積金轉(zhuǎn)增股本 ,未分配利潤(rùn)全部轉(zhuǎn)入下一季度。

據(jù)此,昆侖萬(wàn)維提出了未來(lái)十年的戰(zhàn)略口號(hào)——“All in AGI與AIGC”。昆侖萬(wàn)維CEO方漢接受界面新聞專訪時(shí)表示,AIGC內(nèi)部?jī)?yōu)先級(jí)的提升經(jīng)過(guò)了一個(gè)動(dòng)態(tài)變化過(guò)程?!拔覀?cè)?020年6月開(kāi)始布局AIGC時(shí),最早作為一個(gè)實(shí)驗(yàn)性項(xiàng)目立項(xiàng)。直到去年年底,‘All in AIGC與AIGC’才上升為了集團(tuán)戰(zhàn)略?!?/p>

根據(jù)先前回復(fù)深交所的關(guān)注函介紹,天工大模型產(chǎn)品由昆侖萬(wàn)維與初創(chuàng)公司奇點(diǎn)智源合作自研。昆侖萬(wàn)維主要為奇點(diǎn)智源提供硬件方面的支持,已合計(jì)采購(gòu)價(jià)值4400萬(wàn)美元的硬件設(shè)備。雙方開(kāi)發(fā)的中國(guó)版類ChatGPT的知識(shí)產(chǎn)權(quán)歸奇點(diǎn)智源所有,昆侖萬(wàn)維享有未來(lái)商業(yè)化產(chǎn)生的凈利潤(rùn)的50%。

憑借游戲業(yè)務(wù)起家、2015年上市的昆侖萬(wàn)維還將“All in AIGC”戰(zhàn)略描述為尋找第二增長(zhǎng)曲線。

數(shù)據(jù)來(lái)源:證監(jiān)會(huì)關(guān)注函
制圖:界面新聞

方漢表示,起步調(diào)研階段,OpenAI當(dāng)時(shí)的GPT-3模型未開(kāi)源,且市面上的同類開(kāi)源模型并不多。由于圍繞底層開(kāi)發(fā)上層的AIGC應(yīng)用走不通,自2020年年底,昆侖萬(wàn)維便決定自建大模型。

方漢告訴界面新聞?dòng)浾?,從一片蠻荒到一擁而上,國(guó)產(chǎn)大模型在極速變化中發(fā)展。各家目前搶發(fā)大模型還是在追求“大力出奇跡”,首先要入場(chǎng),然后追趕和競(jìng)爭(zhēng)。

以下為采訪內(nèi)容,經(jīng)過(guò)不改變?cè)獾木庉嫞?/span>

界面新聞:天工大模型對(duì)標(biāo)GPT-3.5是基于什么標(biāo)準(zhǔn)?

方漢:對(duì)于專業(yè)研發(fā),大模型能力的量化其實(shí)都是有一系列公開(kāi)的測(cè)試數(shù)據(jù)集作為統(tǒng)一參考標(biāo)準(zhǔn)。我們自己內(nèi)部已經(jīng)利用了這些公開(kāi)的測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行一個(gè)評(píng)測(cè),公開(kāi)數(shù)據(jù)的測(cè)試是天工對(duì)標(biāo)GPT3.5的一個(gè)重要原因。

GPT-3.5、GPT-4的論文中都附了相應(yīng)的大型測(cè)試數(shù)據(jù)集,目前可能有將近20類,涵蓋了大模型多維度的各項(xiàng)能力測(cè)試。大模型廠商發(fā)布產(chǎn)品前都會(huì)用這些數(shù)據(jù)做評(píng)測(cè),并得到一組分?jǐn)?shù),這是專業(yè)圈子內(nèi)比較認(rèn)可的公平、公正的評(píng)價(jià)標(biāo)準(zhǔn)。

界面新聞:各家大模型產(chǎn)品都會(huì)去測(cè)試嗎?天工的分?jǐn)?shù)是多少?

方漢:不僅是發(fā)布產(chǎn)品,做研發(fā)也要靠測(cè)試去保證下一階段工作的推進(jìn)。

現(xiàn)在各家宣傳模型參數(shù)級(jí)別動(dòng)輒千億、萬(wàn)億,其實(shí)統(tǒng)計(jì)口徑是不一樣的。誰(shuí)都沒(méi)有說(shuō)謊,但是模型表現(xiàn)不能簡(jiǎn)單粗暴地靠參數(shù)量比較。用公開(kāi)數(shù)據(jù)集測(cè)試后,各家對(duì)于自己處在什么梯隊(duì)、競(jìng)爭(zhēng)對(duì)手的得分都是心中有數(shù)的。

天工在17號(hào)才開(kāi)始邀請(qǐng)測(cè)試,具體分?jǐn)?shù)現(xiàn)在還無(wú)法對(duì)外公布。

界面新聞:去年12月,昆侖萬(wàn)維發(fā)布了一系列天工系列的多模態(tài)應(yīng)用,包括作畫、編程、作曲,其中天工巧繪是基于開(kāi)源的Stable Diffusion模型,天工3.5發(fā)布后會(huì)做遷移嗎?

方漢:這之間有一個(gè)上下游的區(qū)別。預(yù)訓(xùn)練大模型是作畫、編程、作曲這樣的多模態(tài)AIGC應(yīng)用的底層基礎(chǔ)。而我們的作曲應(yīng)用天工樂(lè)府、編程應(yīng)用天工智碼都是基于自研的天工系列模型,天工巧繪的下游基于Stable Diffusion模型。這次天工3.5大模型正式推出后,我們可以用來(lái)替代它的底層模型。

天工3.5并不是突然從石頭中蹦出來(lái)的大模型,我們的合作方奇點(diǎn)智源在2021年就已經(jīng)發(fā)了130億參數(shù)的大模型,之后不斷去迭代它的中間模型。天工3.5是目前的里程碑應(yīng)用,這之前還有很多中間模型,只是沒(méi)有對(duì)外發(fā)布。

界面新聞:在產(chǎn)品公開(kāi)測(cè)試后,用戶喜歡提一些刁鉆的問(wèn)題來(lái)難倒大模型,你認(rèn)為這種對(duì)話測(cè)試能真實(shí)反映大模型的能力嗎?

方漢:大家現(xiàn)在喜歡難倒大模型的問(wèn)題,像腦筋急轉(zhuǎn)彎、段子和網(wǎng)絡(luò)梗,大部分都屬于語(yǔ)義問(wèn)題。腦筋急轉(zhuǎn)彎是一種語(yǔ)言游戲,用它來(lái)考可以,也是一個(gè)很有娛樂(lè)性的話題,我并不反對(duì)。

但從大模型落地的角度,這類問(wèn)題在實(shí)踐生活并不是大多數(shù)用戶真正想解決的問(wèn)題。用戶當(dāng)下的需求是寫作業(yè)、做PPT開(kāi)會(huì)等等,就是說(shuō)我們要更多從人類的通用治理上考核大模型,考核一種普適性的能力。

界面新聞:國(guó)內(nèi)已經(jīng)開(kāi)啟測(cè)試同類型的大模型產(chǎn)品,你都有試用過(guò)嗎,體驗(yàn)如何?

方漢:你現(xiàn)在就像訓(xùn)練機(jī)器模型一樣,不斷地變換提示詞(prompt)希望我來(lái)評(píng)價(jià)友商,但人類不會(huì)犯這種錯(cuò)誤(笑)。

市面上的大模型產(chǎn)品我有部分試用過(guò),但不適合公開(kāi)點(diǎn)評(píng)個(gè)人體驗(yàn)。

界面新聞:昆侖萬(wàn)維2020年6月開(kāi)始布局AIGC之時(shí)就已經(jīng)確定要自建大模型嗎?

方漢: 我們一開(kāi)始就打算直接從底層做預(yù)訓(xùn)練的大模型。因?yàn)?020年底左右,當(dāng)時(shí)開(kāi)源模型項(xiàng)目也不多,唯一的GPT-3也沒(méi)有開(kāi)源,國(guó)內(nèi)廠商唯一的路線就是自建,不存在做應(yīng)用的選項(xiàng)。

界面新聞:在此過(guò)程中,AIGC的優(yōu)先級(jí)是怎樣的?部門規(guī)模如何??jī)?nèi)部由誰(shuí)帶隊(duì)?

方漢:現(xiàn)在同行互相挖人這么厲害, 對(duì)外只能統(tǒng)一說(shuō)由我?guī)ш?duì)。

優(yōu)先級(jí)是一個(gè)動(dòng)態(tài)變化的過(guò)程,我們不能說(shuō)自己兩年前就能未卜先知,最初是一個(gè)帶有預(yù)言性質(zhì)的探索項(xiàng)目,肯定不如已經(jīng)產(chǎn)生收入的主營(yíng)業(yè)務(wù)重要。直到去年年底發(fā)布“天工”系列AIGC產(chǎn)品時(shí),我們已經(jīng)把優(yōu)先級(jí)提到一個(gè)很高的位置,現(xiàn)在的戰(zhàn)略是“All in AIGC”。

人員規(guī)模的具體數(shù)字不便透露,人才資源現(xiàn)在應(yīng)該是各個(gè)公司最機(jī)密的部分。

參考OpenAI的創(chuàng)業(yè)先例,幾十人、百人左右的團(tuán)隊(duì)足以搞出來(lái)大模型。

界面新聞:公司據(jù)稱已經(jīng)投入數(shù)千萬(wàn)美元在項(xiàng)目上,主要的成本項(xiàng)在那些地方?

方漢:最大的成本肯定是采購(gòu)訓(xùn)練卡,買或者租英偉達(dá)的A100系列GPU,然后是人力成本。

界面新聞:對(duì)于當(dāng)下熱議“國(guó)產(chǎn)大模型缺算力還是還缺數(shù)據(jù)”,你怎么看?

方漢:從現(xiàn)在發(fā)布一款入門級(jí)的大模型來(lái)說(shuō),我覺(jué)得兩樣都不缺。

從算力的角度看,現(xiàn)在都知道OpenAI大概擁有28000張卡,更多可能超過(guò)3萬(wàn)。但其實(shí)2021年時(shí),他們大概只有4000張,2022年8月份以前有6000張,那時(shí)GPT-3.5、GPT-4都已經(jīng)訓(xùn)練完了。

OpenAI所用到的數(shù)據(jù)主要是著名的開(kāi)源數(shù)據(jù)語(yǔ)料庫(kù),國(guó)產(chǎn)廠商百分之七八十也能拿到。目前國(guó)產(chǎn)大模型廠商都是將英文數(shù)據(jù)、中文數(shù)據(jù)一起用做預(yù)訓(xùn)練的。中文語(yǔ)料的質(zhì)量是不如英文,這是客觀事實(shí),但目前通過(guò)混用模式已經(jīng)足夠訓(xùn)練模型。

界面新聞:現(xiàn)在國(guó)產(chǎn)大模型的差距主要不在資源端?

方漢:對(duì)的,資源是一張門票,比方說(shuō)沒(méi)有2000張GPU,你連訓(xùn)練都做不了,但有資源之后,那就是拼工程上的經(jīng)驗(yàn)。工程上的技巧和經(jīng)驗(yàn)是大模型競(jìng)爭(zhēng)的主要因素,比拼的是做實(shí)驗(yàn)的速度和人才的厚度。

界面新聞:如何理解工程經(jīng)驗(yàn)?

方漢:以訓(xùn)練數(shù)據(jù)為例,其實(shí)業(yè)界最難的不是找數(shù)據(jù),而是如何丟數(shù)據(jù)。什么樣的數(shù)據(jù)不用?篩選數(shù)據(jù)的標(biāo)準(zhǔn)是什么?如何做數(shù)據(jù)的剪枝、清洗等。

通過(guò)篩選數(shù)據(jù)調(diào)整參數(shù)、改進(jìn)模型設(shè)計(jì)才是最核心的機(jī)密,這也是OpenAI沒(méi)有在論文中公開(kāi)的核心技術(shù)。

界面新聞: 據(jù)悉GPT-3.5訓(xùn)練1750參數(shù)所用的3000多億單詞訓(xùn)練語(yǔ)料有60%來(lái)自于C4數(shù)據(jù)集(谷歌開(kāi)源的Colossal Clean Crawled Corpus)。C4數(shù)據(jù)集含有上萬(wàn)億的經(jīng)過(guò)清洗的、分類規(guī)整的英文單詞,而目前國(guó)內(nèi)已知的最大中文語(yǔ)料庫(kù)TUCNews(清華大學(xué)開(kāi)發(fā))只有7億左右的中文詞匯,如何看待這種落差?

方漢:公共的大型中文語(yǔ)料數(shù)據(jù)庫(kù)的缺失是客觀存在的差距,也不是一時(shí)半會(huì)能趕上的。我覺(jué)得國(guó)家層面也會(huì)意識(shí)到中文數(shù)據(jù)的重要性,未來(lái)會(huì)進(jìn)行政策上的改進(jìn)。

基本上各家的訓(xùn)練語(yǔ)料庫(kù)也不會(huì)公開(kāi),所以我認(rèn)為,短時(shí)間內(nèi)大模型的涌現(xiàn)不會(huì)讓中文語(yǔ)料數(shù)據(jù)庫(kù)的改觀特別大。

還有一個(gè)值得重視的現(xiàn)象,由于大模型本身的能力能夠進(jìn)行語(yǔ)言間的知識(shí)遷移,這就導(dǎo)致能夠生成海量的中文語(yǔ)料。未來(lái)如何看待以及管理AI生成的中文語(yǔ)料庫(kù)是重要問(wèn)題。

界面新聞:現(xiàn)在大公司都在搶發(fā)產(chǎn)品,未來(lái)大模型是否會(huì)成為主流大廠人手一個(gè)的標(biāo)配,進(jìn)而使該領(lǐng)域進(jìn)入到割據(jù)封閉的壁壘生態(tài)?

方漢: 雖然行業(yè)還是非常早期的搶跑入場(chǎng)階段,但未來(lái)會(huì)如同操作系統(tǒng)的發(fā)展歷史一樣,Windows與Linux:大廠會(huì)擁有質(zhì)量最高的大模型,開(kāi)源界也會(huì)出現(xiàn)相對(duì)質(zhì)量還OK的模型,這樣的開(kāi)源大模型會(huì)成為中小型企業(yè)、用戶的選擇,幫助他們基于這些大模型去做自己的二次開(kāi)發(fā)和工作。

未來(lái)的大模型生態(tài)主要有兩類參與者,一類做底層模型,一類做上層的應(yīng)用產(chǎn)品。 我認(rèn)為這個(gè)生態(tài)會(huì)相對(duì)均衡,不會(huì)一家獨(dú)大。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。