界面新聞記者 | 伍洋宇
界面新聞編輯 | 劉方遠 宋佳楠
“我聽說o2在GPQA上獲得了105%?!睅滋烨埃侥贰W特曼在X平臺上突然發(fā)了這么一句話,但馬上又寫道,“見鬼!賬號錯誤!”
這位掌控OpenAI公司的CEO,就這樣以如此戲劇性的玩笑方式透露了OpenAI o2的進展。GPQA(Graduate-Level Question Answering)是一項研究生水平科學知識問答能力的基準測試,此前,OpenAI o1在這項測試中僅得到78%的成績。
o2的得分也大概率不會超過100%,但這番“鬼才營銷”仍然引起了全網(wǎng)熱議。
當國內(nèi)大模型領域還沒有復刻出o1-preview一星半點的時候,OpenAI已經(jīng)在“有意”透露具備多模態(tài)能力的完整版o1了。它能看懂并正確解答復雜數(shù)學題,識別人類史上首張黑洞照片,這使得外界對o2的能力更為好奇,也吸引一眾國內(nèi)大模型玩家朝著o1躍躍欲試。
“AGI有救了。” o1發(fā)布那天,李江一早就把一篇介紹OpenAI o1的科普文章從頭讀到尾,一顆心稍微沉下來些。
過去幾個月,李江一直處在焦慮之中。GPT-5遲遲沒有發(fā)布,一種隱隱的壓力圍繞在和李江一樣的大模型從業(yè)者周圍。外界輿論從最初的追捧,變成猜測“六小虎”中哪家公司會扛不住先關門,或者被收購。
智譜AI、百川智能、月之暗面、Minimax、零一萬物、階躍星辰這六家中國大模型初創(chuàng)公司,被業(yè)界冠以“六小虎”之稱。過去一段時間,他們都拿到了數(shù)十億乃至百億人民幣級別的融資,都在燒錢搶算力、搶人才,希望成為中國的“OpenAI”。
隨著大模型從業(yè)者們信仰的Scaling Law(規(guī)模法則)遇到瓶頸,所有長遠宏大的商業(yè)故事都要講不下去了。“Scaling Law”是有關模型性能隨著參數(shù)量、數(shù)據(jù)量、計算資源等增加而變化的規(guī)律,此前幾乎是抵達AGI(通用人工智能)的唯一通路。
這種境況下,模型訓練不得不脫離“大力出奇跡”的軌道。據(jù)《中國企業(yè)家》報道,百川智能CEO王小川近日接受其采訪時提及,“去年焦慮買不到卡,今年焦慮有卡不知道該干嘛?!焙芏鄨F隊把重心集中在一些微調(diào)(Fine-Tuning)工作上,讓模型針對特定任務或領域進行優(yōu)化。
李江所在的公司也是“六小虎”之一,外界的唱衰聲不時傳進團隊成員的耳朵里。雖然大家還是堅信長遠的光明,但現(xiàn)在仿佛都被烏云籠罩,看不清好的方向在哪里。
最終又是OpenAI將這片“烏云”吹散了大半。9月13日,OpenAI發(fā)布o1大模型,它改變技術策略,加入了強化學習和思維鏈,大幅提升了模型的推理能力,也將訓練重點從預訓練(pre-train)轉向后訓練(post-train)。
這被認為是大語言模型帶領人類通往AGI的關鍵技術范式變革。
一名AI領域的投資人對界面新聞記者表示,大模型需要能夠使用知識,而不只是具備知識。使用知識的能力是思維,而思維才是人類工作的核心價值。OpenAI o1所展示的思維能力,是大模型從“快思考”向“慢思考”進化的關鍵指標。
而擺在國內(nèi)創(chuàng)業(yè)者面前的選擇題便是,要不要跟進?
考慮到每家公司的領導者對AGI的理解不同,團隊技術實力存在差異,落地場景方向各有側重,以及可跟注的籌碼大小不一,國內(nèi)大模型戰(zhàn)局正在顯現(xiàn)分水嶺。
讓所有人能繼續(xù)抄作業(yè)
前段時間,零一萬物創(chuàng)始人兼CEO李開復去了一趟硅谷,帶回不少OpenAI的“八卦”,還在直播間饒有興致地講了起來。
據(jù)他所述,外界期待已久的GPT-5訓練得不太順利,問題出在如何搞定一個“十萬卡集群”上。風光面世的OpenAI o1只是被臨時祭出的產(chǎn)物,這套方法原本沒打算這么早公開。但為了吸引投資人繼續(xù)投錢,這個動作不得不執(zhí)行。
另一方面,OpenAI也想借此炫技,讓外界意識到,“你們只是看起來快追上我了,等我多露兩手再看看?!焙芸?,OpenAI宣布融資66億美元,估值來到1570億美元。
“其實我們還有很多好東西,只是沒有發(fā)布?!監(jiān)penAI的內(nèi)部人員對李開復說,“因為我們一發(fā)布你們就會學。”
這名OpenAI人士擔心得沒錯,這正是國內(nèi)大模型領域的追趕狀態(tài),甚至成為一種技術學習的策略。
“我們一定要盡快追趕它,讓它有壓力。”李開復說,“這樣它就把一些好東西丟出來,我們大家就有更多的靈感了?!?/span>
o1就是現(xiàn)階段所有人的靈感。它提出了一個新思路。根據(jù)這家公司顯示的技術信息,除了加入強化學習和思維鏈,它的本質(zhì)變化是將Scaling Up的方法從預訓練階段轉移到了推理階段,讓模型在“推理時計算”中獲得更高的智能水平,也就是Post-Training Scaling Law(后訓練擴展律)在發(fā)揮作用。
這套新范式的力量真有這么大嗎?在技術上如何理解o1范式可能加速AGI進程?
大模型行業(yè)上一個重要技術轉變是從Dense Model(稠密模型)到MoE架構(Mixture of Experts,混合專家模型)。這個變化本身帶來的是速度提升,而沒有太多能力提升,技術曲線從這里開始變緩和。但推理層強化學習可能改變這條曲線,它對應的是投入資源和所能達到智能上限的關系——模型智能水平由此可能實現(xiàn)突破。
大佬們的觀點是相近的。在o1發(fā)布一周后,階躍星辰CEO姜大昕公開表示,o1是大模型首次同時具備人類大腦System 1和System 2的能力,這是大模型開始具備歸納世界能力的關鍵一步。月之暗面創(chuàng)始人兼CEO楊植麟直言,o1的主要意義在于提升了AI的上限,很大程度上證明了這套范式對于下一步Scaling Up初步可行。
換句話說,o1代表的技術范式還不至于是AGI的直通車,但它的確是一列全新的特快車。
界面新聞記者從不同信源處了解到,Minimax已經(jīng)在推進類o1產(chǎn)品,預計最快明年一季度發(fā)布。月之暗面和階躍星辰目前的主要精力可能仍是年底計劃發(fā)布的多模態(tài)大模型,但o1也都在其各自的技術路線圖上。
百川智能在強調(diào)醫(yī)療方向的落地場景后,暫時還沒有透露出要加碼o1方向的信號,不過內(nèi)部一直有強化學習的訓練經(jīng)驗。此外,多名受訪者認為,智譜AI大概率會跟進o1,而李開復則明確表示,包括零一萬物在內(nèi),預計五個月后就會有不少類似o1模型的能力出現(xiàn)在各個公司。
“國內(nèi)大模型公司都是抄OpenAI的路線,既然它蹚出了一條路,你也沒有這么多試錯成本,為什么不去copy它?”李江認為,這個選擇理所當然。
不比GPT-4簡單
強化學習不是新東西。在此之前,很多大模型團隊都在嘗試強化學習這條路,只不過更快驗證其正確性的依舊是OpenAI。
“但凡是做過機器學習的,這個方法你一定會想得到,只是說愿不愿意投這么多資源去試這條路?!崩罱f。
事實上,它還是今年諾貝爾化學獎其中兩位獲得者所在公司DeepMind的拿手好戲。這家公司用深度學習和強化學習的思路在很多垂直領域作出了突破貢獻,比如AlphaFold和AlphaGo。
至于o1為何現(xiàn)在才出現(xiàn),一名大模型技術從業(yè)者對此解釋道,一方面,模型參數(shù)的量級不同,這是決定性差距;另一方面,這當中的關鍵變量是強化學習和大模型的碰撞。如果以o1為結果,大模型和強化學習是一組由“乘號”連接的齒輪關系,但凡其中一種弱,整體都不會太強。
就技術而言,從業(yè)者認為o1比GPT-4更難,因為這當中的知識不會公開,團隊必須自己嘗試。“post-training(后訓練)里面的秘密很多,而且越來越寡頭化?!鼻笆鍪茉L投資人說,“在這場競賽里,技術能力和技術vision(視野)的占比變高了?!?/span>
也就是說,它需要天才的技術靈感,外加可落地的工程能力。
“最重要的是,首先有人能想得出整體的架構怎么做?!崩罱硎荆鲞@件事需要的是天才,而不是“搭建一個50人團隊”。相當于OpenAI o1現(xiàn)在是“黑盒”,創(chuàng)業(yè)公司需要分配更多精力給強化學習,靠研究能力把“黑盒”變成“白盒”。
工程上也還有大量的細節(jié)和難點。例如,算力方面,由于推理層的算力需求可能會出現(xiàn)爆發(fā)式增長,優(yōu)化AI Infra(基礎架構)以快速降本的意義進一步凸顯。數(shù)據(jù)方面,這套新范式相當于將一個Agent(智能體)內(nèi)置到模型中,因此,自動化數(shù)據(jù)訓練的pipeline(管道)也需要重新構建。
它同時提升了數(shù)據(jù)標注的難度和復雜度。生數(shù)科技首席科學家朱軍在今年的云棲大會上談論過,從科研的角度看,這當中過程監(jiān)督的數(shù)據(jù)變得十分重要。它和直接從結果監(jiān)督的數(shù)據(jù)不一樣,是要對思考過程的每一步進行標注,這種數(shù)據(jù)由于需要專業(yè)人士投入,因而具備一定獲取難度和高價值。
王小川也曾表示,他對o1的好奇有很多,例如擁有多少算力,以及多少領域專家。這大致對應o1訓練數(shù)據(jù)的規(guī)模和質(zhì)量。
Self-Play RL(自我博弈下的強化學習)雖然可以讓模型自動生產(chǎn)數(shù)據(jù)來學習,但仍然需要人工的參與,并且是高質(zhì)量的參與,其中就包括人工標注數(shù)據(jù)來告訴它結果好還是不好。
李江形容,數(shù)據(jù)標注既吃人力又吃學歷,是一份看起來藍領,但又特別要求白領的工作?!叭绻銢]有模型聰明,你就沒有價值,所以你要比模型的答案還好,而這份工作又特別枯燥,這樣的行業(yè)專家不好找?!?/span>
o1這條路未來可能遇到的最大瓶頸還是來自通用性,也就是模型的泛化能力。例如,o1的數(shù)學、編程類能力尤其突出,但弱邏輯類的能力培養(yǎng)還有待解決。
強化學習中有一個關鍵環(huán)節(jié)叫做Reward Model(獎勵模型),用于評估Agent的行為表現(xiàn),并指導其學習過程。在特定垂直領域,獎勵機制可以寫得清楚明晰,但面對更加泛化和開放的場景,Reward Model將變得難以定義,這也是以o1范式在實現(xiàn)通用性過程中要突破的重要關卡。
“這是一個懸而未決的問題。”李江說,這再次回到了各家科研能力的比拼上。即便是在公司內(nèi)部,這種“靈感”現(xiàn)在也無法隨意討論,“因為這個事情太新了,‘靈感’要真金白銀才能燒出來?!?/span>
事實上,大模型未來在提升強化學習模型的泛化性上會遇到什么困難,還不得而知,短期內(nèi)能夠復現(xiàn)某個垂直領域的國產(chǎn)o1就是一種勝利。開始習慣這個領域技術波動的李江就是這樣想的,“在這個階段,做長遠的Road Map(路線圖)毫無意義?!?/span>
好學生的“附加題”
云啟資本合伙人陳昱每半年就要飛一趟美國,定期看看那邊發(fā)生了什么,這讓他對o1有一個更為冷靜和理智的看法。
誠然,o1代表了OpenAI在解決復雜問題上的探索,但它仍然有很大的局限:成本約為GPT-4o的6倍,使用次數(shù)的限制,較長的等待時間,以及一些簡單問題仍然會出錯的狀況,目前的形態(tài)更像是給學有余力的好學生去做的“附加題”。
答好這道“附加題”要投入多少資源?此前據(jù)騰訊新聞《潛望》報道,王小川在接受采訪時曾預估稱,“可能跟做個GPT-4差不多”。而朱嘯虎給出的答案是,做GPT-4的科研至少要砸四五千萬美金。
目之所及,國內(nèi)大模型公司要跟進做o1必須滿足兩個硬性條件。一是擁有這筆可支配的資源。據(jù)另一名受訪投資人透露,“六小虎”當中,一些公司賬上的錢可能不夠。二是基礎模型的性能水平門檻。李江的判斷是,“至少要接近GPT-4的水平,不然不在牌局里?!?/span>
這意味著“六小虎”的下一步,有錢的可以繼續(xù)跟注,沒錢但想跟注的要繼續(xù)找錢,如果都行不通,就只能找差異化。
不久前已經(jīng)有行業(yè)傳聞稱,“六小虎”中的兩家正在逐步放棄預訓練模型,縮減了預訓練算法團隊人數(shù),業(yè)務重心轉向AI應用。
一時間,“六小虎放棄大模型”的說法甚囂塵上。被外界猜測得最多的零一萬物和百川智能,均迅速對外界進行了否認。
前述受訪投資人對界面新聞記者表示,還沒有看到實質(zhì)性證據(jù)能夠表明“六小虎”中有公司放棄了預訓練,現(xiàn)階段它們也沒有理由放棄。他推測有一種可能是,有團隊暫時性完成了基礎模型的預訓練,重心轉向了后訓練階段。
“要知道‘六小虎’并不是OpenAI,也不可能OpenAI的所有嘗試都要去跟?!边@名投資人指出,“這當中需要有戰(zhàn)略選擇。”
這種戰(zhàn)略選擇的決定性條件,是掌舵者對AGI的理解。例如,有人認為多模態(tài)的理解與生成統(tǒng)一是AGI的必經(jīng)之路,也有人認為,AGI的關鍵仍然在于語言智能。這會導致不同的路線,大模型公司可能自此分化:視頻模型,音頻模型,高級推理等等。
除了創(chuàng)業(yè)公司,大廠也在積極跟進。有知情人士透露,目前,字節(jié)跳動和阿里巴巴都已有意向聚焦o1代表的技術方向,繼續(xù)推動大模型的推理性能提升。不過,大廠的優(yōu)勢將更不明顯。
李江直言,在上一個競爭階段,文心一言、通義千問、混元、豆包等產(chǎn)品,并沒有跟創(chuàng)業(yè)公司完全拉開差距。而在o1路線上,這種優(yōu)勢也許會更加微弱,因為它對算力資源的要求不如之前高,也更考驗技術團隊的靈活性。
大變革,但不一定激發(fā)大商機
投資人也聽到不少所謂行業(yè)動蕩的風聲,但他們的大致體感是,在車上的都沒有動搖過,不斷動搖的都是沒上車的。
“我們沒有不看好過?!鼻笆鐾顿Y人說,“外面所謂的輿論是我們兩三年前就知道的事實,不覺得有什么預期上的偏差?!?/span>
之所以不動搖,來自于一個長期判斷:AGI能實現(xiàn),繞不開大模型,而o1的出現(xiàn)說明了AGI可以實現(xiàn),它的確提振了資本的信心。
這也將很大程度上決定大模型公司的融資命運。
“到30億美元估值以后,大家就很難融了。”陳昱指出,這是“六小虎”當前共同的困境。輿論之所以唱衰,主要原因也是估值和商業(yè)化程度不匹配。
“今年這幾家融了三五億美元以上的,明年都還可以活,因為大家一年大概燒2億美元,加上之前的錢,活個三年是沒問題的。”陳昱說,“但他們得盡快解決商業(yè)模式的問題,燒錢是不可持續(xù)的?!?/span>
商業(yè)化,就是當前來自投資人最直接的拷問。需要認清的是,o1這個技術上的“大變革”,并不一定能激發(fā)大商機。
一方面,o1所代表的“模型即產(chǎn)品”思路可能會革掉一批應用層公司的命。由于o1本身相當于內(nèi)置了一個AI Agent,很多簡單的Agent不再有特殊價值。一名關注AI應用層的投資人對界面新聞記者表示,o1對很多創(chuàng)業(yè)公司都產(chǎn)生了生死影響,比如只做AI編程的Cursor AI,雙方已經(jīng)到了要比拼用戶體驗的階段。
另一方面,o1即便做出來,在產(chǎn)品上也沒有直接的變現(xiàn)手段。最直觀的改變可能在于,產(chǎn)品形態(tài)需要重新設計,從同步的方式變?yōu)楫惒健.惒绞侵?,用戶發(fā)送請求后,模型會過若干分鐘再反饋結果,而不是現(xiàn)在這種讓用戶干等的問答形式。
李江的看法有些悲觀,認為即使國內(nèi)公司做出o1這樣的產(chǎn)品也不會對商業(yè)應用帶來本質(zhì)改變?!昂芏嗌虡I(yè)模式跟模型性能有關聯(lián),但又沒有那么深的關聯(lián)。”
這也是朱嘯虎此前強調(diào)的,現(xiàn)階段的模型性能提升不會對應用層帶來實質(zhì)影響,就算是模型準確率提升50%,在多步推理之后疊加形成的錯誤率也是災難性的。Minimax創(chuàng)始人兼CEO閆俊杰也曾公開強調(diào),模型錯誤率只有降到個位數(shù)才是可信賴的狀態(tài),才能為行業(yè)帶來本質(zhì)的變化。
以此來看,o1可能是大模型技術上的分水嶺,但用戶很難感知到。“大模型是一個非常復雜的系統(tǒng)工程,o1能產(chǎn)生的作用,只是在其中某個環(huán)節(jié)改變那么一點點東西,對全局沒有那么大的影響?!崩罱赋觥?/span>
在AGI進程放緩時,o1的出現(xiàn)幾乎被視為“全村的希望”,但它依然無法帶大家掙到更多的錢,那它的意義到底是什么?——答案可能仍然在融資里。
在投資人視角,做o1的優(yōu)先級不是最高,但它可以炫技和秀肌肉。在創(chuàng)業(yè)周期,這是融資的籌碼。
作為創(chuàng)業(yè)者,李江很清楚,在砸錢推進模型通往AGI的過程中,創(chuàng)業(yè)公司有所圖,也有犧牲。犧牲在于,一家大模型公司最終要賣的東西,可能跟模型性能本身并沒有更深的關聯(lián)。而它圖的是,這個模型代表了它要銷售的AGI愿景——這個愿景既要銷售給用戶,也要銷售給投資人。
“長期來看,你得靠它讓大家相信這個故事——它是在朝著AGI發(fā)展?!崩罱f。
(受采訪對象要求,李江為化名。)
(界面新聞記者李彪對本文亦有貢獻。)