文 | 硅基研究室 kiki
北京時(shí)間2月18日中午,馬斯克和xAI發(fā)布了其最新旗艦?zāi)P虶rok-3系列和最新聊天機(jī)器人Grok,憑借著馬斯克的強(qiáng)大光環(huán),盡管xAI作為這場AI競賽中的后發(fā)者,但其一舉一動都備受關(guān)注。
在不到一個(gè)小時(shí)、百萬人圍觀的發(fā)布會中,xAI展現(xiàn)了Grok-3令人印象深刻的模型能力——從馬斯克的最強(qiáng)數(shù)據(jù)集群到直接的評測數(shù)據(jù)對比,似乎在回應(yīng)他此前對Grok-3的評價(jià)——「地表最強(qiáng)AI」。
馬斯克和xAI發(fā)布最新旗艦?zāi)P?圖源:xAI
但據(jù)前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy的評價(jià),「Grok-3+Thinking」感覺與OpenAl最強(qiáng)模型o1-pro相差無幾,但取得同等能力需要加上一個(gè)前提:Grok-2和Grok-3之間,才過去了六個(gè)月而已?!斑_(dá)到最先進(jìn)領(lǐng)域的時(shí)間表是前所未有的”。Anderj Karpathy說。
Grok-3的發(fā)布符合馬斯克的競爭觀——他總是習(xí)慣用最快的時(shí)間表、推動團(tuán)隊(duì)完成創(chuàng)新,這也是他擅長講述的故事——用巨大的算力(20萬張GPU,Grok-3使用了超出DeepSeek-V3百倍的算力)、規(guī)模小的團(tuán)隊(duì)(xAI最初成立只有12人),做不下牌桌的人。
一、「地表最強(qiáng)AI」Grok 3表現(xiàn)如何?
直播中xAI團(tuán)隊(duì)將Grok-2形容為「玩具」,這當(dāng)然是為了突出Grok-3的強(qiáng)大。
xAI發(fā)布的Grok-3是一個(gè)模型系列,包括了推理模型和mini模型。
在模型能力上,Grok-3在推理、數(shù)學(xué)、代碼、數(shù)學(xué)等多方面,都取得了新的突破,Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分,在GPQA上取得了85分,跑贏了o3 mini、DeepSeek-R1等。
Grok-3在數(shù)學(xué)、科學(xué)和代碼領(lǐng)域的表現(xiàn)圖源:xAI
在AIME 2025最新的數(shù)學(xué)基準(zhǔn)測試中,Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。
Grok-3在AIME 2025最新的數(shù)學(xué)基準(zhǔn)測試的表現(xiàn)圖源:xAI
在大模型競技場LMSYS上,Grok-3早期版本(巧克力)在總榜上位列排名第一,也是首個(gè)評分突破1400分的模型,尤其在「編碼」類別中,Grok-3超越了o1和Gemini-thinking等頂級推理模型。
Grok-3位列LMSYS第一 圖源:lmarena.ai
xAI現(xiàn)場演示了Grok-3的推理和創(chuàng)意編程能力,例如讓Grok-3生成一段從地球發(fā)射、著陸火星再到返回地球的3D動畫代碼,還有涉及推理能力的升級版俄羅斯方塊小游戲。
用Grok生成代碼 圖源:xAI
這些模型核心能力升級也被馬斯克融進(jìn)了新的Grok應(yīng)用中,以Agent形式集成了DeepSearch、Think和Big Brain三種模式,針對用戶搜索場景,提供編程、數(shù)學(xué)等高階能力。DeepSearch可以聯(lián)網(wǎng)和掃描X來分析信息、提供查詢和摘要,Big Brain則可以進(jìn)行更多、更仔細(xì)的分布推理編程。
Grok具備 DeepSearch、Think和Big Brain三種模式圖源:xAI
除此以外,馬斯克還透露后續(xù)語音交互、多模態(tài)交互等新功能將上線,xAI還將成立一個(gè)AI游戲社區(qū),馬斯克此刻曾透露將開設(shè)AI游戲工作室。
Grok-3不會馬上向所有用戶開放,針對X的Premium+訂閱用戶就首先獲解鎖,在Grok獨(dú)立的APP端也會推出會員服務(wù)「SuperGrok」——價(jià)格為每月30美元或每年300美元。
會員服務(wù)「SuperGrok」圖源:xAI
今天早些時(shí)候獲得Grok-3的早期使用權(quán)的前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy表示Grok-3是擁有最先進(jìn)的思考模型之一,性能與o1-pro相當(dāng),“我們需要實(shí)際的、真實(shí)的評估來觀察。”他舉了一個(gè)例子,他通過Grok-3 Think模式上傳了GPT-2論文,在問了一堆簡單的查找問題,要求其估計(jì)訓(xùn)練GPT-2所需的訓(xùn)練flops數(shù)量,這考驗(yàn)?zāi)P蛯⒉檎?、?shù)學(xué)和知識相結(jié)合,根據(jù)他的測試結(jié)果,GPT-4o未能完成這項(xiàng)任務(wù),o1 pro也失敗了,但Grok-3 with Thinking 很好地解決了這個(gè)問題。
過去,Grok還給人留下的印象是,更幽默的,有意思的AI,直播中xAI也強(qiáng)調(diào)了這一點(diǎn),但據(jù)Anderj Karpathy測試,模型的幽默感似乎沒有明顯改善,對「復(fù)雜的倫理問題」也過于敏感。
客觀來看,作為后發(fā)者,xAI用不到一年時(shí)間推出Grok-3,再度印證了馬斯克「大力出奇跡」的優(yōu)勢,但評估模型實(shí)際能力和落地依舊要看后續(xù)的產(chǎn)品功能情況。
二、馬斯克的AI籌碼
在全球大模型的競逐中,馬斯克寄希望于xAI走一條典型的「后發(fā)先至」路線。
在發(fā)布Grok-3前,xAI在過去兩年之間內(nèi)對Grok系列的旗艦?zāi)P瓦M(jìn)行了三次大迭代,在模型能力上,Grok系列在推理、閱讀理解、數(shù)學(xué)、科學(xué)、寫代碼等方面都呈現(xiàn)出不錯的表現(xiàn)。而在模型輕量化、多模態(tài)方向上,xAI也曾發(fā)布首個(gè)多模態(tài)模型Grok-1.5V和Grok-2mini,不斷豐富其模型家族。
在產(chǎn)品交互形式和商業(yè)模式上,馬斯克也一直針對Grok進(jìn)行優(yōu)化,在產(chǎn)品交互形式上,一方面更新界面、功能和產(chǎn)品組件。如將X的實(shí)時(shí)洞察和網(wǎng)絡(luò)搜索結(jié)合,推出新的引文功能,提升回答的準(zhǔn)確性。今年1月,不同于內(nèi)嵌于X內(nèi)部,xAI還宣布上線獨(dú)立的iOS應(yīng)用程序,并圍繞體育、金融等場景推出新內(nèi)容組件,提升用戶內(nèi)容體驗(yàn)。
而在商業(yè)模式上,通過免費(fèi)和開放API,降低模型使用門檻,去年年底,xAI宣布 Grok-2模型對X平臺用戶免費(fèi)開放(當(dāng)然也有使用限制),同步推出了企業(yè)API公開測試版?!腹杌芯渴摇共樵儼l(fā)現(xiàn),目前xAI提供Grok-2-1212和Grok-2-vision-1212兩種模型調(diào)用,以Grok-2-1212為例,其API定價(jià)為2.00美元/百萬輸入、10美元/百萬輸出,同時(shí)xAI還推出了數(shù)據(jù)共享計(jì)劃,為參與團(tuán)隊(duì)提供每月獲得150美元的免費(fèi)API積分。
xAI API定價(jià) 圖源:xAI
直播中,xAI稱Grok-3模型將與DeepSearch功能一起出現(xiàn)在xAI的企業(yè)API 中,對于人們關(guān)注的開源問題上,當(dāng)Grok-3成熟穩(wěn)定時(shí),可能在幾個(gè)月內(nèi)會開源Grok -2。
在大模型競爭、估值水漲船高的今天,堅(jiān)信Grok和馬斯克能突圍的人,相信的是Grok自身的獨(dú)特優(yōu)勢,即數(shù)據(jù)、卡、錢和「反OpenAI故事」。
首先,是數(shù)據(jù)。Grok與X高度綁定,是一個(gè)閉環(huán)的內(nèi)容生態(tài),高質(zhì)量的數(shù)據(jù)和穩(wěn)定的場景,這本身就是先天優(yōu)勢。馬斯克多次強(qiáng)調(diào),Grok通過合成數(shù)據(jù),繞過了困擾其他AI模型的數(shù)據(jù)隱私和知識產(chǎn)權(quán)相關(guān)的法律挑戰(zhàn),同時(shí)確保用戶的數(shù)據(jù)隱私安全。
其次,是卡,即算力。特斯拉和xAI儲備了大量的英偉達(dá)H100系列芯片,馬斯克此前曾質(zhì)疑機(jī)構(gòu)給將「Meta列為囤積全球最多的H100 GPU」的排行榜,指出「如果計(jì)算正確,特斯拉應(yīng)該是第二名,xAI將是第三名」,他還用122天將一個(gè)家電廠房改造為集合10萬張H100芯片的超級算力集群,就連英偉達(dá)創(chuàng)始人黃仁勛也忍不住感嘆:“在如此短的時(shí)間里內(nèi)完成,這簡直是超人的成就”。
直播演示中,馬斯克在Grok-3發(fā)布前,也率先展示他的最強(qiáng)數(shù)據(jù)集群,團(tuán)隊(duì)表示,他們在今年2月遇到很多問題,如冷卻和能耗等,也浪費(fèi)了很多算力,但最終還是以Grok-2的10倍算力資源,用六個(gè)月時(shí)間推出了Grok-3。
馬斯克的數(shù)據(jù)集群 圖源:xAI
xAI也似乎不缺錢,據(jù)彭博社報(bào)道,xAI正以750億美元的估值籌集100億美元,紅杉資本、Andreessen Horowitz和Valor Equity Partners等現(xiàn)有投資者,均參與了此次談判。
再者,還有「人」,xAI的團(tuán)隊(duì)核心成員曾在Google DeepMind、特斯拉、OpenAI和微軟等公司工作。
出現(xiàn)在直播中的兩位華人為Jimmy Ba和Yuhuai Wu圖源:xAI
最后,馬斯克「反OpenAI」的故事也得到了不少人的擁躉。一直以來,馬斯克的人工智能觀就是反OpenAI而行,他頻繁以政治中立、安全來強(qiáng)調(diào)xAI的不同。
三、Grok 野心能成嗎?
不過,馬斯克野心勃勃的計(jì)劃背后,Grok也面臨「內(nèi)憂外患」。
首先,就Grok自身而言,一方面,就B端,企業(yè)API調(diào)用上,Grok目前還沒有完備的服務(wù)企業(yè)的能力,而我們看到在服務(wù)企業(yè)上,用編碼等能力吸引企業(yè)級客戶,OpenAI和Anthropic均有更快的進(jìn)展。據(jù)The information此前報(bào)道,Anthropic從使用其模型進(jìn)行軟件開發(fā)和代碼生成的客戶那里獲得的年化收入增長了10倍。另一方面在C端,目前Grok和X的集成度還不夠多,特別是尚未上線的語音、視頻等功能。
有業(yè)內(nèi)人士產(chǎn)生的困惑是,在OpenAI已集成了語音、視頻等功能下,包括豆包在內(nèi)的中國公司也做得不錯,Grok還能在這方面和X聯(lián)合作出哪些新的創(chuàng)意?“如果只是一個(gè)TTS(文本轉(zhuǎn)語音技術(shù)),那不會有改變”。(雖然直播中,xAI說不會是TTS)。
其次,在外部,在DeepSeek等中國模型公司的沖擊下,更激烈的競爭已經(jīng)開啟,OpenAI已發(fā)布GPT-4.5和GPT-5路線圖,Anthropic也宣布將推出Claude 4 系列。
某種程度上,在AI上的探索和嘗試反映出的是馬斯克從一而終的「競爭觀」——用令人驚訝的時(shí)間表,推著團(tuán)隊(duì)不顧一切的前進(jìn),從而逼近自己的預(yù)期目標(biāo),這在特斯拉、SpaceX身上都有過驗(yàn)證。
在社交媒體上,人們大多對馬斯克的嘗試表示興奮,這也發(fā)生在DeepSeek所掀起的浪潮中——一位人工智能創(chuàng)業(yè)者這樣寫:“新的LLM比賽已經(jīng)火爆起來了,一周后誰會贏?”