文|適道
2024年LLM競(jìng)賽正式拉開,被稱為OpenAI“最強(qiáng)競(jìng)爭(zhēng)對(duì)手”的大模型公司Anthropic帶著Claude 3系列閃亮登場(chǎng)。而它的對(duì)手們,一個(gè)正和馬斯克“扯頭花”;另一個(gè)因?yàn)镚emini政治過分正確而焦頭爛額。
一時(shí)間,“全面碾壓GPT-4”“全球最強(qiáng)模型易主”等字眼鋪滿屏幕,似乎一年前由OpenAI開辟的盛世終于轉(zhuǎn)交給了Anthropic。
別忘了,GPT-4已經(jīng)是一年前的產(chǎn)物,GPT-5還在路上;谷歌也不是Anthropic的“對(duì)手”,是其背后第二大“金主爸爸”。有消息稱,去年12月,谷歌對(duì)Anthropic的投資擴(kuò)大到了20億美元。
而在這場(chǎng)“你追我趕”的游戲中,還有微軟“小兒子”Mistral AI已經(jīng)發(fā)布的Mistral Large,以及被Meta列為2024年重點(diǎn)任務(wù)的Llama 3等等。只不過,無論是Mistral AI還是Meta目前都是被GPT-4壓著打,只有“脫胎”于OpenAI的Anthropic拿出了可以與之一戰(zhàn)的“殺器”。
這也表明了,暫時(shí)的排名只是先來后到,今年的LLMs將全面開花,。因此,鋪天蓋地的“Open AI被追平比分”僅僅是Anthropic新品發(fā)布的一個(gè)噱頭,重點(diǎn)應(yīng)該放在人工智能公司選擇的商業(yè)化路徑上——當(dāng)Inflection、Character.AI,甚至OpenAI等公司進(jìn)一步探向to C消費(fèi)者用例時(shí),Anthropic卻一頭扎向了to B。這條思路在其剛剛發(fā)布的Claude 3系列的突出性能、定價(jià)策略上均有所體現(xiàn)。
一、“田忌賽馬”式定價(jià),瞄準(zhǔn)to B領(lǐng)域
Claude 3系列包含三個(gè)模型——Opus、Sonnet、Haiku,性能從高到低。
根據(jù)Anthropic公布的技術(shù)報(bào)告,Opus在知識(shí)測(cè)試MMLU、推理測(cè)試 GPQA、基礎(chǔ)數(shù)學(xué)測(cè)試 GSM8K 等一系列基準(zhǔn)測(cè)試中,均優(yōu)于GPT-4。Sonnet的性能與GPT-4不相上下;Haiku則略遜于GPT-4。不過,這項(xiàng)測(cè)試中沒有包含剛剛更新的GPT-4 Turbo和Gemini 1.5 Pro。
值得注意的是,MMLU(本科常識(shí))/ GSM8K (小學(xué)數(shù)學(xué))/ HumanEval (計(jì)算機(jī)代碼)等指標(biāo)上已嚴(yán)重飽和,幾乎所有的模型都表現(xiàn)相同。真正有區(qū)分度的為MATH(數(shù)學(xué)問題解答能力)和GPQA(領(lǐng)域?qū)<夷芰Γ?,后者可以體現(xiàn)模型在企業(yè)服務(wù)方面的能力。
據(jù)悉,Claude3 選擇了金融、法律、醫(yī)學(xué)和哲學(xué)作為專家領(lǐng)域。其中,Opus的GPQA準(zhǔn)確率達(dá)到了60%,這意味著其能力接近于同一領(lǐng)域且能夠上網(wǎng)的人類博士準(zhǔn)確率(65%—75%)。Sonnet達(dá)40.4%;Haiku達(dá)33.3%。而GPT-4僅為35.7%。
對(duì)此,英偉達(dá)資深A(yù)I科學(xué)家JimFan指出:我建議所有LLM的模型卡都應(yīng)該效仿這種做法,這樣不同的下游應(yīng)用就能知道可以期待什么。
同時(shí),考慮到企業(yè)客戶需要處理很多PDF、PPT、流程圖,Claude3 系列在視覺能力、準(zhǔn)確性、長(zhǎng)文本輸入和安全方面,均有所進(jìn)步。
例如,在準(zhǔn)確性方面,Anthropic 使用了大量復(fù)雜的事實(shí)問題來針對(duì)當(dāng)前模型中已知的弱點(diǎn),將答案分為正確答案、錯(cuò)誤答案(幻覺)、承認(rèn)“不知道”。相應(yīng)地,Claude3 可以表示自己不知道答案,而不是提供不正確的信息。除了更準(zhǔn)確的回復(fù),Claude 3甚至還能“引用”,指向參考材料中的精確句子來驗(yàn)證他們的答案。
在定價(jià)策略上,以GPT-4 Turbo的40美元/1M tokens;GPT-3.5 Turbo的2美元/1M tokens為對(duì)比。
最強(qiáng)能力Opus——90美元/1M tokens,適合最尖端的企業(yè)和機(jī)構(gòu)。其接近人類的理解能力,適用于需要高度智能和復(fù)雜任務(wù)處理的場(chǎng)景,如企業(yè)自動(dòng)化、市場(chǎng)分析和制定策略、復(fù)雜的數(shù)據(jù)分析和金融預(yù)測(cè)、生物醫(yī)學(xué)研究和開發(fā)等。
最高性價(jià)比Sonnet——18美元/1M tokens,適合大多數(shù)企業(yè)客戶規(guī)?;褂茫M(fèi)者客戶也可以負(fù)擔(dān)。其純文本任務(wù)表現(xiàn)與Opus相當(dāng),更適用于數(shù)據(jù)處理、代碼生成、個(gè)性化營(yíng)銷,圖文解析等中等復(fù)雜度的工作。
最快速度Haiku——1.5美元/1M tokens,適合消費(fèi)者客戶使用。其具備近乎即時(shí)的響應(yīng)能力,在大多數(shù)純文本任務(wù)上表現(xiàn)仍然相當(dāng)出色,且包含多模態(tài)能力(比如視覺),適用于與用戶實(shí)時(shí)互動(dòng)、內(nèi)容管理、物流庫存管理、文本翻譯等工作任務(wù)。
綜合來看,Claude 3的高端線Opus比OpenAI(GPT-4 Turbo)更貴,低端線Haiku比OpenAI(GPT-3.5 Turbo)更便宜。
如此一來,成敗似乎集中在了中端線Sonnet上。如果“更少的幻覺”“更專業(yè)的領(lǐng)域行家”“更高的性價(jià)比” 更吸引企業(yè)客戶。那么,GPT-4 Turbo的地位將會(huì)變得不尷不尬,直到局勢(shì)被GPT-5打破。
目前,用戶可以免費(fèi)體驗(yàn)中等性能的Sonnet,最強(qiáng)版Opus僅供Claude Pro付費(fèi)用戶使用(20美金/月),性能稍弱的Haiku即將推出。
PS:適道在Poe上使用同樣的提示語,讓Opus、Sonnet、GPT-4 Turbo隨機(jī)做了一段簡(jiǎn)單的新聞翻譯。結(jié)果,Sonnet的表現(xiàn)居然最好,甚至翻譯出了縮寫!Opus水平巨中,而GPT-4直接忽略了主語。。。
總之,這一套組合拳下來,正如Anthropic聯(lián)合創(chuàng)始人Amodei兄妹所言:“Anthropic更像是一家企業(yè)公司,而不是一家消費(fèi)者公司?!?/p>
目前,Claude的客戶包括科技公司Gitlab、Notion、Quora和Salesforce(Anthropic的投資者);金融巨頭橋水公司(Bridgewater)和企業(yè)集團(tuán)SAP,以及商業(yè)研究門戶網(wǎng)站LexisNexis、電信公司SK Telecom和丹娜法伯癌癥研究所(Dana-Farber Cancer Institute)。
根據(jù)Anthropic高管Eric Pelz的一份聲明:在Claude 3的早期測(cè)試用戶中,生產(chǎn)力軟件制造商Asana發(fā)現(xiàn)初始響應(yīng)時(shí)間縮短了42%;軟件公司Airtable表示,公司已將Claude 3 Sonnet集成到自己的人工智能工具中,以幫助加快內(nèi)容創(chuàng)建和數(shù)據(jù)匯總。
可以預(yù)見的是,在Claude 3發(fā)布之后,Anthropic的to B商業(yè)化之路將更加明晰,并與OpenAI等頭部大模型公司走上不同的道路,盡管最后可能殊途同歸。
二、十字路口的大模型公司
“賺的多,花的多”是頭部大模型公司的真實(shí)寫照。事實(shí)上,Anthropic的to B之路既是自愿選擇,也是形勢(shì)所迫。
截至2023年 12 月,OpenAI的ARR 已超16 億美元,2022年的ARR則為3000萬美元,增速高到驚人。
雖然尚無數(shù)據(jù)顯示Anthropic的2023年ARR ,但在2023年10月,Anthropic和投資人洽談時(shí)表示到2023年年底,將實(shí)現(xiàn) 2 億美元 ARR,每月近 1700 萬美元的營(yíng)收。另外,根據(jù) Anthropic 最新預(yù)測(cè),到2024 年底,其 ARR 將至少達(dá)到 8.5 億美元。
確實(shí)得益于快速的收入增長(zhǎng),2023年Anthropic 籌集了數(shù)十億美元,估值超過 150 億美元。
但根據(jù) Information 報(bào)道,有兩位知情人士透露,在支付客戶支持和AI 服務(wù)器成本后,2023年12月Anthropic的毛利率在50%—55%,根據(jù)Meritech Capital的數(shù)據(jù),這遠(yuǎn)低于云軟件公司77%的平均毛利率。
還有一位重要股東預(yù)測(cè),Anthropic長(zhǎng)期毛利率將在 60%左右,且該毛利率未反映訓(xùn)練 AI 模型的服務(wù)器成本,因?yàn)檫@些成本是被 Anthropic 納入其研發(fā)費(fèi)用中。
而根據(jù) Sam Altman的說法,每個(gè)模型成本可高達(dá)1億美元。不過,Altman自己也笑不出來,因?yàn)镺penAI的毛利率可能更低。畢竟 ChatGPT還有免費(fèi)版,白白花掉一批服務(wù)器成本。
上述事實(shí)均表明,即便你強(qiáng)如OpenAI,Anthropic,但AI初創(chuàng)公司普遍的利潤(rùn)率可能比現(xiàn)在的SaaS公司還低。
不過,現(xiàn)在問題還沒顯現(xiàn),畢竟大模型在風(fēng)口,投資人更關(guān)注其驚人的增速。這些AI初創(chuàng)公司也會(huì)以其樂觀的收入預(yù)測(cè)為依據(jù),按照未來一年收入的 50—100 倍的估值進(jìn)行融資。
當(dāng)然,只要AI創(chuàng)業(yè)能保持這種增長(zhǎng)勢(shì)頭,投資人是可以忽略虧損。直到,你的收入增長(zhǎng)掉進(jìn)30%—40%。一位VC合伙人表示:到那時(shí),如果一家公司的經(jīng)營(yíng)現(xiàn)金流為負(fù),并在短期內(nèi)沒有將至少10% 的收入轉(zhuǎn)化為現(xiàn)金流,就很難吸引新的投資人入局。
根據(jù) Meritech Capital數(shù)據(jù),上市軟件公司的中位數(shù)是未來收入的 6 倍。也就是說,隨著時(shí)間的推移,對(duì)于初創(chuàng)公司來說,維持這樣的收入倍數(shù)將越來越困難。
具體到Anthropic和OpenAI這對(duì)“大冤種”身上,兩家公司的增長(zhǎng)和利潤(rùn)率部分依賴于主要云服務(wù)提供商。
例如,谷歌和亞馬遜向 Anthropic 投了數(shù)十億美元,并將 Anthropic 的軟件出售給其云客戶。目前尚不清楚這些云廠商在銷售中獲得的提成比例,但如果改成是Anthropic直接向客戶賣模型,利潤(rùn)率可能會(huì)更高。
而微軟雖然用更低的利潤(rùn)租給OpenAI云服務(wù)器,但OpenAI 必須將直賣給客戶的部分收入返給微軟。而且,當(dāng)微軟將OpenAI 軟件賣給自己的云客戶時(shí),也會(huì)抽掉大部分收入。
因此,對(duì)于上述“冤種”AI創(chuàng)業(yè)公司來說,想要拿到高毛利。一方面,通過更新技術(shù),降低運(yùn)行成本,就像OpenAI已經(jīng)實(shí)現(xiàn)的;另一方面,像Anthropic“田忌賽馬”戰(zhàn)略一樣,找準(zhǔn)切口,聚焦企業(yè)客戶,盡可能創(chuàng)收,并保持高增速。
據(jù) Forbes報(bào)道,Anthropic最近以184億美元的估值融資7.5億美元,該公司計(jì)劃在未來幾個(gè)月內(nèi)增加代碼解釋、搜索功能和源代碼引用等功能。其創(chuàng)始人Amodei兄妹說:“我們將繼續(xù)擴(kuò)大模型規(guī)模,讓它們變得更加智能,同時(shí)也繼續(xù)努力讓更小、更便宜的模型變得更智能、更高效。一整年都會(huì)有不同程度地更新?!?/p>
三、大模型公司會(huì)否下場(chǎng)做選手?
為了更深入理解Anthropic的商業(yè)化路線,適道節(jié)選了一期創(chuàng)始人Dario Amodei訪談中的“商業(yè)化”部分,原文如下。
Dwarkesh Patel :你認(rèn)為目前的 AI 產(chǎn)品是否有足夠時(shí)間在市場(chǎng)上獲得長(zhǎng)期穩(wěn)定收入?還是隨時(shí)可能被更先進(jìn)的模型取代?或者到時(shí)候整個(gè)行業(yè)格局會(huì)變得完全不同?
Dario Amodei :這取決于對(duì)“大規(guī)?!钡亩x。目前已經(jīng)有幾家公司的年收入1 億—10 億美元,但能否達(dá)到每年數(shù)百億,甚至萬億級(jí)別,則難以預(yù)測(cè)。因?yàn)檫@還取決于很多不確定的因素。現(xiàn)在有些公司正在“大規(guī)?!睉?yīng)用創(chuàng)新型 AI,但這不能代表剛開始用就一步到位,達(dá)到最佳效果。而且,即使有收入也并不完全等于創(chuàng)造了經(jīng)濟(jì)價(jià)值,整個(gè)產(chǎn)業(yè)鏈的協(xié)同發(fā)展是一個(gè)長(zhǎng)期過程。
Dwarkesh Patel :從Anthropic角度來看,如果LLM的進(jìn)步如此迅速,那么理論上公司的估值應(yīng)該增長(zhǎng)得很快?
Dario Amodei :即使我們注重模型安全性研究而非直接商業(yè)化,在實(shí)踐中也能明顯感受到技術(shù)水平在以幾何級(jí)數(shù)上升。對(duì)那些將商業(yè)化視為首要目標(biāo)的公司來說,進(jìn)步肯定比我們更快。(xswl在內(nèi)涵OpenAI )。
雖然我們承認(rèn)LLM進(jìn)步神速,但對(duì)比整個(gè)經(jīng)濟(jì)體系的深度應(yīng)用過程,技術(shù)積累依然處于較低的起點(diǎn)階段。決定未來走向是這二者間的競(jìng)速——技術(shù)本身進(jìn)步速度、被有效整合和應(yīng)用,并進(jìn)入實(shí)體經(jīng)濟(jì)體系的速度。這二者都很可能高速發(fā)展,但結(jié)合順序和微小差異都可能導(dǎo)致相當(dāng)不同的結(jié)果。
Dwarkesh Patel :科技巨頭可能會(huì)在未來 2-3 年投入高達(dá) 100 億美元進(jìn)行模型訓(xùn)練,這會(huì)對(duì) Anthropic 帶來什么樣的影響?
Dario Amodei :情況1——如果因?yàn)槌杀締栴}無法保持前沿地位,那么我們將不會(huì)繼續(xù)堅(jiān)持開發(fā)最先進(jìn)的模型。相反,我們會(huì)研究如何從前幾代的模型中獲取價(jià)值。
情況2——接受被制衡。我認(rèn)為這些情況的正面影響可能比它們看起來的要更大。
情況3——當(dāng)模型訓(xùn)練到達(dá)這種量級(jí)后,可能開始會(huì)出現(xiàn)新的風(fēng)險(xiǎn),比如AI 濫用。
總結(jié)一下,雖然Dario堅(jiān)信LLM的能力會(huì)得到快速且顯著的提升,但可能受制于社會(huì)因素、創(chuàng)新采納效率,最終減緩其被“大規(guī)模”應(yīng)用的速度,無法發(fā)揮LLM的真正潛力。
據(jù)此,Anthropic的to B之路看起來也更加穩(wěn)妥。一方面,利用自己的“安全性”長(zhǎng)處,切入金融、法律、醫(yī)學(xué)等領(lǐng)域;另一方面,尋找偏重“技術(shù)應(yīng)用”,可以長(zhǎng)期合作的企業(yè)客戶,盡可能消除C端消費(fèi)者采用的不確定性。
說到這里,我們可以大膽預(yù)測(cè)一下,如果真如Dario預(yù)測(cè)的“社會(huì)采納速度低于模型發(fā)展速度”,那么,未來會(huì)否出現(xiàn)一批大模型公司親自下場(chǎng)做應(yīng)用?尤其在國(guó)內(nèi)。