文|藍(lán)洞商業(yè) 趙衛(wèi)衛(wèi)
老對(duì)手,新戲碼。
過(guò)去一周,美國(guó) GPT 熱潮的主角是 OpenAI 和谷歌,國(guó)內(nèi)大模型市場(chǎng)的主角則是字節(jié)跳動(dòng)和騰訊。
一方進(jìn)攻,另外一方往往就是防守反擊。趕在谷歌 i/o 發(fā)布一系列 AI 新產(chǎn)品之前,OpenAI 發(fā)布了能看能聽的智能助手「GPT-4o」,o 代表「omnimodel」(全能模型)。
與過(guò)往的語(yǔ)音助手不同,GPT-4o 可以實(shí)現(xiàn)更自然流暢的語(yǔ)音交互,相當(dāng)于給大模型裝上了眼睛、耳朵和嘴巴,這被視為徹底改變了人機(jī)交互的歷史。
大洋彼岸的國(guó)內(nèi) AI 市場(chǎng)也在發(fā)生類似的競(jìng)逐。
在開源與閉源的站隊(duì)中,騰訊混元大模型選擇了將 AI 文生圖功能版本開源,并公布了混元大模型在 AI 產(chǎn)業(yè)上一系列落地應(yīng)用。
而搶在 5 月 17 日的騰訊云生成式 AI 應(yīng)用峰會(huì)之前,字節(jié)宣布通過(guò)火山引擎為豆包大模型對(duì)外提供服務(wù),并用遠(yuǎn)低于行業(yè)的使用定價(jià)掀起了價(jià)格戰(zhàn)。
金沙江創(chuàng)投基金主管合伙人朱嘯虎評(píng)論說(shuō),一下子都從卷scaling law 180 度轉(zhuǎn)彎變成卷價(jià)格卷免費(fèi)了,說(shuō)好的AGI夢(mèng)想呢?
從國(guó)外到國(guó)內(nèi),卷價(jià)格還是技術(shù)應(yīng)用,正成為當(dāng)前中美 AI 科技行業(yè)競(jìng)逐中的最大看點(diǎn)。
1、字節(jié)掀價(jià)格戰(zhàn)
國(guó)內(nèi)大模型在應(yīng)用產(chǎn)品層落地上,字節(jié)的豆包已經(jīng)成為用戶量第一的 APP。
根據(jù) QuestMobile 最新公布的數(shù)據(jù),截止到 2024 年 3 月,AIGC APP 行業(yè)用戶已經(jīng)突破 7380 萬(wàn),同比增長(zhǎng)了 8 倍,其中,抖音旗下的豆包、百度旗下的文心一言以及天工、訊飛星火、Kimi 智能助手月活躍用戶分別為 2328.2 萬(wàn)、1466.1 萬(wàn)、966.1 萬(wàn)、620.4 萬(wàn)、589.7 萬(wàn) 。
而根據(jù)火山引擎公布的最新數(shù)據(jù),豆包 APP 的月活已經(jīng)超過(guò)了 2600 萬(wàn)。豆包的成績(jī)已經(jīng)肉眼可見,而且豆包開始取代云雀,成為字節(jié)跳動(dòng)旗下火山引擎對(duì)外提供大模型服務(wù)的統(tǒng)一名字。
在 5 月 15 日火山引擎的原動(dòng)力大會(huì)上,豆包大模型正式開啟對(duì)外服務(wù),其中最抓人眼球的就是遠(yuǎn)遠(yuǎn)低于行業(yè)標(biāo)準(zhǔn)的使用價(jià)格。
以豆包通用模型 pro-32k 版為例,模型推理輸入價(jià)格僅為 0.0008 元/千 Tokens。市面上,同規(guī)格模型的定價(jià)一般為 0.12 元/千 Tokens,所以醒目的標(biāo)題是 32k 版本的豆包模型價(jià)格比行業(yè)低了 99.3%,128k 版本的豆包大模型比行業(yè)價(jià)格低了95.8%。
豆包大模型的價(jià)格無(wú)疑震動(dòng)了行業(yè),但對(duì)于真正打算使用豆包大模型的開發(fā)者來(lái)說(shuō),他們更在意的一個(gè)是模型質(zhì)量,一個(gè)則是使用范圍。「作為 API 為客戶生成內(nèi)容則需接受良心的拷問(wèn),所以 800 元/10 億 token 的價(jià)格雖然香,也要看質(zhì)量」,有開發(fā)者表示。
「人人用得起的才是好模型」,這是豆包大模型低價(jià)戰(zhàn)略的一個(gè)賣點(diǎn),但有開發(fā)者表示,他看到價(jià)格之后計(jì)劃開始使用豆包大模型,卻發(fā)現(xiàn)需要企業(yè)認(rèn)證。也就是說(shuō),豆包大模型的價(jià)格雖然很香,但只是針對(duì)企業(yè)用戶,而不是個(gè)人開發(fā)者。
此外,很重要的一點(diǎn)就是「豆包大模型家族」的亮相,這讓字節(jié)在 AI 大模型領(lǐng)域的布局已經(jīng)初步成型。
豆包大模型旗下模型數(shù)量有 9 個(gè),分別是豆包通用模型 Pro、豆包通用模型 liti、豆包 角色扮演模型、豆包 語(yǔ)音合成模型、豆包 聲音復(fù)刻模型、豆包 語(yǔ)音識(shí)別模型、豆包 文生圖模型、豆包 Function Call 模型??梢悦黠@看出,豆包大模型在卡位不同的賽道,在應(yīng)用場(chǎng)景的豐富度上已經(jīng)初具規(guī)模。
但歸根結(jié)底,能贏得更多優(yōu)質(zhì)的客戶,才是當(dāng)下國(guó)內(nèi)大模型競(jìng)逐的方向。
原動(dòng)力大會(huì)上,展示出豆包大模型的合作伙伴有 18 家,包括招商銀行、蒙牛、OPPO等,此外,現(xiàn)場(chǎng)還分別成立了手機(jī)、汽車兩個(gè)生態(tài)伙伴聯(lián)盟,尤其是當(dāng)下競(jìng)逐激烈的汽車領(lǐng)域,合作伙伴包括吉利、長(zhǎng)城等 20 余家廠商。
但這也側(cè)面反映出目前 AI 應(yīng)用市場(chǎng)的發(fā)展還處于早期,比如作為案例的奇瑞汽車子品牌捷途汽車,其使用豆包大模型的范圍是打造智能客服,還通過(guò)豆包大模型與數(shù)字營(yíng)銷相結(jié)合,成為廣告投放的導(dǎo)航,加深了企業(yè)對(duì)用戶的理解。
價(jià)格戰(zhàn)是表面,實(shí)際目的是把降價(jià)作為賣點(diǎn),吸引更多用戶和企業(yè)使用,進(jìn)一步探索面向未來(lái)的大模型應(yīng)用。找到大模型用戶使用場(chǎng)景,這成為豆包大模型當(dāng)下的思路。
2、騰訊終于提速
去年年底,「藍(lán)洞商業(yè)」在《大模型「混亂期」:謹(jǐn)慎如騰訊,激進(jìn)如字節(jié)》一文已經(jīng)點(diǎn)明,騰訊和字節(jié)在大模型之路上背道而馳,騰訊當(dāng)時(shí)在 C 端用戶市場(chǎng)沒有做獨(dú)立 APP,只選擇利用微信小程序這一方式,而字節(jié)跳動(dòng)的大模型在國(guó)內(nèi)和國(guó)際市場(chǎng)都做了廣泛產(chǎn)品布局。
進(jìn)入到 2024 年年中,騰訊混元大模型終于開始提速。
其中最引人注意的兩個(gè)動(dòng)作,一個(gè)是宣布混元文生圖大模型對(duì)外開源,未來(lái)確定還會(huì)開源文生文大模型;另一個(gè)則是將在 5 月 30 日正式發(fā)布元寶 APP,這個(gè)大模型產(chǎn)品中集合了搜索、文檔總結(jié)、翻譯官和口語(yǔ)陪練等功能。
元寶 APP 是騰訊混元大模型第一款面向 C 端的獨(dú)立產(chǎn)品。在豆包和文心一言等 APP 占領(lǐng)的國(guó)內(nèi)市場(chǎng)中,騰訊還能拿下多少 AI 用戶規(guī)模?顯然是一件值得期待的事情,畢竟豆包 APP 2600 萬(wàn)的月活并不是一個(gè)很高的天花板。
而混元大模型開源的技術(shù)路線,也標(biāo)志著騰訊在大模型之路上開始站隊(duì)。
值得注意的是,騰訊混元大模型選擇開源的文生圖大模型,是與 OpenAI 發(fā)布的文生視頻模型 Sora 相同的 DiT(Diffusion Models with transformer)架構(gòu),是業(yè)內(nèi)首個(gè)中文原生的 DiT 架構(gòu),不僅能夠支持文生圖,也能作為視頻等多模態(tài)視覺生成的基礎(chǔ)。此外,混元文生圖大模型支持中英文雙語(yǔ)輸入及理解,參數(shù)量 15 億。
騰訊在最新一季的財(cái)報(bào)會(huì)提到,騰訊在微信和 QQ 等很多服務(wù)中都部署了混元大模型。
廣告可能是大模型最先見效的業(yè)務(wù),正如 Meta 基于大型語(yǔ)言模型 Advantage+ 改進(jìn)了他們的廣告工具。騰訊混元文生圖能力,已經(jīng)廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項(xiàng)業(yè)務(wù)及場(chǎng)景中。
今年年初,基于騰訊混元大模型,騰訊發(fā)布了一站式 AI 廣告創(chuàng)意平臺(tái)騰訊廣告妙思,可為廣告主提供文生圖、圖生圖、商品背景合成等多場(chǎng)景創(chuàng)意工具,有效提高了廣告生產(chǎn)及投放效率。
但目前看來(lái),混元大模型對(duì)騰訊核心的游戲業(yè)務(wù)幫助度并不高。財(cái)報(bào)會(huì)上提到游戲上尚未用上生成式 AI,混元可以利用 NPC 創(chuàng)造某種互動(dòng)體驗(yàn),但還不能取代現(xiàn)有的游戲內(nèi)容創(chuàng)作。目前游戲業(yè)務(wù)中是使用混元最大的場(chǎng)景是客服。
OpenAI 選擇閉源大模型,谷歌則是開源路線。國(guó)內(nèi)市場(chǎng),除了百度是閉源路線,阿里的通義千問(wèn)、百川智能、昆侖萬(wàn)維等公司都屬于開源路線,發(fā)布過(guò)不同參數(shù)的開源大模型。如今,騰訊也站隊(duì)開源,只能說(shuō)明開源大模型大概率是未來(lái)大勢(shì)所趨。
當(dāng)下,開源和閉源的路線之爭(zhēng)還難見分曉,「在開源和閉源的問(wèn)題上,我們認(rèn)為兩者都有其獨(dú)特的價(jià)值和作用。我們已經(jīng)有計(jì)劃在未來(lái)開源更多的模型,同時(shí)我們也在積極地開發(fā)通用人工智能,并探索如何廣泛地分配其帶來(lái)的利益。」OpenAI 創(chuàng)始人奧特曼最近表態(tài)說(shuō)。
智源研究院副院長(zhǎng)林詠華也曾對(duì)《財(cái)新》指出,模型需要的是機(jī)構(gòu)持續(xù)投入迭代創(chuàng)新,一旦落后很容易被替代,而軟件工具鏈則是技術(shù)積累、不斷做加法,不會(huì)突然間被取代。「模型一直會(huì)是后浪推前浪,最開始熱鬧的未必能笑到最后,反而是工具鏈通過(guò)生態(tài)的不斷積累能夠建起護(hù)城河。」
3、OpenAI 進(jìn)攻,谷歌反擊
GPT-4o 讓人眼前一亮的,就是其生動(dòng)的交互體驗(yàn)。
在其展示的視頻中,GPT-4o 作為一個(gè)大模型語(yǔ)音助手,可以隨時(shí)被用戶的指令打斷,在不同的情緒和語(yǔ)調(diào)中切換自然、實(shí)時(shí)響應(yīng),這讓 GPT-4o 大大超越了以往的人工智能語(yǔ)音助手。
而之所以命名為 o,就是因?yàn)槠淇梢蕴幚砦谋?、音頻和圖像的組合。GPT-4o 可以通過(guò)手機(jī)攝像頭看到現(xiàn)實(shí)世界的情況,例如可以給一位視障男子叫一輛出租車,告訴他車輛在靠近以及何時(shí)揮手。GPT-4o 還可以是一個(gè)數(shù)學(xué)老師,在識(shí)別數(shù)學(xué)問(wèn)題之后,通過(guò)語(yǔ)音指令一步步循循善誘的告訴孩子如何解答這道題。
GPT-4o 在翻譯、會(huì)議場(chǎng)景、語(yǔ)言培訓(xùn)方面的用途顯然極具想象力,「GPT4 的實(shí)際可用性太強(qiáng)了,現(xiàn)在開發(fā)者面前有個(gè)以小博大的機(jī)會(huì),就是立刻做一個(gè) GPT-4o 的套殼,去吊打市面上所有的 AI 陪伴類產(chǎn)品,這是一個(gè)典型的新技術(shù)帶來(lái) 10 倍好體驗(yàn) x OpenAI 不會(huì)做的方向?!褂袊?guó)內(nèi)的大模型開發(fā)者這樣認(rèn)為。
更重要的是,大模型裝上了眼睛、耳朵和嘴巴,勢(shì)必會(huì)帶來(lái) ChatGPT 在用戶層面的進(jìn)一步滲透。
行業(yè)分析人士認(rèn)為,從 OpenAI 的產(chǎn)品路線看,「當(dāng)下發(fā)布的 GPT-4o 大概率只是 GPT-4.5 的一部分,估計(jì) GPT-4.5 拆成兩個(gè)版本發(fā)完才會(huì)到 GPT-5」,而 GPT-5 將在當(dāng)前的技術(shù)基礎(chǔ)上實(shí)現(xiàn)巨大的飛躍。
要想在未來(lái)幾周內(nèi)體驗(yàn) GPT-4o,仍需要成為付費(fèi) ChatGPT-Plus(該公司每月 20 美元的功能)的用戶,而對(duì)于企業(yè)用戶來(lái)說(shuō),GPT-4o 的速度將是其當(dāng)前頂級(jí)產(chǎn)品 GPT-4 Turbo 的兩倍,成本僅為其一半。
這也擺明了一個(gè)事實(shí),那就是好東西都不會(huì)免費(fèi),GPT-4o 的推出意味著科技巨頭們?cè)絹?lái)越急迫的擴(kuò)大付費(fèi)用戶規(guī)模,以平衡在研發(fā)上投入的巨大資金和費(fèi)用。
華爾街最新公布的數(shù)據(jù)是,預(yù)計(jì)今年谷歌和 OpenAI 在人工智能服務(wù)的技術(shù)基礎(chǔ)建設(shè)上,二者合計(jì)的支出高達(dá) 970 億美元,這個(gè)數(shù)字比去年增長(zhǎng)了 42%。這種高投入的模式無(wú)疑讓大模型成為大廠之間的競(jìng)逐游戲,也讓玩家們面臨如何平衡投資回報(bào)之間的挑戰(zhàn)。
人工智能競(jìng)賽中的大模型進(jìn)化,更像是一個(gè)燒錢機(jī)器的比賽。
谷歌與 OpenAI 背后的微軟已經(jīng)在 AI 行業(yè)形成對(duì)壘之勢(shì),表面上看是 OpenAI 一直處于攻勢(shì),而谷歌處于防守之勢(shì),但美國(guó)的投資公司更愿意相信,在人工智能的這場(chǎng)競(jìng)賽中,獲勝者不可能只有一個(gè),谷歌依然是人工智能競(jìng)賽中的領(lǐng)先者。
在 Google I/O 開發(fā)者大會(huì)上,針對(duì) OpenAI 的發(fā)布但遲遲沒能開放的視頻模型 Sora,谷歌發(fā)布了視頻生成模型 Veo;針對(duì)語(yǔ)音助手模型的 GPT-4o,谷歌發(fā)布了同樣針對(duì)人工智能語(yǔ)音智能的 Project Astra;在文生圖模型上發(fā)布了最新的 Imagen 3;更重要的是,升級(jí)版的最強(qiáng)大AI模型 Gemini 將重塑傳統(tǒng)搜索模式,通過(guò)「人工智能概述」功能,自動(dòng)推理回答用戶的需求。
大模型的進(jìn)化之路依舊漫長(zhǎng),當(dāng)下沒有標(biāo)準(zhǔn)答案。
今年以來(lái),谷歌的股價(jià)上漲了 22%,這是微軟同期的兩倍。所以,OpenAI 與谷歌之間的對(duì)壘,將成為大模型第一梯隊(duì)未來(lái)很長(zhǎng)一段時(shí)間的重要看點(diǎn)。
國(guó)內(nèi)不論字節(jié)的豆包還是騰訊的混元,都在深挖內(nèi)部需求的同時(shí),極力招攬外部客戶,進(jìn)而構(gòu)建自己的應(yīng)用層能力。各家的每一個(gè)動(dòng)作,都可能被看作對(duì)手間的攻防之戰(zhàn)。
審校|陳秋霖