文|雪豹財(cái)經(jīng)社 魏琳華
谷歌和Open AI的又一次對(duì)陣,剛剛落幕了。
北京時(shí)間5月14日凌晨,OpenAI發(fā)布端到端多模態(tài)AI大模型GPT-4o,酷似科幻電影《Her》的AI語(yǔ)音對(duì)話迅速成為關(guān)注焦點(diǎn)。
24小時(shí)后,攜新版Gemini AI大模型等產(chǎn)品,谷歌在北京時(shí)間5月15日凌晨1點(diǎn)的I/O 2024大會(huì)上重振旗鼓,試圖在AI賽道上重新奪回主動(dòng)權(quán)。
在過(guò)往一年中,多次被Open AI搶走風(fēng)頭的谷歌,能否打一個(gè)翻身仗?
不到兩小時(shí),提到121次AI
將近兩個(gè)小時(shí)的發(fā)布會(huì)上,關(guān)鍵詞“AI”貫穿了谷歌全場(chǎng)的演講展示。
“我猜想現(xiàn)場(chǎng)一定有人想數(shù)一數(shù)今天的發(fā)布會(huì)上有多少次提到AI?!痹贗/O發(fā)布會(huì)現(xiàn)場(chǎng),谷歌CEO桑德拉·皮查伊打趣道,觀眾席內(nèi)響起一片笑聲。
這個(gè)答案由谷歌AI現(xiàn)場(chǎng)完成統(tǒng)計(jì),“一共提到了120次?!逼げ橐琳f(shuō)。話音剛落,屏幕上的數(shù)字跳到了121次。
由皮查伊開場(chǎng),谷歌在發(fā)布會(huì)上先后介紹了他們?cè)谲浖?、硬件等方面的AI布局??梢哉f(shuō),關(guān)注前沿發(fā)展的谷歌,在人們今年所能見到的AI應(yīng)用方向上均有涉獵。
作為基礎(chǔ)架構(gòu)的大模型Gemini發(fā)布1.5 Pro型號(hào),再次打破100萬(wàn)tokens(文本中最小語(yǔ)義單元)的紀(jì)錄,原版相當(dāng)于一次可以處理長(zhǎng)達(dá)1500頁(yè)文本、30000行代碼或是長(zhǎng)達(dá)1小時(shí)的視頻,現(xiàn)在新模型將上下文窗口擴(kuò)大一倍,達(dá)到200萬(wàn)tokens。
聚焦于自有模型的能力突破之外,谷歌還面向開發(fā)者推出了輕量級(jí)模型Gemini 1.5 Flash,相較于舊有模型,Gemini Flash實(shí)現(xiàn)了低延遲響應(yīng)并降低使用成本,其100萬(wàn)tokens只要0.35美元。比前一天發(fā)布的GPT-4o更加便宜。
在多模態(tài)模型布局上,谷歌一口氣發(fā)布了圖片生成模型imagen和視頻生成模型Veo。其中,Veo支持生成60秒以上的1080P視頻,它被人們視為對(duì)標(biāo)Open AI的視頻生成模型Sora。
“生成視頻的難點(diǎn)在于解決物品在空間中的移動(dòng),并且隨著時(shí)間的推移需要保持一致性。”谷歌DeepMind負(fù)責(zé)人道格說(shuō)。“AI發(fā)展15年,我們就知道它會(huì)改變一切,現(xiàn)在已經(jīng)到了實(shí)現(xiàn)它的時(shí)刻。”
現(xiàn)場(chǎng)展示中,Veo發(fā)布了多個(gè)演示視頻:在草地上奔跑的獵豹、穿梭在星際之間的宇宙飛船等。在演示片中,谷歌展示了他們和影視從業(yè)者的合作實(shí)踐。初步看起來(lái),它擁有不輸于Sora的流暢體驗(yàn),但同樣不對(duì)外開放使用。
發(fā)布會(huì)現(xiàn)場(chǎng),皮查伊多次提及“Making AI more helpful for everyone ”,借助大模型Gemini的能力,谷歌開發(fā)了一系列AI功能。比如支持用搜索方式查找手機(jī)圖片的Ask Photo、AI助理Project Astra。
讓人眼前一亮的是Project Astra,在演示視頻中,通過(guò)手機(jī)和AR眼鏡的聯(lián)合使用,AI能夠在目之所及的范圍內(nèi)完成和用戶的實(shí)時(shí)交互。它不僅成功識(shí)別并向用戶解釋了圈出來(lái)的硬件,還能幫助用戶在桌子上找眼鏡、解答白板上的題目。Project Astra也被視為GPT-4o的對(duì)手。
谷歌還將Gemini集成在包括搜索引擎、Gmail、Maps等在內(nèi)的AI全家桶產(chǎn)品中。
備受關(guān)注的是,在這次發(fā)布會(huì)上,谷歌正式宣布推出AI搜索功能,目前僅支持向美國(guó)地區(qū)開放。在演示中,谷歌的AI搜索在解決復(fù)雜問題上應(yīng)用“多步推理”,以往需要搜索十次才能獲得的答案,合并到一個(gè)問題解決。比如一次性納入用戶的通勤和時(shí)間安排,通過(guò)AI搜索為用戶推薦適合的瑜伽館。
谷歌秀的肌肉,連自家員工也瞧不上
在谷歌這場(chǎng)秀肌肉的發(fā)布會(huì)上,Open AI依然是那個(gè)站在巨頭背后的幽靈。
從ChatGPT開啟新一輪人工智能浪潮的時(shí)候,它就給了谷歌重重一擊。自GPT-4發(fā)布之后,人們關(guān)注的目光更是開始向Open AI傾斜。
野心勃勃的Open AI CEO薩姆·阿爾特曼也將谷歌視為頭號(hào)競(jìng)爭(zhēng)對(duì)手。從宣傳時(shí)間的選擇到產(chǎn)品發(fā)布戰(zhàn)略,Open AI的槍口多次瞄向谷歌。
一年以來(lái),谷歌已經(jīng)在與Open AI的對(duì)陣中多次嘗到苦果:
2月15日,Gemini 1.5 Pro 發(fā)布。同一天,Open AI發(fā)布Sora,雖然目前仍然處于無(wú)法測(cè)試使用的狀態(tài),但Sora實(shí)現(xiàn)文生視頻的流暢性和畫面表現(xiàn)震驚科技圈。對(duì)比之下,Gemini的重大更新幾乎無(wú)人問津。
本次,Open AI剛剛舉辦的春季發(fā)布會(huì)同樣是一次有備而來(lái)的伏擊。Open AI將發(fā)布會(huì)時(shí)間由5月9日挪到了5月13日,剛好是谷歌舉辦I/O發(fā)布會(huì)的前一天。
在昨日的發(fā)布會(huì)上,Open AI只用了半個(gè)小時(shí),就押到了谷歌今天的兩個(gè)重點(diǎn)。
一是輕量級(jí)模型的發(fā)布,Open AI推出的GPT-4o同樣以低成本、快速響應(yīng)的方式實(shí)現(xiàn),官網(wǎng)介紹,GPT-4o達(dá)到了媲美GPT-4 Turbo的各項(xiàng)能力,但成本僅為后者的一半。
另一個(gè)是AI助手,Open AI CTO米拉·穆拉蒂現(xiàn)場(chǎng)演示了如何和手機(jī)上運(yùn)行的模型GPT-4o完成交談?!八鼘?duì)人類的情緒、語(yǔ)氣理解得十分自然精準(zhǔn),如同與一個(gè)真正的人類朋友或助理在聊天?!?/p>
在這段實(shí)時(shí)演示中,GPT-4o準(zhǔn)確識(shí)別了人類的情緒,它會(huì)開玩笑,調(diào)侃人類的呼吸聲音太大;它能依照用戶要求,更改說(shuō)話的語(yǔ)氣,比如用更夸張的戲劇腔代替冰冷的電子音;它還能實(shí)現(xiàn)同聲傳譯,準(zhǔn)確地把意大利語(yǔ)翻譯成英文。
正如阿爾特曼在X中提前預(yù)告的那樣,科幻電影《Her》中的劇情走入現(xiàn)實(shí),人類和AI實(shí)時(shí)對(duì)話的設(shè)想已經(jīng)具備實(shí)現(xiàn)的雛形。
為了防御對(duì)手,谷歌曾經(jīng)一個(gè)月發(fā)布5次大模型。今年2月,谷歌曾先后發(fā)布Gemini功能更新、推出Ultra版本、發(fā)布Gemini 1.5 Pro,并發(fā)布開源模型Gemma和世界模型Genie。
但這些不痛不癢的更新不僅沒有起到防御作用,甚至還引發(fā)了負(fù)面反饋。谷歌內(nèi)部流傳出的圖片曾毫不留情地吐槽,“連內(nèi)部員工都記不住這些大模型的名字”。
保守?cái)∮诏偪瘢皇R粡垺吧鷳B(tài)牌”
回顧過(guò)往,人工智能曾在2014年、2017年多次引起科技界的關(guān)注,而在幾次浪潮中,谷歌都扮演著先驅(qū)者的角色。
追溯至2011年,谷歌就已經(jīng)在公司內(nèi)部成立了“谷歌大腦”(Google Brain),專注于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)研究,目標(biāo)是“讓機(jī)器也能擁有理解和學(xué)習(xí)的能力”。
2014年,谷歌斥資4億美元收購(gòu)英國(guó)AI公司DeepMind,進(jìn)一步夯實(shí)了在深度學(xué)習(xí)領(lǐng)域的實(shí)力,孕育出了具有里程碑意義的AlphaGo(阿爾法圍棋)。次年,谷歌將機(jī)器學(xué)習(xí)系統(tǒng)TensorFlow開源,并啟動(dòng)研發(fā)AI芯片TPU,在算力層面為后續(xù)訓(xùn)練大模型打下硬件基礎(chǔ)。
2016年,皮查伊在當(dāng)年的I/O開發(fā)者大會(huì)上宣布,將AI置于公司首要發(fā)展戰(zhàn)略,正式向AI First轉(zhuǎn)型。在提出Transformer架構(gòu),并發(fā)布LaMda大模型后,從搜索、助理到Pixel手機(jī)、Nest家居等,谷歌開始全面把AI能力植入產(chǎn)品線。
谷歌更傾向于讓AI扮演一個(gè)輔助角色,對(duì)AI的態(tài)度偏保守。隨著時(shí)間軸滑向2023年,谷歌的風(fēng)頭慢慢被Open AI壓過(guò)一籌。谷歌的前瞻性布局和先發(fā)優(yōu)勢(shì),被Open AI的瘋狂打敗了。
在技術(shù)成熟的情況下,后起創(chuàng)業(yè)公司Open AI使用的核心技術(shù)正是由谷歌發(fā)明的。GPT的“T”就來(lái)源于2017年谷歌發(fā)布論文中研究的Transformer架構(gòu)。Open AI燒了大把的錢,砸出了訓(xùn)練大模型的可行方向。
ChatGPT在2022年底發(fā)布之時(shí),谷歌可能也注意到了這家初創(chuàng)公司,但未能引起足夠的重視和警惕。2023年1月,谷歌AI負(fù)責(zé)人Jeff Dean在一個(gè)內(nèi)部會(huì)議中表示,雖然谷歌擁有做AI產(chǎn)品的技術(shù)和能力,但和小型初創(chuàng)公司相比,谷歌做出決策必須更加保守。
直到2023年2月,ChatGPT引起巨大反響,被視為沖擊搜索引擎的新出口。谷歌匆忙應(yīng)戰(zhàn),推出大模型Bard,卻因常識(shí)性失誤引發(fā)口碑崩盤——在發(fā)布會(huì)現(xiàn)場(chǎng),Bard將智利超大望遠(yuǎn)鏡首次拍攝系外行星的功勞記在了詹姆斯·韋伯太空望遠(yuǎn)鏡上,間接引發(fā)谷歌母公司市值暴跌1000億美元。
在之后的表現(xiàn)中,谷歌逐漸消磨掉了人們的信任。Gemini Ultra版本發(fā)布一天后被質(zhì)疑造假,有內(nèi)部員工表示“這(視頻)是不切實(shí)際的”,谷歌最后也承認(rèn)演示視頻是經(jīng)剪輯制作的效果。
多次犯下致命失誤后,谷歌AI產(chǎn)品的信服力越降越低。谷歌正在盡力追趕并彌補(bǔ)過(guò)失。從這次發(fā)布會(huì)的動(dòng)作來(lái)看,谷歌的策略調(diào)整為:以大而全的方式布局所有AI細(xì)分賽道的機(jī)會(huì)。
對(duì)于算力、算法和人才儲(chǔ)備充足,技術(shù)功底深厚的谷歌而言,借助于自家生態(tài)的優(yōu)勢(shì),谷歌將Gemini集成在方方面面,憑借數(shù)據(jù)積累,谷歌自有生態(tài)構(gòu)建的護(hù)城河壁壘,是Open AI所無(wú)法取代的。
“谷歌最堅(jiān)固的護(hù)城河是分銷,Gemini 不必成為最好的模型,也能成為世界上最常用的模型?!庇ミ_(dá)高級(jí)研究科學(xué)家范麟熙(Jim Fan)在X上評(píng)價(jià)。
不再領(lǐng)先的谷歌,只好握緊生態(tài)的優(yōu)勢(shì)牌。