正在閱讀:

為ChatGPT做了嫁衣,谷歌做夢都想復仇

掃一掃下載界面新聞APP

為ChatGPT做了嫁衣,谷歌做夢都想復仇

大模型之爭遠未到終局。

文|每日人物社

自從去年末ChatGPT在全世界引起大模型狂熱后,“先驅(qū)”谷歌已經(jīng)在后輩的光環(huán)里暗淡了一整年。在龐然大物的谷歌面前,OpenAI只是一家小型創(chuàng)業(yè)公司,即便背后有微軟的大力支持,但跟谷歌豐沛的AI人才儲備、雄厚的資金實力和天量的算力資源相比,OpenAI就像是巨龍鼻息下盜寶的飛賊。

這個“小飛賊”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引領(lǐng)者,這是深耕AI十多年的谷歌無法接受的。

Gemini,對谷歌來說不只是一款遲到的產(chǎn)品,更是一場蓄謀已久的復仇。

文 | 曹婷婷 趙磊

編輯 | 趙磊

運營 | 圈圈兒

谷歌復仇歸來

對標GPT-4,超越GPT-4,這是谷歌最新推出的大模型Gemini與生俱來的使命。早在幾個月前,當Gemini的研發(fā)消息流傳出來時,就能感受到谷歌對其寄予的厚望:

將Google Brain和DeepMind合并,集合公司最資深的AI科學家和產(chǎn)品經(jīng)理們,數(shù)百人加班加點,耗盡谷歌內(nèi)部幾乎所有可用的計算資源,盡可能用最快的速度,訓練出一個能夠追趕甚至超過GPT-4的大模型。

于是,十幾天之前,當Gemini面世時,盡管ChatGPT已經(jīng)奪走了“人工智能的iPhone時刻”,但谷歌希望能再次重現(xiàn)當年人工智能第一次向世界展示偉力的“AlphaGo時刻”,借此完成對OpenAI的“復仇”。

Gemini確實在GPT一統(tǒng)天下的AI世界撕扯出一道裂隙。谷歌放出了一系列測試結(jié)果,Gemini是第一個在MMLU(大規(guī)模多任務語言理解)測評上超過人類專家的模型,它在此項取得的成績是90.0%,領(lǐng)先于人類專家的89.8%,而GPT-4則為86.4%。也就是說,在專業(yè)知識問題上,它不僅超過了GPT-4,甚至比人類專家懂得更多、更能給出合理的回答。

Gemini更大的優(yōu)勢在于,它是一個原生多模態(tài)的大模型,而已有的其他多模態(tài)大模型都是拼接而成的。用谷歌的話說:“從第一天起就是多模態(tài)大模型,跨越文本、圖像、視頻、音頻和代碼的無縫推理。”

▲ 圖 / 官網(wǎng)截圖

比起ChatGPT,Gemini更像人類的大腦,可以同時搜集、組合、理解不同類型的信息,輸出信息的時候也可以語言、手勢、動作、表情一起上。同一個大腦處理不同的信息,信息不會在“翻譯”的過程中丟失,與人類的溝通交流就會更順暢。

比如我們正常人,看到“老虎”兩個字就能直接聯(lián)想到老虎的形狀和跑起來的樣子,甚至腦海中會出現(xiàn)老虎的咆哮,而其他多模態(tài)大模型更像是一個聾啞人,需要先把聲音寫成文字或打出手語,才知道別人說了什么,不同信息在轉(zhuǎn)換中難免產(chǎn)生誤解。

在谷歌的演示視頻里,Gemini用年輕男子的語氣,一邊看著用戶繪畫、變魔術(shù)、放視頻,一邊實時對畫面進行分析,并主動與用戶對話交談。那個場景,頗有《鋼鐵俠》里賈維斯與托尼一起探討鋼鐵戰(zhàn)甲該如何設計的感覺。

某種程度上,谷歌確實再一次為AI的演進樹立了一塊新的里程碑,正如當年谷歌貓項目、AlphaGo大戰(zhàn)李世石和提出Transformer架構(gòu)掀開AI新篇章那樣,谷歌在長達十多年的時間里,用一次次震驚世界的舉動,為人工智能的發(fā)展標注出一條清晰的路徑。

但自從去年末ChatGPT在全世界引起大模型狂熱后,“先驅(qū)”谷歌已經(jīng)在后輩的光環(huán)里暗淡了一整年。在龐然大物的谷歌面前,OpenAI只是一家小型創(chuàng)業(yè)公司,即便背后有微軟的大力支持,但跟谷歌豐沛的AI人才儲備、雄厚的資金實力和天量的算力資源相比,OpenAI就像是巨龍鼻息下盜寶的飛賊。

這個“小飛賊”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引領(lǐng)者,這是深耕AI十多年的谷歌無法接受的。

年初,微軟上線GPT-4支持的Bing Chat版搜索引擎后,更讓谷歌感到不安。很快,谷歌宣布推出Bard,一個自有大模型支持的聊天機器人。

在谷歌的描述里,Bard既擁有ChatGPT一樣隨機應變的聊天功能,還能更“負責任”。彼時,ChatGPT正因一本正經(jīng)的編瞎話而廣受詬病,谷歌成功陰陽了一把。這也讓外界對Bard期待值拉滿。后來的故事就像演電影一樣,戲劇性十足。在Bard的宣傳視頻中,竟然出現(xiàn)了事實性錯誤。

Bard被問了一個問題——“我可以告訴我 9 歲的孩子關(guān)于詹姆斯·韋伯太空望遠鏡的哪些新發(fā)現(xiàn)?”表面上,就像一位循循善誘的老師,Bard流暢地回答了這個問題。然而,卻把拍攝太陽系外行星第一張照片的人名說錯了。

第一次演示就說錯話。雖然谷歌迅速下架了相關(guān)演示視頻,然而事情一旦發(fā)生,破碎的信任便難以挽回。股價應聲大跌9%,市值縮水1000億美元。原本想靠Bard追上微軟和OpenAI的先發(fā)優(yōu)勢,卻栽了個大跟頭。在這場奪回AI領(lǐng)地的大戰(zhàn)中,谷歌出師不利。

隨著ChatGPT加速迭代,留給谷歌的時間也越來越緊張。谷歌本習慣每年五六月發(fā)布新品,這次卻選在年底。據(jù)美國媒體報道,谷歌的管理層擔心OpenAI、ChatGPT、微軟的Copilot正在成為AI領(lǐng)域的代表,谷歌不能再等下去了。

目前,Gemini的效果還有待驗證,已經(jīng)發(fā)布的Gemini Pro只是優(yōu)于GPT-3.5,還沒法全面趕超GPT-4。甚至有產(chǎn)業(yè)大佬質(zhì)疑谷歌Gemini宣傳視頻有剪輯痕跡,放大了產(chǎn)品的效果。谷歌倒是承認了視頻進行了后期處理,還放出了更為具體的交互過程圖文解析。

黑紅也是紅,或許是為了營銷,或許是太想做出炫酷的效果,總之,谷歌的復仇大作,又多了幾分戲劇效果。畢竟,谷歌這口氣,實在是憋了太久了,它太需要一次成功來證明自己。

起了個大早

谷歌開始大規(guī)模投入人工智能的時候,OpenAI還不存在。

2012年,谷歌用4400萬美元的代價,拍下了一家成立不到一個月、沒有產(chǎn)品、沒有收入,只有三個員工和幾篇論文的公司。

這家公司由多倫多大學教授杰夫·辛頓(Geoffrey Hinton)帶著自己兩個學生創(chuàng)立,他們建立的神經(jīng)網(wǎng)絡算法AlexNet,在ImageNet圖像識別比賽中以84%的準確率奪得冠軍,訓練成本之低,只用了4顆英偉達GPU。

這讓谷歌感受到巨大的挫敗。早在2011年,谷歌就創(chuàng)立Google Brain人工智能項目,目標是研究深度學習和神經(jīng)網(wǎng)絡,以改進谷歌產(chǎn)品和服務的性能,幾乎早于所有的美國科技公司。神經(jīng)網(wǎng)絡是一種機器學習的方向,通過模擬人類的大腦識別大量數(shù)據(jù)的模式,谷歌很早就意識到,這可能是讓機器學會聽說讀寫乃至最終可以思考的一個路徑。

Google Brain搞了一個The Cat Neurons(谷歌貓)研究項目,簡單說就是可以用神經(jīng)網(wǎng)絡算法在YouTube的視頻里識別貓,谷歌貓項目不僅有來自斯坦福的頂尖人工智能學者吳恩達和谷歌首席科學家杰夫·迪恩(Jeff Dean)帶領(lǐng),更有谷歌創(chuàng)始人拉里·佩奇(Larry Page)的傾力支持,動用了遍布谷歌各個數(shù)據(jù)中心的16000個CPU來進行訓練,才達到74.8%的識別率。谷歌內(nèi)部也做了ImageNet數(shù)據(jù)集的測試,識別率遠低于辛頓團隊。

在巨大的差異面前,恰逢辛頓團隊組織了一場“自我拍賣”,谷歌決定不惜一切代價收攬人才。當時參與競拍的共四方,除谷歌外,還有微軟、百度以及一家英國的人工智能實驗室DeepMind。實際上,百度是最早向辛頓教授提出邀約的科技公司,但谷歌給的錢實在是太多了。

辛頓帶著兩個學生進入谷歌后,很快就拿下了ImageNet圖像識別比賽的冠軍,但這已經(jīng)不重要了,最重要的是谷歌收攬了這幾位頂級人才,兩個學生之一就是后來OpenAI首席科學家的伊爾亞·蘇茨克維(Ilya Sutskever)。

太浩湖拍賣之后,大型科技公司都加入到搶人的行列。百度成立深度學習研究院,挖來了谷歌貓負責人吳恩達,F(xiàn)acebook挖來了“深度學習三巨頭”之一的楊立昆(Yann LeCun),蘋果挖來了辛頓的學生Ruslan Salakhutdinov,擔任蘋果首任AI總監(jiān)。

參與競拍的DeepMind,也逐漸意識到財大氣粗的科技公司正在不惜代價收購人工智能人才,作為創(chuàng)業(yè)公司的DeepMind毫無競爭力,只能選擇賣掉自己。這家公司從2010年就開始研究神經(jīng)網(wǎng)絡,致力于實現(xiàn)AGI,建造了一個能夠?qū)W習玩如《太空侵略者》、《乒乓球》和《打磚塊》等經(jīng)典雅達利游戲的系統(tǒng),特斯拉創(chuàng)始人埃隆·馬斯克、硅谷創(chuàng)業(yè)教父彼得·蒂爾是DeepMind的早期投資人。

▲ 2000年,彼得·蒂爾和馬斯克在PayPal公司總部拿著他們用于支付PayPal的VISA信用卡。圖 / 百度

Facebook和谷歌一同競拍DeepMind,但以德米斯·哈薩比斯(Demis Hassabis)為首的幾位創(chuàng)始人堅持DeepMind的技術(shù)不能用于軍事目的,且其通用人工智能技術(shù)必須由獨立的技術(shù)和倫理委員會監(jiān)督。扎克伯格不同意這些條件,最終DeepMind被谷歌以6.5億美元收入囊中。

谷歌出高價又妥協(xié),只為押注當時還飄渺的通用人工智能,Google Brain的不少員工并不理解公司。畢竟,DeepMind需要足夠的算力發(fā)展,而這背后意味著巨額投入。沒人知道DeepMind接下來還要燒多少錢,會燒多久。

這種擔憂不無道理。被谷歌收購以后,DeepMind連年虧損。2016年虧損1.27億英鎊,2017年虧損為2.8億英鎊,2018年的虧損就高達4.7億英鎊。但更長遠的事實證明,谷歌的大手筆頗有先見之明。

《經(jīng)濟學人》曾發(fā)表長文解析DeepMind對谷歌的意義。該刊認為,谷歌斥重金收購的DeepMind如今已經(jīng)成為了全球AI領(lǐng)域的一個金字招牌,而這一品牌效應將幫助谷歌吸引到最頂尖的AI人才,甚至在這一競爭中先聲奪人。

很快,谷歌就迎來了真正屬于自己的高光時刻。2016年,DeepMind推出的AlphaGo擊敗李世石,讓人工智能的力量震驚世界。谷歌也成為最先進AI技術(shù)的代名詞。此外,谷歌還收購了十幾家AI公司,投入巨大,立住了AI大哥的名號。

AlphaGo徹底激發(fā)了AI創(chuàng)業(yè)的熱情,一時間,VC、科學家、大學教授、創(chuàng)業(yè)者們,無一不在談論著AI商業(yè)化的可能性,但此時的AI還是專才,不管是下圍棋還是人臉識別、語音識別、翻譯,都只能滿足特定的功能。

直到2017年,谷歌的幾位研究員發(fā)表《Attention Is All You Need》論文,首先提出了Transformer算法,將其用于理解人類的語言,即自然語言處理。這篇開源的論文讓眾多研究AI的科學家和科技公司意識到,這可能是完全不同于識別型AI,實現(xiàn)通用型AI的關(guān)鍵鑰匙。

Transformer,成為后來所有LLM(大型語言模型)的基石。

巨人難轉(zhuǎn)身

如果沒有谷歌對Transformer的開源,就沒有后來ChatGPT的成功,OpenAI站在巨人的肩膀上,才看清楚自己前行的方向。

但起初,OpenAI是為了對抗谷歌才成立的。

2015年7月,馬斯克在自己的生日派對后,與來參加派對的朋友、時任谷歌CEO拉里·佩奇爆發(fā)了一場關(guān)于人工智能的爭論,佩奇認為人類最終會和AI機器共存,一起競爭,一起發(fā)展,而馬斯克認為放縱AI發(fā)展最終會毀滅人類,佩奇嘲諷馬斯克是偏袒人類的“物種主義者”。

這讓馬斯克再一次產(chǎn)生對谷歌控制人工智能發(fā)展的警惕。當年馬斯克投資DeepMind,也是出于對人工智能發(fā)展的擔憂,希望能近距離觀察,DeepMind被谷歌收購后,馬斯克便不再參與公司事務,但依然作為股東參與了2015年8月DeepMind召開的倫理委員會會議。當時DeepMind的創(chuàng)始人匯報了工作,并強調(diào)AI可能帶來的嚴重風險,比如導致虛假信息大量增加,導致大量民眾失業(yè),提議谷歌實行“全民基本收入”政策,即與普通民眾分享AI發(fā)展帶來的紅利。

馬斯克很贊同,但他的意見沒什么用,來自谷歌的金主們認為這些擔憂是過慮的。于是,馬斯克聯(lián)合了另一些對AI發(fā)展持有警惕態(tài)度的人,包括硅谷風投家山姆·奧特曼(Sam Altman),在2015年末成立了OpenAI,致力于防止人工智能威脅人類,開發(fā)造福全人類的通用人工智能,對抗大公司如谷歌等對人工智能的壟斷。

剛剛成立的OpenAI,就像一個專注學術(shù)研究的象牙塔,靠理想支撐,但不清楚具體要做什么。在理想的感召下,伊爾亞·蘇茨克維等一批頂尖科學家,以及DeepMind那些曾經(jīng)的布道者們,放棄了谷歌的高薪,從谷歌離開加入OpenAI。直到2017年,谷歌又幫助OpenAI解決了不知道干什么的問題,Transformer架構(gòu)成了OpenAI的攻堅方向。

自此,谷歌和OpenAI成了同一條跑道上的對手。但在大模型成長過程中,雙方走了兩條路線。第一種,可以理解為“閱讀理解”,即通過給出上一句預測下一句的方式不斷訓練模型,只為了讓大模型越來越“說人話”。2018年6月,OpenAI發(fā)布了只有解碼器(decoder-only)的GPT生成式預訓練模型GPT-1。

第二種,可以理解為“完形填空”。即給出一段話,擋住中間的某些部分,給出上下文進行訓練,可以讓大模型說的話更準確。2018年10月,谷歌重磅推出BERT,一個比GPT大四倍,擁有3.4億參數(shù)的大模型,幾乎在所有表現(xiàn)上碾壓了GPT。

BERT的成功一度讓OpenAI懷疑自己的路線是否正確,但作為創(chuàng)業(yè)公司,OpenAI沒有那么多錢去做別的嘗試,只能孤注一擲生成式AI,踐行著無腦堆參數(shù)的暴力美學,2019年2月推出的GPT-2沒有新架構(gòu),只是參數(shù)翻了十幾倍,模型堆疊層數(shù)翻了四倍,GPT-3再次翻倍。

而這期間的谷歌在干嘛呢?嘗試過完形填空類型的BERT,2019年10月,谷歌又發(fā)布了統(tǒng)一的模型框架——T5,既有編碼器又有解碼器,相當于把BERT和GPT結(jié)合起來,110億參數(shù)再次碾壓GPT-2。

看起來,谷歌在相當長一段時間里占有優(yōu)勢,但其實是在錯誤的方向上走了更遠的路。谷歌的變來變?nèi)?,給OpenAI留足了追趕的時間,繼續(xù)在GPT-3上暴力堆參數(shù),堆到1750億,驚喜地發(fā)現(xiàn)在大模型上出現(xiàn)了“智能涌現(xiàn)”,即參數(shù)量達到一個閾值,模型會出現(xiàn)一些開發(fā)者無法解釋的復雜能力,看起來就像擁有了人類的思維和推理。

這時谷歌才意識到自己選錯了方向,重新轉(zhuǎn)向只有解碼器的模型,也像OpenAI一樣堆參數(shù),2022年左右先后推出了FLAN模型和LaMDA 2模型,但最終棋差一招,OpenAI發(fā)表經(jīng)過「魔鬼調(diào)教」的InstructGPT和兄弟模型ChatGPT,一炮而紅,站在了人類通往AGI的潮頭。

技術(shù)上走的彎路,足足耽誤了谷歌18個月的時間。除此之外,領(lǐng)導層面的保守,也使得谷歌即使有所成績,也因為考慮風險,并未推出產(chǎn)品。

2021年5月,谷歌展示了其最新的人工智能系統(tǒng)LaMDA,一款對話應用語言模型。跟ChatGPT一樣,LaMDA可以使回答更加“合情合理”,讓對話更自然地進行。此外,它還可以利用外部知識源展開對話。而且,這些回復都不是預先設定的,甚至相同的答案不會用第二次。

彼時,距離ChatGPT出現(xiàn),還有一年半時間。但LaMDA卻沒能迎來ChatGPT式的爆火。甚至沒有太多人了解它。LaMDA被藏在深宮中,谷歌并未向公眾發(fā)布。被雪藏的一個原因是LaMDA存在較高的誤差,谷歌覺得有“毒性”,容易對用戶造成傷害。

谷歌CEO 桑達爾·皮查伊(SUndar Pichai)和谷歌AI部門長期負責人杰夫·迪恩(Jeff Dean)也曾表示,谷歌其實完全有能力拿出類似ChatGPT的成果。只是一旦導致事故,谷歌這樣的企業(yè)巨頭需要承受的經(jīng)濟及聲譽損失難以估量。

一個案例是之前Google Photo的AI把黑人自動打標簽成了猩猩,在政治正確的美國這是天大的災難,直接延緩了聊天機器人的開發(fā),最終慢了ChatGPT一步。

畢竟,全球有數(shù)十億用戶在使用谷歌的搜索引擎,而ChatGPT到12月初才突破100萬用戶。巨人難轉(zhuǎn)身,谷歌的試錯風險遠遠高于初創(chuàng)公司。

谷歌不交卷,大家都用不了。對于許多用戶而言,演示視頻都是虛的,“用誰吹誰”。谷歌也在當下失去了被世界看到的機會。

OpenAI的選擇

站在巨人的肩膀上,或者換句話,把巨人踩在腳下,OpenAI的成功尤為亮眼。

ChatGPT 就像哆啦A夢的口袋,似乎能解答你的任何疑問。不僅能回答連續(xù)的問題、還能生成文本摘要、對信息分類、寫代碼等,它也會承認錯誤、質(zhì)疑不正確的前提并拒絕不恰當?shù)恼埱?。某種程度上,擁有了近似人的特征。

在ChatGPT發(fā)布后的五天內(nèi),就有超過100萬的玩家,F(xiàn)acebook花了10個月才積累到這個數(shù)字。發(fā)布兩個月,ChatGPT月活躍用戶達到1億,堪稱史上增速最快的應用。為此,Instagram用了2.5年,TikTok用了9個月。

但OpenAI的成功,在OpenAI的科學家們眼中,更像是“與魔鬼做了一次交易”。

大模型的大,是由大數(shù)據(jù)、大算力、大算法撐起來的,因此,盡管神經(jīng)網(wǎng)絡的概念早在半個世紀前就有了,一直到十五年前,還停留在科幻層面,被科學界忽視,“正經(jīng)人誰研究那個”。直到英偉達的顯卡解決了算力問題,互聯(lián)網(wǎng)積累了海量的數(shù)據(jù),醉心于算法研究的AI科學家們才有了用武之地。

作為一家創(chuàng)業(yè)公司,OpenAI想在大模型道路上走得更遠,最終實現(xiàn)AGI,需要不斷燒錢,這是它與競爭對手谷歌之間最大的鴻溝。而作為非盈利組織的OpenAI,難以得到太多投資人青眼。堅持初心意味著沒錢發(fā)展,最終,2019年3月,OpenAI 重組,創(chuàng)建新公司OpenAI LP,成為一家“利潤上限(caped-profit)”機構(gòu)。每日人物在《突然被開除,ChatGPT之父做錯了什么?》一文中詳解了OpenAI的組織架構(gòu),這也成為OpenAI公司內(nèi)亂的伏筆。

雖然被OpenAI董事會開除的CEO奧特曼最終以勝利者的姿態(tài)回歸公司,但OpenAI內(nèi)部的分歧不會消失,正如OpenAI政變的幕后推動者、首席科學家蘇茨克維在采訪中表達的那樣:自己的首要任務不是制造下一代的 GPT,而是研究如何阻止超級人工智能失控——這是 OpenAI的起點。

在OpenAI內(nèi)亂中,有一個小小的插曲,OpenAI董事會在驅(qū)逐奧特曼之后,曾跟AI創(chuàng)業(yè)公司Anthropic秘密接洽,意圖合并兩家公司。Anthropic創(chuàng)始人Dario Amodei曾經(jīng)是OpenAI的員工,2020年離職創(chuàng)辦了這家公司,離職的原因正是覺得OpenAI枉顧AI的道德和倫理風險,在商業(yè)化和產(chǎn)品更新上走得太快。

無論如何,OpenAI再也回不去那個純粹的象牙塔了,正如《大西洋月刊》所寫的那樣,“在ChatGPT之后,賺取收入和利潤的道路變得清晰,你再也無法為‘理想主義研究實驗室’的身份做辯護了。那里有客戶正等著服務”。

無解的矛盾隱藏在OpenAI,等待著下一次的爆發(fā),也拉扯著ChatGPT更新的節(jié)奏,這對于谷歌來說,應該是個好消息。追趕還在繼續(xù),只要不下牌桌,這場AI競賽的結(jié)果依然難以預料。除了谷歌、OpenAI、微軟,Meta靠著開源招攬人氣,亞馬遜投資了OpenAI的潛在對手Anthropic,馬斯克也在摩拳擦掌重新奪回屬于他的榮光。

大模型一年,全球都開始激流勇進,誰是最后贏家尚未可知。唯一可以確認的是,AI的世界正在加速釋放想象。對人類而言,未知的風暴尚在醞釀中。

 

參考資料:

[1]紐約時報萬字長文:AI行業(yè)的雄心,恐懼和金錢.全天候科技

[2]追問AI大模型:7歲OpenAI打敗24歲谷歌 做對了什么?.財聯(lián)社

[3]2012,改變?nèi)祟惷\的180天.遠川研究所

[4]OpenAI何以掀翻Google布局多年的AI大棋?.飛哥說AI

[5]曾推出阿爾法狗的DeepMind,為什么沒能做出ChatGPT?.甲子光年

[6]背水一戰(zhàn)狙擊GPT-4,谷歌Gemini終發(fā)布,聽說讀寫全能選手.智能涌現(xiàn)

每人互動你怎樣看待谷歌的“復仇”?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

為ChatGPT做了嫁衣,谷歌做夢都想復仇

大模型之爭遠未到終局。

文|每日人物社

自從去年末ChatGPT在全世界引起大模型狂熱后,“先驅(qū)”谷歌已經(jīng)在后輩的光環(huán)里暗淡了一整年。在龐然大物的谷歌面前,OpenAI只是一家小型創(chuàng)業(yè)公司,即便背后有微軟的大力支持,但跟谷歌豐沛的AI人才儲備、雄厚的資金實力和天量的算力資源相比,OpenAI就像是巨龍鼻息下盜寶的飛賊。

這個“小飛賊”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引領(lǐng)者,這是深耕AI十多年的谷歌無法接受的。

Gemini,對谷歌來說不只是一款遲到的產(chǎn)品,更是一場蓄謀已久的復仇。

文 | 曹婷婷 趙磊

編輯 | 趙磊

運營 | 圈圈兒

谷歌復仇歸來

對標GPT-4,超越GPT-4,這是谷歌最新推出的大模型Gemini與生俱來的使命。早在幾個月前,當Gemini的研發(fā)消息流傳出來時,就能感受到谷歌對其寄予的厚望:

將Google Brain和DeepMind合并,集合公司最資深的AI科學家和產(chǎn)品經(jīng)理們,數(shù)百人加班加點,耗盡谷歌內(nèi)部幾乎所有可用的計算資源,盡可能用最快的速度,訓練出一個能夠追趕甚至超過GPT-4的大模型。

于是,十幾天之前,當Gemini面世時,盡管ChatGPT已經(jīng)奪走了“人工智能的iPhone時刻”,但谷歌希望能再次重現(xiàn)當年人工智能第一次向世界展示偉力的“AlphaGo時刻”,借此完成對OpenAI的“復仇”。

Gemini確實在GPT一統(tǒng)天下的AI世界撕扯出一道裂隙。谷歌放出了一系列測試結(jié)果,Gemini是第一個在MMLU(大規(guī)模多任務語言理解)測評上超過人類專家的模型,它在此項取得的成績是90.0%,領(lǐng)先于人類專家的89.8%,而GPT-4則為86.4%。也就是說,在專業(yè)知識問題上,它不僅超過了GPT-4,甚至比人類專家懂得更多、更能給出合理的回答。

Gemini更大的優(yōu)勢在于,它是一個原生多模態(tài)的大模型,而已有的其他多模態(tài)大模型都是拼接而成的。用谷歌的話說:“從第一天起就是多模態(tài)大模型,跨越文本、圖像、視頻、音頻和代碼的無縫推理?!?/p>

▲ 圖 / 官網(wǎng)截圖

比起ChatGPT,Gemini更像人類的大腦,可以同時搜集、組合、理解不同類型的信息,輸出信息的時候也可以語言、手勢、動作、表情一起上。同一個大腦處理不同的信息,信息不會在“翻譯”的過程中丟失,與人類的溝通交流就會更順暢。

比如我們正常人,看到“老虎”兩個字就能直接聯(lián)想到老虎的形狀和跑起來的樣子,甚至腦海中會出現(xiàn)老虎的咆哮,而其他多模態(tài)大模型更像是一個聾啞人,需要先把聲音寫成文字或打出手語,才知道別人說了什么,不同信息在轉(zhuǎn)換中難免產(chǎn)生誤解。

在谷歌的演示視頻里,Gemini用年輕男子的語氣,一邊看著用戶繪畫、變魔術(shù)、放視頻,一邊實時對畫面進行分析,并主動與用戶對話交談。那個場景,頗有《鋼鐵俠》里賈維斯與托尼一起探討鋼鐵戰(zhàn)甲該如何設計的感覺。

某種程度上,谷歌確實再一次為AI的演進樹立了一塊新的里程碑,正如當年谷歌貓項目、AlphaGo大戰(zhàn)李世石和提出Transformer架構(gòu)掀開AI新篇章那樣,谷歌在長達十多年的時間里,用一次次震驚世界的舉動,為人工智能的發(fā)展標注出一條清晰的路徑。

但自從去年末ChatGPT在全世界引起大模型狂熱后,“先驅(qū)”谷歌已經(jīng)在后輩的光環(huán)里暗淡了一整年。在龐然大物的谷歌面前,OpenAI只是一家小型創(chuàng)業(yè)公司,即便背后有微軟的大力支持,但跟谷歌豐沛的AI人才儲備、雄厚的資金實力和天量的算力資源相比,OpenAI就像是巨龍鼻息下盜寶的飛賊。

這個“小飛賊”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引領(lǐng)者,這是深耕AI十多年的谷歌無法接受的。

年初,微軟上線GPT-4支持的Bing Chat版搜索引擎后,更讓谷歌感到不安。很快,谷歌宣布推出Bard,一個自有大模型支持的聊天機器人。

在谷歌的描述里,Bard既擁有ChatGPT一樣隨機應變的聊天功能,還能更“負責任”。彼時,ChatGPT正因一本正經(jīng)的編瞎話而廣受詬病,谷歌成功陰陽了一把。這也讓外界對Bard期待值拉滿。后來的故事就像演電影一樣,戲劇性十足。在Bard的宣傳視頻中,竟然出現(xiàn)了事實性錯誤。

Bard被問了一個問題——“我可以告訴我 9 歲的孩子關(guān)于詹姆斯·韋伯太空望遠鏡的哪些新發(fā)現(xiàn)?”表面上,就像一位循循善誘的老師,Bard流暢地回答了這個問題。然而,卻把拍攝太陽系外行星第一張照片的人名說錯了。

第一次演示就說錯話。雖然谷歌迅速下架了相關(guān)演示視頻,然而事情一旦發(fā)生,破碎的信任便難以挽回。股價應聲大跌9%,市值縮水1000億美元。原本想靠Bard追上微軟和OpenAI的先發(fā)優(yōu)勢,卻栽了個大跟頭。在這場奪回AI領(lǐng)地的大戰(zhàn)中,谷歌出師不利。

隨著ChatGPT加速迭代,留給谷歌的時間也越來越緊張。谷歌本習慣每年五六月發(fā)布新品,這次卻選在年底。據(jù)美國媒體報道,谷歌的管理層擔心OpenAI、ChatGPT、微軟的Copilot正在成為AI領(lǐng)域的代表,谷歌不能再等下去了。

目前,Gemini的效果還有待驗證,已經(jīng)發(fā)布的Gemini Pro只是優(yōu)于GPT-3.5,還沒法全面趕超GPT-4。甚至有產(chǎn)業(yè)大佬質(zhì)疑谷歌Gemini宣傳視頻有剪輯痕跡,放大了產(chǎn)品的效果。谷歌倒是承認了視頻進行了后期處理,還放出了更為具體的交互過程圖文解析。

黑紅也是紅,或許是為了營銷,或許是太想做出炫酷的效果,總之,谷歌的復仇大作,又多了幾分戲劇效果。畢竟,谷歌這口氣,實在是憋了太久了,它太需要一次成功來證明自己。

起了個大早

谷歌開始大規(guī)模投入人工智能的時候,OpenAI還不存在。

2012年,谷歌用4400萬美元的代價,拍下了一家成立不到一個月、沒有產(chǎn)品、沒有收入,只有三個員工和幾篇論文的公司。

這家公司由多倫多大學教授杰夫·辛頓(Geoffrey Hinton)帶著自己兩個學生創(chuàng)立,他們建立的神經(jīng)網(wǎng)絡算法AlexNet,在ImageNet圖像識別比賽中以84%的準確率奪得冠軍,訓練成本之低,只用了4顆英偉達GPU。

這讓谷歌感受到巨大的挫敗。早在2011年,谷歌就創(chuàng)立Google Brain人工智能項目,目標是研究深度學習和神經(jīng)網(wǎng)絡,以改進谷歌產(chǎn)品和服務的性能,幾乎早于所有的美國科技公司。神經(jīng)網(wǎng)絡是一種機器學習的方向,通過模擬人類的大腦識別大量數(shù)據(jù)的模式,谷歌很早就意識到,這可能是讓機器學會聽說讀寫乃至最終可以思考的一個路徑。

Google Brain搞了一個The Cat Neurons(谷歌貓)研究項目,簡單說就是可以用神經(jīng)網(wǎng)絡算法在YouTube的視頻里識別貓,谷歌貓項目不僅有來自斯坦福的頂尖人工智能學者吳恩達和谷歌首席科學家杰夫·迪恩(Jeff Dean)帶領(lǐng),更有谷歌創(chuàng)始人拉里·佩奇(Larry Page)的傾力支持,動用了遍布谷歌各個數(shù)據(jù)中心的16000個CPU來進行訓練,才達到74.8%的識別率。谷歌內(nèi)部也做了ImageNet數(shù)據(jù)集的測試,識別率遠低于辛頓團隊。

在巨大的差異面前,恰逢辛頓團隊組織了一場“自我拍賣”,谷歌決定不惜一切代價收攬人才。當時參與競拍的共四方,除谷歌外,還有微軟、百度以及一家英國的人工智能實驗室DeepMind。實際上,百度是最早向辛頓教授提出邀約的科技公司,但谷歌給的錢實在是太多了。

辛頓帶著兩個學生進入谷歌后,很快就拿下了ImageNet圖像識別比賽的冠軍,但這已經(jīng)不重要了,最重要的是谷歌收攬了這幾位頂級人才,兩個學生之一就是后來OpenAI首席科學家的伊爾亞·蘇茨克維(Ilya Sutskever)。

太浩湖拍賣之后,大型科技公司都加入到搶人的行列。百度成立深度學習研究院,挖來了谷歌貓負責人吳恩達,F(xiàn)acebook挖來了“深度學習三巨頭”之一的楊立昆(Yann LeCun),蘋果挖來了辛頓的學生Ruslan Salakhutdinov,擔任蘋果首任AI總監(jiān)。

參與競拍的DeepMind,也逐漸意識到財大氣粗的科技公司正在不惜代價收購人工智能人才,作為創(chuàng)業(yè)公司的DeepMind毫無競爭力,只能選擇賣掉自己。這家公司從2010年就開始研究神經(jīng)網(wǎng)絡,致力于實現(xiàn)AGI,建造了一個能夠?qū)W習玩如《太空侵略者》、《乒乓球》和《打磚塊》等經(jīng)典雅達利游戲的系統(tǒng),特斯拉創(chuàng)始人埃隆·馬斯克、硅谷創(chuàng)業(yè)教父彼得·蒂爾是DeepMind的早期投資人。

▲ 2000年,彼得·蒂爾和馬斯克在PayPal公司總部拿著他們用于支付PayPal的VISA信用卡。圖 / 百度

Facebook和谷歌一同競拍DeepMind,但以德米斯·哈薩比斯(Demis Hassabis)為首的幾位創(chuàng)始人堅持DeepMind的技術(shù)不能用于軍事目的,且其通用人工智能技術(shù)必須由獨立的技術(shù)和倫理委員會監(jiān)督。扎克伯格不同意這些條件,最終DeepMind被谷歌以6.5億美元收入囊中。

谷歌出高價又妥協(xié),只為押注當時還飄渺的通用人工智能,Google Brain的不少員工并不理解公司。畢竟,DeepMind需要足夠的算力發(fā)展,而這背后意味著巨額投入。沒人知道DeepMind接下來還要燒多少錢,會燒多久。

這種擔憂不無道理。被谷歌收購以后,DeepMind連年虧損。2016年虧損1.27億英鎊,2017年虧損為2.8億英鎊,2018年的虧損就高達4.7億英鎊。但更長遠的事實證明,谷歌的大手筆頗有先見之明。

《經(jīng)濟學人》曾發(fā)表長文解析DeepMind對谷歌的意義。該刊認為,谷歌斥重金收購的DeepMind如今已經(jīng)成為了全球AI領(lǐng)域的一個金字招牌,而這一品牌效應將幫助谷歌吸引到最頂尖的AI人才,甚至在這一競爭中先聲奪人。

很快,谷歌就迎來了真正屬于自己的高光時刻。2016年,DeepMind推出的AlphaGo擊敗李世石,讓人工智能的力量震驚世界。谷歌也成為最先進AI技術(shù)的代名詞。此外,谷歌還收購了十幾家AI公司,投入巨大,立住了AI大哥的名號。

AlphaGo徹底激發(fā)了AI創(chuàng)業(yè)的熱情,一時間,VC、科學家、大學教授、創(chuàng)業(yè)者們,無一不在談論著AI商業(yè)化的可能性,但此時的AI還是專才,不管是下圍棋還是人臉識別、語音識別、翻譯,都只能滿足特定的功能。

直到2017年,谷歌的幾位研究員發(fā)表《Attention Is All You Need》論文,首先提出了Transformer算法,將其用于理解人類的語言,即自然語言處理。這篇開源的論文讓眾多研究AI的科學家和科技公司意識到,這可能是完全不同于識別型AI,實現(xiàn)通用型AI的關(guān)鍵鑰匙。

Transformer,成為后來所有LLM(大型語言模型)的基石。

巨人難轉(zhuǎn)身

如果沒有谷歌對Transformer的開源,就沒有后來ChatGPT的成功,OpenAI站在巨人的肩膀上,才看清楚自己前行的方向。

但起初,OpenAI是為了對抗谷歌才成立的。

2015年7月,馬斯克在自己的生日派對后,與來參加派對的朋友、時任谷歌CEO拉里·佩奇爆發(fā)了一場關(guān)于人工智能的爭論,佩奇認為人類最終會和AI機器共存,一起競爭,一起發(fā)展,而馬斯克認為放縱AI發(fā)展最終會毀滅人類,佩奇嘲諷馬斯克是偏袒人類的“物種主義者”。

這讓馬斯克再一次產(chǎn)生對谷歌控制人工智能發(fā)展的警惕。當年馬斯克投資DeepMind,也是出于對人工智能發(fā)展的擔憂,希望能近距離觀察,DeepMind被谷歌收購后,馬斯克便不再參與公司事務,但依然作為股東參與了2015年8月DeepMind召開的倫理委員會會議。當時DeepMind的創(chuàng)始人匯報了工作,并強調(diào)AI可能帶來的嚴重風險,比如導致虛假信息大量增加,導致大量民眾失業(yè),提議谷歌實行“全民基本收入”政策,即與普通民眾分享AI發(fā)展帶來的紅利。

馬斯克很贊同,但他的意見沒什么用,來自谷歌的金主們認為這些擔憂是過慮的。于是,馬斯克聯(lián)合了另一些對AI發(fā)展持有警惕態(tài)度的人,包括硅谷風投家山姆·奧特曼(Sam Altman),在2015年末成立了OpenAI,致力于防止人工智能威脅人類,開發(fā)造福全人類的通用人工智能,對抗大公司如谷歌等對人工智能的壟斷。

剛剛成立的OpenAI,就像一個專注學術(shù)研究的象牙塔,靠理想支撐,但不清楚具體要做什么。在理想的感召下,伊爾亞·蘇茨克維等一批頂尖科學家,以及DeepMind那些曾經(jīng)的布道者們,放棄了谷歌的高薪,從谷歌離開加入OpenAI。直到2017年,谷歌又幫助OpenAI解決了不知道干什么的問題,Transformer架構(gòu)成了OpenAI的攻堅方向。

自此,谷歌和OpenAI成了同一條跑道上的對手。但在大模型成長過程中,雙方走了兩條路線。第一種,可以理解為“閱讀理解”,即通過給出上一句預測下一句的方式不斷訓練模型,只為了讓大模型越來越“說人話”。2018年6月,OpenAI發(fā)布了只有解碼器(decoder-only)的GPT生成式預訓練模型GPT-1。

第二種,可以理解為“完形填空”。即給出一段話,擋住中間的某些部分,給出上下文進行訓練,可以讓大模型說的話更準確。2018年10月,谷歌重磅推出BERT,一個比GPT大四倍,擁有3.4億參數(shù)的大模型,幾乎在所有表現(xiàn)上碾壓了GPT。

BERT的成功一度讓OpenAI懷疑自己的路線是否正確,但作為創(chuàng)業(yè)公司,OpenAI沒有那么多錢去做別的嘗試,只能孤注一擲生成式AI,踐行著無腦堆參數(shù)的暴力美學,2019年2月推出的GPT-2沒有新架構(gòu),只是參數(shù)翻了十幾倍,模型堆疊層數(shù)翻了四倍,GPT-3再次翻倍。

而這期間的谷歌在干嘛呢?嘗試過完形填空類型的BERT,2019年10月,谷歌又發(fā)布了統(tǒng)一的模型框架——T5,既有編碼器又有解碼器,相當于把BERT和GPT結(jié)合起來,110億參數(shù)再次碾壓GPT-2。

看起來,谷歌在相當長一段時間里占有優(yōu)勢,但其實是在錯誤的方向上走了更遠的路。谷歌的變來變?nèi)?,給OpenAI留足了追趕的時間,繼續(xù)在GPT-3上暴力堆參數(shù),堆到1750億,驚喜地發(fā)現(xiàn)在大模型上出現(xiàn)了“智能涌現(xiàn)”,即參數(shù)量達到一個閾值,模型會出現(xiàn)一些開發(fā)者無法解釋的復雜能力,看起來就像擁有了人類的思維和推理。

這時谷歌才意識到自己選錯了方向,重新轉(zhuǎn)向只有解碼器的模型,也像OpenAI一樣堆參數(shù),2022年左右先后推出了FLAN模型和LaMDA 2模型,但最終棋差一招,OpenAI發(fā)表經(jīng)過「魔鬼調(diào)教」的InstructGPT和兄弟模型ChatGPT,一炮而紅,站在了人類通往AGI的潮頭。

技術(shù)上走的彎路,足足耽誤了谷歌18個月的時間。除此之外,領(lǐng)導層面的保守,也使得谷歌即使有所成績,也因為考慮風險,并未推出產(chǎn)品。

2021年5月,谷歌展示了其最新的人工智能系統(tǒng)LaMDA,一款對話應用語言模型。跟ChatGPT一樣,LaMDA可以使回答更加“合情合理”,讓對話更自然地進行。此外,它還可以利用外部知識源展開對話。而且,這些回復都不是預先設定的,甚至相同的答案不會用第二次。

彼時,距離ChatGPT出現(xiàn),還有一年半時間。但LaMDA卻沒能迎來ChatGPT式的爆火。甚至沒有太多人了解它。LaMDA被藏在深宮中,谷歌并未向公眾發(fā)布。被雪藏的一個原因是LaMDA存在較高的誤差,谷歌覺得有“毒性”,容易對用戶造成傷害。

谷歌CEO 桑達爾·皮查伊(SUndar Pichai)和谷歌AI部門長期負責人杰夫·迪恩(Jeff Dean)也曾表示,谷歌其實完全有能力拿出類似ChatGPT的成果。只是一旦導致事故,谷歌這樣的企業(yè)巨頭需要承受的經(jīng)濟及聲譽損失難以估量。

一個案例是之前Google Photo的AI把黑人自動打標簽成了猩猩,在政治正確的美國這是天大的災難,直接延緩了聊天機器人的開發(fā),最終慢了ChatGPT一步。

畢竟,全球有數(shù)十億用戶在使用谷歌的搜索引擎,而ChatGPT到12月初才突破100萬用戶。巨人難轉(zhuǎn)身,谷歌的試錯風險遠遠高于初創(chuàng)公司。

谷歌不交卷,大家都用不了。對于許多用戶而言,演示視頻都是虛的,“用誰吹誰”。谷歌也在當下失去了被世界看到的機會。

OpenAI的選擇

站在巨人的肩膀上,或者換句話,把巨人踩在腳下,OpenAI的成功尤為亮眼。

ChatGPT 就像哆啦A夢的口袋,似乎能解答你的任何疑問。不僅能回答連續(xù)的問題、還能生成文本摘要、對信息分類、寫代碼等,它也會承認錯誤、質(zhì)疑不正確的前提并拒絕不恰當?shù)恼埱?。某種程度上,擁有了近似人的特征。

在ChatGPT發(fā)布后的五天內(nèi),就有超過100萬的玩家,F(xiàn)acebook花了10個月才積累到這個數(shù)字。發(fā)布兩個月,ChatGPT月活躍用戶達到1億,堪稱史上增速最快的應用。為此,Instagram用了2.5年,TikTok用了9個月。

但OpenAI的成功,在OpenAI的科學家們眼中,更像是“與魔鬼做了一次交易”。

大模型的大,是由大數(shù)據(jù)、大算力、大算法撐起來的,因此,盡管神經(jīng)網(wǎng)絡的概念早在半個世紀前就有了,一直到十五年前,還停留在科幻層面,被科學界忽視,“正經(jīng)人誰研究那個”。直到英偉達的顯卡解決了算力問題,互聯(lián)網(wǎng)積累了海量的數(shù)據(jù),醉心于算法研究的AI科學家們才有了用武之地。

作為一家創(chuàng)業(yè)公司,OpenAI想在大模型道路上走得更遠,最終實現(xiàn)AGI,需要不斷燒錢,這是它與競爭對手谷歌之間最大的鴻溝。而作為非盈利組織的OpenAI,難以得到太多投資人青眼。堅持初心意味著沒錢發(fā)展,最終,2019年3月,OpenAI 重組,創(chuàng)建新公司OpenAI LP,成為一家“利潤上限(caped-profit)”機構(gòu)。每日人物在《突然被開除,ChatGPT之父做錯了什么?》一文中詳解了OpenAI的組織架構(gòu),這也成為OpenAI公司內(nèi)亂的伏筆。

雖然被OpenAI董事會開除的CEO奧特曼最終以勝利者的姿態(tài)回歸公司,但OpenAI內(nèi)部的分歧不會消失,正如OpenAI政變的幕后推動者、首席科學家蘇茨克維在采訪中表達的那樣:自己的首要任務不是制造下一代的 GPT,而是研究如何阻止超級人工智能失控——這是 OpenAI的起點。

在OpenAI內(nèi)亂中,有一個小小的插曲,OpenAI董事會在驅(qū)逐奧特曼之后,曾跟AI創(chuàng)業(yè)公司Anthropic秘密接洽,意圖合并兩家公司。Anthropic創(chuàng)始人Dario Amodei曾經(jīng)是OpenAI的員工,2020年離職創(chuàng)辦了這家公司,離職的原因正是覺得OpenAI枉顧AI的道德和倫理風險,在商業(yè)化和產(chǎn)品更新上走得太快。

無論如何,OpenAI再也回不去那個純粹的象牙塔了,正如《大西洋月刊》所寫的那樣,“在ChatGPT之后,賺取收入和利潤的道路變得清晰,你再也無法為‘理想主義研究實驗室’的身份做辯護了。那里有客戶正等著服務”。

無解的矛盾隱藏在OpenAI,等待著下一次的爆發(fā),也拉扯著ChatGPT更新的節(jié)奏,這對于谷歌來說,應該是個好消息。追趕還在繼續(xù),只要不下牌桌,這場AI競賽的結(jié)果依然難以預料。除了谷歌、OpenAI、微軟,Meta靠著開源招攬人氣,亞馬遜投資了OpenAI的潛在對手Anthropic,馬斯克也在摩拳擦掌重新奪回屬于他的榮光。

大模型一年,全球都開始激流勇進,誰是最后贏家尚未可知。唯一可以確認的是,AI的世界正在加速釋放想象。對人類而言,未知的風暴尚在醞釀中。

 

參考資料:

[1]紐約時報萬字長文:AI行業(yè)的雄心,恐懼和金錢.全天候科技

[2]追問AI大模型:7歲OpenAI打敗24歲谷歌 做對了什么?.財聯(lián)社

[3]2012,改變?nèi)祟惷\的180天.遠川研究所

[4]OpenAI何以掀翻Google布局多年的AI大棋?.飛哥說AI

[5]曾推出阿爾法狗的DeepMind,為什么沒能做出ChatGPT?.甲子光年

[6]背水一戰(zhàn)狙擊GPT-4,谷歌Gemini終發(fā)布,聽說讀寫全能選手.智能涌現(xiàn)

每人互動你怎樣看待谷歌的“復仇”?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。