文|Jacky Liang
編譯|巴比特資訊 Wendy
自 OpenAI 發(fā)布 ChatGPT 以來,已經(jīng)過去幾個月的時間了。這個基于大型語言模型的聊天機器人不僅讓許多 AI 研究員大開眼界,還讓大眾見識到了 AI 的力量。簡而言之,ChatGPT 是一個可以響應(yīng)人類指令的聊天機器人,可以完成從寫文章、作詩到解釋和調(diào)試代碼的任務(wù)。該聊天機器人顯示出令人印象深刻的推理能力,其表現(xiàn)明顯優(yōu)于先前的語言模型。
在這篇文章中,我將從個人角度出發(fā),聊聊 ChatGPT 對三類人的影響:分別是 AI 研究員、技術(shù)開發(fā)人員和普通大眾。在文章中,我將推測 ChatGPT 等技術(shù)的影響,并簡單聊聊我認為可能發(fā)生的一些情況。這篇文章更傾向于發(fā)表個人觀點,而不是基于事實的報告,所以對這些觀點要持謹慎態(tài)度。那么,讓我們開始吧……
ChatGPT 之于 AI 研究員
對我這個 AI 研究員來說,從 ChatGPT 上學(xué)到的最重要的一課是:管理人類反饋對于提高大型語言模型 (LLM) 的性能非常重要。ChatGPT 改變了我,我猜也改變了許多研究人員對大型語言模型 AI 對齊問題的看法,我具體解釋一下。
在 ChatGPT 問世之前,我想當(dāng)然地認為,當(dāng)涉及到 LLM 時,我們面臨著兩個不同的問題。1)提高 LLM 在某些基于語言的任務(wù)(如總結(jié)、問答、多步驟推理)中的表現(xiàn),同時 2)避免有害的/破壞性的/有偏見的文本生成。我認為這兩個目標(biāo)是相關(guān)但獨立的,并將第二個問題稱為對齊問題。我從 ChatGPT 中了解到,對齊和任務(wù)表現(xiàn)其實是同一個問題,將 LLM 的輸出與人類的意圖對齊,既能減少有害內(nèi)容,也能提高任務(wù)表現(xiàn)。
為了更方便理解,這里給出一些背景信息:我們可以將現(xiàn)代的 LLM 訓(xùn)練分為兩個步驟。
- 第一步:神經(jīng)網(wǎng)絡(luò)模型的自監(jiān)督學(xué)習(xí)(SSL),在給定前一批單詞(tokens)序列的情況下預(yù)測下一個單詞(token)——這是在一個非常大的、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上訓(xùn)練的。
- 第二步:通過各種技術(shù)使 LLM 的生成與人類的偏好保持一致,比如在高質(zhì)量的指令遵循文本的小數(shù)據(jù)集上微調(diào) LLM,并使用強化學(xué)習(xí)來微調(diào) LLM 與預(yù)測人類偏好的學(xué)習(xí)獎勵模型。
在 ChatGPT 身上,OpenAI 很可能使用了許多不同的技術(shù),相互配合來產(chǎn)生最終的模型。另外,OpenAI 似乎能夠快速回應(yīng)網(wǎng)上關(guān)于模型出錯的投訴(例如產(chǎn)生有害的文本),有時甚至在幾天內(nèi)就能完成,所以他們也一定有辦法修改/過濾模型的生成,而無需重新訓(xùn)練/微調(diào)模型。
ChatGPT 標(biāo)志著強化學(xué)習(xí)(RL)的悄然回歸。簡而言之,有人類反饋的強化學(xué)習(xí)(RHLF)首先訓(xùn)練一個獎勵模型,預(yù)測人類會給某一 LLM 生成內(nèi)容打多高的分數(shù),然后使用這個獎勵模型通過 RL 來改善 LLM。
我不會在這里過多地討論 RL,但 OpenAI 歷來以其 RL 能力而聞名,他們寫的 OpenAI gym 啟動了 RL 研究,訓(xùn)練 RL 代理玩 DoTA,并以在數(shù)百萬年的模擬數(shù)據(jù)上使用 RL 訓(xùn)練機器人玩魔方而聞名。在 OpenAI 解散其機器人團隊之后,RL 似乎逐漸被 OpenAI 所遺忘,因為它在生成模型方面的成就主要來自于自我監(jiān)督學(xué)習(xí)。ChatGPT 的成功依賴于 RLHF,它使人們重新關(guān)注 RL 作為改進 LLM 的實用方法。
ChatGPT 的到來還證明了一點:學(xué)術(shù)界開發(fā)大規(guī)模 AI 功能將越來越困難。雖然這個問題在整個深度學(xué)習(xí)時代都可能出現(xiàn),但 ChatGPT 使它變得更加根深蒂固。不僅訓(xùn)練基本的 GPT-3 模型對小型實驗室來說遙不可及(GPT-3 和隨后 OpenAI 在微軟將 Azure 的全部力量投入到它身上之后,建立了專門的服務(wù)器群和超級計算機才開始真正發(fā)展,這不是巧合),而且 ChatGPT 的數(shù)據(jù)收集和 RL 微調(diào)管道可能對學(xué)術(shù)實驗室造成過大的系統(tǒng)/工程負擔(dān)。
將 ChatGPT 免費提供給公眾,可以讓 OpenAI 收集更多寶貴的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)對其未來的 LLM 改進至關(guān)重要。這樣一來,公開托管 ChatGPT 實質(zhì)上是 OpenAI 的大規(guī)模數(shù)據(jù)收集工作,而這不是小型組織能夠承擔(dān)的。
開源和與 HuggingFace 和 Stability 等公司在學(xué)術(shù)上的大規(guī)模合作可能是學(xué)術(shù)界目前前進的方式,但這些組織總是比擁有更大預(yù)算的小團隊前進得慢。我推測,當(dāng)涉及到最先進的語言模型時,開源通常會滯后于這些公司幾個月到一年。
我認為學(xué)術(shù)界可能扳回一成的唯一方法是,是否有國家級的計算云專門用于學(xué)術(shù) AI 研究。這無疑將花費數(shù)十億美元,需要專門的行政和工程人員。這并非毫無可能——它將類似于詹姆斯?韋伯太空望遠鏡和大型強子對撞機。在美國,一些人已經(jīng)在呼吁建立國家 AI 云,進行 LLM 推理,但訓(xùn)練和微調(diào) LLM 和其他基礎(chǔ)模型的能力也同樣重要。鑒于 AI 國家戰(zhàn)略重要性,我們可能會在不久的將來真正看到這個方向的發(fā)展。
同時,AI 研究員并不總是要訓(xùn)練大模型才能產(chǎn)生大影響。我的看法是,與其爭奪下一個最大最好的 LLM,較小的學(xué)術(shù)實驗室可以專注于改善現(xiàn)有 LLM 的使用,分析它們的優(yōu)勢和劣勢,并利用有些公司以非常低的成本托管這些非常強大的 LLM 的事實。例如,可以利用 OpenAI 和其他公司的現(xiàn)有 LLM API 來進行 LLM 對齊的研究,而不需要學(xué)術(shù)實驗室從頭開始訓(xùn)練這些模型。對強大的 LLM 的低成本和公開的訪問使得一整套公開的研究能夠發(fā)現(xiàn) LLM 的新能力和應(yīng)用。
ChatGPT 之于技術(shù)從業(yè)者
對于那些在技術(shù)領(lǐng)域工作和開發(fā)產(chǎn)品的人來說,ChatGPT 和類似的代碼編寫模型呈現(xiàn)出顯著的一階和二階效應(yīng)。對于程序員來說,使用基于 AI 的代碼補全和 ChatGPT 風(fēng)格的問答來學(xué)習(xí)編碼和理解現(xiàn)有的代碼庫將成為軟件工程工作中不可或缺的一部分。我推測,在未來的一年內(nèi),許多大學(xué)將開設(shè)計算機科學(xué)課程,教授在軟件工程等應(yīng)用中利用 AI 的最佳實踐。
ChatGPT 和更強大的 AI 代碼輔助將迫使軟件工程師對其操作的抽象級別進行根本性的重新制定。大多數(shù)軟件工程師不需要推理低級機器代碼,因為我們有非常強大的編譯器,可以將人類可讀的代碼(如 C++)轉(zhuǎn)換為機器可讀的代碼。軟件工程師可以學(xué)習(xí)這些編譯器的內(nèi)部工作原理,以及如何編寫最充分利用這些編譯器特點和優(yōu)勢的代碼,但他們自己不需要編寫機器代碼,也不需要編寫自己的編譯器。
編碼 AI 很可能會成為新的“編譯器”,將高級額人類指令轉(zhuǎn)換為低級代碼,但是在更高的抽象級別上。未來的軟件工程師可能會編寫高級文檔、需求和偽代碼,他們會要求 AI 編碼員編寫今天人們編寫的中級代碼。通過這種方式,我不認為軟件工程師會被 AI 取代,而是被推到價值鏈的上游。未來,熟練掌握這項技能的軟件工程師可能需要了解不同編碼 AI 的優(yōu)缺點,以及如何針對特定的應(yīng)用領(lǐng)域最好地構(gòu)建和修改 AI。
以上是一階效應(yīng),ChatGPT 直接影響到技術(shù)從業(yè)者,特別是軟件工程師的工作方式。對技術(shù)產(chǎn)品所能提供的東西的二階影響可能會更深遠。ChatGPT 和類似的 LLM 通過 1)釋放全新的能力和 2)降低現(xiàn)有能力的成本,使其突然具有經(jīng)濟意義,從而使新產(chǎn)品成為可能。
上述第一點的一個例子是,現(xiàn)在我們可以通過簡單地讓 AI 編碼員將語言指令翻譯成調(diào)用該軟件 API 的代碼,為任何軟件添加自然語言用戶界面。以一種可信賴的和可泛化的方式來做這件事將需要大量的努力,就像發(fā)布真正的產(chǎn)品一樣,魔鬼就在細節(jié)中。盡管如此,這是一種徹頭徹尾的新能力,我猜測自然語言軟件 UI 會在所有的軟件平臺上爆發(fā),尤其是在那些傳統(tǒng)用戶界面感到笨重和不方便的平臺上(如移動設(shè)備、語音助手、VR/AR)。老實說,很難想象在 LLM 時代開發(fā)一款新應(yīng)用而不包含一個基于語言的用戶界面會怎么樣。入門的門檻很低(只需要調(diào)用一個公開的 LLM API),如果你不這樣做,你的競爭對手就會這樣做,而且會提供更好的用戶體驗。
降低現(xiàn)有能力的成本聽起來不像解鎖新能力那么有吸引力,但它同樣重要。LLM 可能存在很多有前景的應(yīng)用,但為這些下游任務(wù)微調(diào) LLM 的成本可能太高,不值得投資。有了 ChatGPT 和改進的指令跟蹤,開發(fā)者可能不再需要收集大量的數(shù)據(jù)集來進行微調(diào),而只需要依靠 zero-shot 性能(零樣本學(xué)習(xí)性能)。預(yù)計在許多處理文本輸入的現(xiàn)有應(yīng)用中,基于文本的分類、摘要和內(nèi)聯(lián)預(yù)測功能將出現(xiàn)大量的“小規(guī)?!盠LM 部署。這些對用戶體驗的邊際改善在以前可能投資回報比很低,但現(xiàn)在卻突然值得了。
低成本也意味著在應(yīng)用 LLM 和其他基礎(chǔ)模型的業(yè)務(wù)上有很多唾手可得的成果,通過良好的 UI/UX、現(xiàn)有軟件產(chǎn)品內(nèi)的集成以及有效的進入市場和貨幣化戰(zhàn)略為消費者創(chuàng)造價值。Lensa 是一個能滿足所有這些條件的例子。LLM 部署的這些更實際的方面往往會超過底層模型的絕對性能,成功的初創(chuàng)公司總是可以將舊的 LLM 與新的改進版本交換。這也意味著,那些應(yīng)用 LLM 的人不應(yīng)該把他們的技術(shù)棧與特定 LLM 的特性綁得太緊。LLM 的快速改進周期,加上可公開訪問的 API,以及關(guān)鍵的商業(yè)差異化因素不是模型本身,這可能意味著 LLMs 將被商品化。
未來將有兩種類型的科技公司能夠繼續(xù)向前發(fā)展——能夠負擔(dān)得起培訓(xùn)和運行自己的基礎(chǔ)模型的公司,以及負擔(dān)不起的公司,后者需要向前者支付基礎(chǔ)模型稅。這聽起來很有戲劇性,但它與我們今天的情況沒有什么不同,技術(shù)公司要么托管自己的服務(wù)器,要么向 AWS/Azure/GCP 交稅。AI 云業(yè)務(wù)將是未來云平臺的一個關(guān)鍵戰(zhàn)場,并將給競爭對手提供超越現(xiàn)有企業(yè)的機會。例如,憑借微軟的經(jīng)驗和與 OpenAI 的結(jié)合,Azure 很有可能憑借其 AI 云產(chǎn)品超越其他公司(微軟已經(jīng)在 Azure 上發(fā)布了 OpenAI 的模型,遠遠領(lǐng)先于其競爭對手亞馬遜和谷歌)。
最后,從一個更具推測性的角度來看,基于深度學(xué)習(xí)的基礎(chǔ)模型可能會讓我們在相當(dāng)長一段時間內(nèi)避免摩爾定律放緩帶來的負面后果。隨著這些模型的能力越來越強,它們將接管越來越多由傳統(tǒng)軟件完成的任務(wù),這意味著越來越多的軟件將可以通過僅僅優(yōu)化神經(jīng)網(wǎng)絡(luò)的性能而得到優(yōu)化。神經(jīng)網(wǎng)絡(luò)在 GPU 和特定應(yīng)用的芯片上運行,其性能的提高并沒有看到傳統(tǒng) CPU 改進的明顯減速,這大致可以在摩爾定律的減速中體現(xiàn)出來。我們真的很幸運,有一個單一的神經(jīng)網(wǎng)絡(luò)架構(gòu),即 Transformer(由 ChatGPT 和其他基礎(chǔ)模型使用),它可以代表通用計算,并經(jīng)過訓(xùn)練,可以很好地執(zhí)行這么多不同的任務(wù)。我們還沒有接近優(yōu)化 Transformer 性能的終點,所以我期望隨著 LLM 變得更加強大并取代更復(fù)雜的傳統(tǒng)軟件堆棧,計算機會變得更快。
ChatGPT 之于大眾
ChatGPT 是許多普通大眾可以直接與之互動的第一項 AI 技術(shù)。當(dāng)然,在 ChatGPT 之前,有 Siri 和 Alexa,而且深度學(xué)習(xí)應(yīng)用在許多商業(yè)應(yīng)用中已經(jīng)無處不在了。不同的是,以前部署的 AI 技術(shù)往往都在后臺工作,通過傳統(tǒng)軟件和有限的用戶界面層層 "過濾"。公眾通過 ChatGPT 對 AI 有了更直接的體驗,用戶可以直接向 LLM 輸入,并直接看到它的輸出(OpenAI 確實過濾了有害的內(nèi)容,并使用自己的提示修改了用戶的輸入,所以它沒有直接與底層模型互動,但也足夠接近)。ChatGPT 也明顯比以前的聊天機器人更強大。再加上該服務(wù)目前一直是免費的,這些因素將 ChatGPT 推向了主流世界的討論熱潮。
相對以前,這種和 AI 的親密接觸讓公眾對 AI 的新奇和炒作有了更真實的體驗。我可以想象,突然之間,對于那些不熟悉 LLM 工作原理的人來說,聊天機器人可能具有意識的說法聽起來并不太牽強。這也反映出了一個問題,當(dāng)涉及到 AI 的問題時,科學(xué)傳播的缺失——我認為 AI 界在向公眾宣傳和普及 AI 如何工作、能做什么、不能做什么,以及如何負責(zé)任地使用 AI 技術(shù)方面做的非常差。見鬼,我們甚至都不能確定技術(shù)從業(yè)者了解 LLM 的基本知識,更不用說普通民眾了,他們才是受這項技術(shù)影響的終端用戶。在接下來的幾年里,如果繼續(xù)不對 AI 進行教育和溝通,可能會面臨災(zāi)難性的后果,因為類似 ChatGPT 的模型會在沒有適當(dāng)預(yù)防措施的情況下進入關(guān)鍵任務(wù)的應(yīng)用。
或者,從某種意義上說,讓人們了解一項新技術(shù)的最好方法可能是讓公眾公開地試驗這項技術(shù)及其應(yīng)用,體驗它的失敗,并反復(fù)辯論和改進一些流行的觀點。這一波基礎(chǔ)模型的可用性,尤其是 ChatGPT 開創(chuàng)的免費使用的先例,可以讓公眾通過親身體驗更了解 AI,反過來引發(fā)更明智的理解和討論。
DALL-E 2 是第一個真正優(yōu)秀的文本到圖像生成模型,發(fā)布僅僅幾個月后,我們就已經(jīng)看到了來自公司和社區(qū)的一系列不同的政策反應(yīng),試圖適應(yīng)這種新的現(xiàn)實,從完全禁止 AI 藝術(shù)到納入 AI 藝術(shù)圖片的銷售。對于 ChatGPT,一些學(xué)術(shù)會議禁止它的使用(以及一些學(xué)校),而也有學(xué)者則將其列為合著者。圍繞生成式 AI 也有不少正在進行的訴訟。目前還不清楚使用這些模型的法律和道德方式是什么,但很明顯,這些圍繞 AI 使用政策的小規(guī)模實驗對于公眾弄清楚這些事真的很重要。我個人認為這是一個很好的方向,因為我相信公共政策應(yīng)該由公眾討論決定,而不是由任何一個托管這些模型的特定科技公司不清不楚的委員會決定。
關(guān)于 ChatGPT 和類似基礎(chǔ)模型的應(yīng)用的最后一個想法——技術(shù)部署總是比技術(shù)創(chuàng)新需要更長的時間(盡管采用速度正在加快),雖然人們可以在一個周末的時間建立令人印象深刻的 LLM 演示,但仍然需要大量的工作和試錯來建立可靠、可擴展的產(chǎn)品,為消費者帶來價值。在科技領(lǐng)域,我們可能會在 2023 年看到生成式 AI 應(yīng)用的海嘯,但我預(yù)計這些應(yīng)用在公眾中的傳播速度會慢得多。
有許多因素會減緩大規(guī)模生成式 AI 的采用——現(xiàn)有系統(tǒng)和產(chǎn)品的慣性,對 AI 取代人類的認知的文化障礙,運行 AI 的成本在很多應(yīng)用中可能沒有意義,LLM 輸出的不可靠性和可信度,以及擴大 LLM 計算基礎(chǔ)設(shè)施以實時服務(wù)數(shù)十億次的查詢。這些挑戰(zhàn)都不會在一夜之間,甚至在幾個月內(nèi)被克服。但它們最終會被克服,而 5 年后的世界將看起來非常不同。
未來如何?
如果說在過去 10 年的深度學(xué)習(xí)中我們學(xué)到了什么,那就是真的很難對 AI 做出準(zhǔn)確的預(yù)測,包括它的發(fā)展和部署。然而,我可以自信地說,ChatGPT 只是未來的一個小預(yù)告。對于基礎(chǔ)模型的未來,我在兩個方向上看到了有前景的進展,我認為在今年或明年會有突破性進展:1)真正多模態(tài)的 ChatGPT 級基礎(chǔ)模型(如文本、音頻、圖像、3 D、動作、視頻、文件),以及 2)被設(shè)計用于在環(huán)境中采取行動的基礎(chǔ)模型。
對于 1),想象一個類似 ChatGPT 的界面,但你不僅可以上傳文本,還可以上傳音頻、圖像、視頻、3 D 模型以及其他結(jié)構(gòu)化文件,并讓它 "理解"、分析、處理和生成這些內(nèi)容。這樣的技術(shù)如今已經(jīng)存在,將所有這些模式整合到一個模型中似乎很簡單。
對于 2),在不久的將來,擁有一個基礎(chǔ)模型,能夠通過鍵盤和鼠標(biāo)與計算機進行可靠的互動,以執(zhí)行人類今天的許多日常任務(wù),似乎是合理的。有一些證據(jù)表明這是可行的,從瞄準(zhǔn)機器人過程自動化的初創(chuàng)公司到試圖訓(xùn)練 AI 代理完成 Minecraft(游戲:我的世界)中的開放式目標(biāo)的研究人員。為物理機器人而不是虛擬代理開發(fā)這種面向動作的基礎(chǔ)模型將更加困難,但進展已經(jīng)在進行中。
關(guān)于商業(yè)化,一方面,科技巨頭有能力利用他們龐大的計算資源來訓(xùn)練真正強大的模型。但另一方面,公共/開源模型也將變得非常流行/易于使用,所以我不確定擁有自己的模型對很多應(yīng)用來說是一個很大的優(yōu)勢。如前所述,基礎(chǔ)模型很可能會被商品化。因此,對于已經(jīng)擁有設(shè)備/操作系統(tǒng)的大型科技公司來說,開發(fā)適合 LLM 的平臺,允許其他人使用基礎(chǔ)模型,并在上面建立新的應(yīng)用,而不是直接與其競爭建立這些應(yīng)用(想象一下,一個專門為多模式或面向行動的基礎(chǔ)模型定制的移動/AR/VR/桌面/網(wǎng)絡(luò)操作系統(tǒng)),這么做才是合理的。
最后,展望未來,我們可能會在未來 5 年內(nèi)告別 "從互聯(lián)網(wǎng)上獲取免費數(shù)據(jù)" 的制度,它真正推動了最近基礎(chǔ)模型的進展。雖然定制數(shù)據(jù)總是需要用于特定領(lǐng)域的微調(diào)/校準(zhǔn)(通過傳統(tǒng)的監(jiān)督學(xué)習(xí)或 RLHF),但用大規(guī)模的 "免費" 數(shù)據(jù)預(yù)訓(xùn)練強大的模型無疑導(dǎo)致了 GPT 和類似模型的成功??瓷鐓^(qū)如何超越僅僅搜刮現(xiàn)有的數(shù)字數(shù)據(jù)來提高基礎(chǔ)模型的性能,這將是很有趣的??梢钥隙ǖ氖牵覀?nèi)匀粫ㄟ^更好的訓(xùn)練和對齊技術(shù)來改進模型,但大規(guī)模自我監(jiān)督學(xué)習(xí)的下一個前沿是什么?下一個 10 萬億或 100 萬億的數(shù)據(jù)點從何而來?我很想知道。