正在閱讀:

從 Software 2.0 到 Software2:新一代 AI 變得越來(lái)越通用

掃一掃下載界面新聞APP

從 Software 2.0 到 Software2:新一代 AI 變得越來(lái)越通用

Software2 將數(shù)據(jù)重塑為軟件,對(duì)世界進(jìn)行搜索和建模,以產(chǎn)生自己的、可能是無(wú)限的訓(xùn)練任務(wù)和數(shù)據(jù)。

圖片來(lái)源:pexels-Sora Shimazaki

文|巴比特資訊

我們正處于從“從數(shù)據(jù)中學(xué)習(xí)”過(guò)渡到“從什么數(shù)據(jù)中學(xué)習(xí)”作為人工智能研究中心的邊緣。最先進(jìn)的深度學(xué)習(xí)模型,如 GPT-[X] 和 Stable Diffusion,被描述為數(shù)據(jù)海綿 [1] 能夠?qū)Υ罅康臄?shù)據(jù)[2,3]進(jìn)行建模。這些大型生成模型,許多是基于變換器架構(gòu)的,可以對(duì)大量的數(shù)據(jù)集進(jìn)行建模,學(xué)習(xí)生成圖像、視頻、音頻、代碼和許多其他領(lǐng)域的數(shù)據(jù),其質(zhì)量開始與人類專家撰寫的樣本相媲美。越來(lái)越多的證據(jù)表明,這種大模型的通用性受到訓(xùn)練數(shù)據(jù)質(zhì)量的極大限制。盡管訓(xùn)練數(shù)據(jù)對(duì)模型的性能有很大的影響,但主流的訓(xùn)練方法在本質(zhì)上并不是尋求數(shù)據(jù)。相反,它們忽略了訓(xùn)練數(shù)據(jù)中的信息質(zhì)量,而傾向于最大化數(shù)據(jù)數(shù)量。這種差異暗示著研究趨勢(shì)可能會(huì)轉(zhuǎn)向更加關(guān)注數(shù)據(jù)的收集和生成,以此作為提高模型性能的主要手段。

從本質(zhì)上講,為模型收集信息數(shù)據(jù)的問(wèn)題是探索——學(xué)習(xí)的一個(gè)普遍方面。在像現(xiàn)實(shí)世界這樣的開放式領(lǐng)域中,感興趣的可能任務(wù)集實(shí)際上是無(wú)限的,探索對(duì)于收集最適合學(xué)習(xí)新任務(wù)和提高已經(jīng)學(xué)習(xí)的性能的額外數(shù)據(jù)至關(guān)重要。這種開放式學(xué)習(xí)可能是機(jī)器學(xué)習(xí)(ML)系統(tǒng)最重要的問(wèn)題設(shè)置,因?yàn)椴渴鹚鼈兊默F(xiàn)實(shí)世界正是這樣一個(gè)開放式領(lǐng)域。在正確的時(shí)間主動(dòng)獲取正確的訓(xùn)練數(shù)據(jù)是智能的一個(gè)關(guān)鍵方面,它可以讓學(xué)習(xí)更有效地進(jìn)步——換句話說(shuō),它可以“先學(xué)走,再學(xué)跑”。那么,為什么在最近關(guān)于訓(xùn)練更通用模型的討論中,探索的概念在很大程度上被忽略了呢?

造成這種疏忽的一個(gè)原因可能是,在強(qiáng)化學(xué)習(xí)(RL)和監(jiān)督學(xué)習(xí)(SL)中通常研究的探索 -- 作為主動(dòng)學(xué)習(xí)的某種變體出現(xiàn) -- 主要是以靜態(tài)的、預(yù)定義的數(shù)據(jù)集或模擬器來(lái)設(shè)計(jì)的。正如 SL 的研究主要集中在優(yōu)化像 ImageNet 這樣的靜態(tài)基準(zhǔn)上的性能,RL 主要集中在任務(wù)的靜態(tài)模擬器的設(shè)置上。這種對(duì)靜態(tài)基準(zhǔn)的關(guān)注使得現(xiàn)有的探索概念不適合在像現(xiàn)實(shí)世界這樣的開放式領(lǐng)域中學(xué)習(xí),在那里,相關(guān)的任務(wù)集是無(wú)限的,不能被建模為一個(gè)靜態(tài)的、預(yù)定義的數(shù)據(jù)發(fā)生器。

在最近的一份立論中,我和我的合著者 Tim Rockt?schel 和 Edward Grefenstette 討論了廣義探索的想法。廣義探索不是把探索限制在可以從預(yù)定的模擬器或靜態(tài)數(shù)據(jù)集中取樣的數(shù)據(jù)上,而是尋求在所有可能的訓(xùn)練數(shù)據(jù)空間中探索那些對(duì)提高學(xué)習(xí)代理的能力最有用的樣本。例如,在 RL 的情況下,這需要搜索可能的訓(xùn)練環(huán)境空間,而在 SL 的情況下,需要搜索數(shù)據(jù)空間的表達(dá)式參數(shù)化,例如數(shù)據(jù)空間的生成模型的潛在空間。這種關(guān)于探索的更普遍的觀點(diǎn)連接了 SL 和 RL 之間的探索概念。重要的是,它還描述了如何將探索應(yīng)用于完全開放的領(lǐng)域,其中探索作為關(guān)鍵的數(shù)據(jù)收集過(guò)程,用于對(duì)越來(lái)越廣泛的能力的開放式學(xué)習(xí)。

這種開放式的探索過(guò)程有望成為推動(dòng)更通用的智能模型進(jìn)展的一個(gè)關(guān)鍵組成部分。隨著大規(guī)模的模型訓(xùn)練繼續(xù)利用越來(lái)越大的數(shù)據(jù)集的好處,研究人員預(yù)測(cè),最快到2025年,訓(xùn)練數(shù)據(jù)集的增長(zhǎng)速度可能很快超過(guò)網(wǎng)絡(luò)上高質(zhì)量數(shù)據(jù)的有機(jī)增長(zhǎng)速度。此外,更大的數(shù)據(jù)集需要更昂貴的計(jì)算來(lái)進(jìn)行訓(xùn)練。最近的研究表明,只對(duì)最高質(zhì)量的數(shù)據(jù)進(jìn)行集中訓(xùn)練可以使學(xué)習(xí)效率大幅提高,從而以極低的計(jì)算成本獲得更準(zhǔn)確的模型。這樣的工業(yè)數(shù)據(jù)動(dòng)態(tài)表明,開放式的探索過(guò)程,使學(xué)習(xí)系統(tǒng)能夠自主地收集或生成新的訓(xùn)練數(shù)據(jù),有望在 ML 研究中發(fā)揮重要作用。在接下來(lái)的幾年里,大量的研究投資可能會(huì)從模型設(shè)計(jì)和優(yōu)化轉(zhuǎn)移到探索目標(biāo)和數(shù)據(jù)生成過(guò)程的設(shè)計(jì)上。本文中討論的許多最近的研究計(jì)劃清楚地表明,這種轉(zhuǎn)變已在進(jìn)行中。

ML 系統(tǒng)生成自己的訓(xùn)練任務(wù)(以及由此產(chǎn)生的數(shù)據(jù))的高級(jí)概念并不新鮮。這個(gè)概念在不同程度上被 Schmidhuber 描述為“人工好奇心”,被 Clune 描述為“生成 AI 的 AI”。在這里,我們?cè)噲D激勵(lì)這樣一個(gè)觀點(diǎn):現(xiàn)在是這些概念在實(shí)際的、真實(shí)世界的 ML 系統(tǒng)中獲得牽引力的關(guān)鍵時(shí)刻。

如果深度學(xué)習(xí)可以被描述為“Software 2.0”-- 根據(jù)輸入/輸出對(duì)的例子進(jìn)行自我編程的軟件 -- 那么這種有望以數(shù)據(jù)為中心的范式,即軟件通過(guò)搜索自己的訓(xùn)練數(shù)據(jù)有效地改進(jìn)自己,可以被描述為一種“Software2”。這種范式繼承了 Software 2.0 的優(yōu)點(diǎn),同時(shí)改進(jìn)了其核心的、受數(shù)據(jù)約束的弱點(diǎn):深度學(xué)習(xí)(Software 2.0)要求程序員為每個(gè)新任務(wù)手動(dòng)提供訓(xùn)練數(shù)據(jù),而 Software2 則將數(shù)據(jù)重塑為軟件,對(duì)世界進(jìn)行搜索和建模,以產(chǎn)生其自己的、可能是無(wú)限的訓(xùn)練任務(wù)和數(shù)據(jù)。

本文的其余部分對(duì) Software2 背后的動(dòng)機(jī)和原則進(jìn)行了快速概覽。關(guān)于這些想法的更詳細(xì)討論可以在我們最近的立論文章中找到,“通用智能需要重新思考探索”。

通用智能

深度學(xué)習(xí)將編程重塑為優(yōu)化:與其編碼一連串的指令來(lái)執(zhí)行一項(xiàng)特定的任務(wù),不如簡(jiǎn)單地定義一個(gè)衡量該任務(wù)成功與否的目標(biāo)函數(shù),用它來(lái)優(yōu)化一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)為你完成任務(wù)。這個(gè)觀點(diǎn)在 Andrej Karpathy 2017 年的文章“Software 2.0”中得到了明確闡述。這種方法的一個(gè)主要好處是,直接搜索可以在大型 DNN 的權(quán)重中編碼的程序空間,可以得到復(fù)雜問(wèn)題的解決方案,超出人類程序員可以手動(dòng)編碼的范圍。試想一下,用手寫一個(gè)程序來(lái)給圖片加標(biāo)題,或者相反,從任何文字描述到匹配的圖片,都是非常困難的。

自“Software 2.0”發(fā)表以來(lái),深度學(xué)習(xí)可以說(shuō)已經(jīng)有了很大的進(jìn)步。最值得注意的是,我們后來(lái)發(fā)現(xiàn),經(jīng)過(guò)訓(xùn)練的 DNN 不僅在它們被訓(xùn)練的特定任務(wù)上表現(xiàn)出色,而且還經(jīng)常變得更具普遍能力,學(xué)會(huì)在它們?cè)谟?xùn)練期間看到的任務(wù)之外取得成功。

文本和視頻等格式的數(shù)據(jù)的高保真生成 -- 它們可以編碼幾乎所有感興趣的任務(wù)的詳細(xì)描述 -- 說(shuō)明了盡管在單一的任務(wù)目標(biāo)上進(jìn)行訓(xùn)練,DNN 如何能夠熟練掌握各種任務(wù)的情況:學(xué)習(xí)預(yù)測(cè)互聯(lián)網(wǎng)規(guī)模的文本語(yǔ)料庫(kù)樣本中的下一個(gè) token,必然要求模型學(xué)習(xí)多種文本內(nèi)容的結(jié)構(gòu),其中自然包括對(duì)應(yīng)不同任務(wù)的文本類別,如翻譯、回答問(wèn)題、總結(jié)、編寫代碼,甚至解釋笑話。最近的研究更進(jìn)一步,將各種任務(wù) -- 包括語(yǔ)言建模、多模態(tài)問(wèn)題回答以及控制模擬和具身代理人 -- 表現(xiàn)為一個(gè)序列建模問(wèn)題。通過(guò)訓(xùn)練一個(gè)大型的模型來(lái)逐片產(chǎn)生這樣的序列,所產(chǎn)生的模型可以通過(guò)簡(jiǎn)單地從一些為感興趣的任務(wù)設(shè)定場(chǎng)景的初始起始段(通常被稱為背景或提示)自動(dòng)完成序列的其余部分來(lái)學(xué)習(xí)執(zhí)行這些任務(wù)。

那么,一個(gè)自然的問(wèn)題是,這樣的深度學(xué)習(xí)方法是否能夠產(chǎn)生一個(gè)通用的智能模型 -- 例如,一個(gè)至少能夠執(zhí)行其人類受益者可能想要執(zhí)行的任何任務(wù)的模型?;卮疬@個(gè)問(wèn)題具有挑戰(zhàn)性,部分原因是大多數(shù)”通用智能“的定義是模糊的或無(wú)法量化的。為了更好地掌握這個(gè)問(wèn)題,我們選擇用相對(duì)的術(shù)語(yǔ)來(lái)考慮通用智能:如果 A 能夠在 D 領(lǐng)域的至少一項(xiàng)任務(wù)中超過(guò) B,同時(shí)在所有其他任務(wù)中與 B 相匹配,也就是說(shuō),如果 A 的表現(xiàn)在 D 領(lǐng)域的所有任務(wù)中都嚴(yán)格地支配著 B 的表現(xiàn),那么在 D 領(lǐng)域中,模型 A 就比模型 B 更通用。然后,我們用“日益通用智能”(IGI:increasingly general intelligence)這個(gè)術(shù)語(yǔ)來(lái)指代一個(gè)系統(tǒng)在相對(duì)于其他非學(xué)習(xí)代理的通用智能方面表現(xiàn)出的持續(xù)改進(jìn),包括自身的舊版本。當(dāng)然,這個(gè)定義的前提是任務(wù)領(lǐng)域足夠豐富,能夠支持這種持續(xù)的改進(jìn)。在這個(gè)意義上,我們稱 IGI 在進(jìn)行開放式學(xué)習(xí),其收集訓(xùn)練數(shù)據(jù)的相關(guān)過(guò)程為開放式探索。這種對(duì)通用智能的看法清楚地表明,根據(jù)定義,一個(gè)不進(jìn)行持續(xù)的、開放式探索的系統(tǒng)不可能是一個(gè) IGI。

開放式的探索

如果沒(méi)有一個(gè)持續(xù)尋求新的、有信息量的訓(xùn)練數(shù)據(jù)的過(guò)程,模型的學(xué)習(xí)將趨于平穩(wěn)。RL 和 SL 中的探索方法根據(jù)數(shù)據(jù)學(xué)習(xí)潛力的代用指標(biāo),直接確定了收集這些數(shù)據(jù)的優(yōu)先次序,這些代用指標(biāo)通常是通過(guò)許多方法來(lái)估計(jì)的,包括相對(duì)于過(guò)去訓(xùn)練數(shù)據(jù)點(diǎn)的新穎性的測(cè)量;模型的認(rèn)識(shí)不確定性;或者模型的預(yù)測(cè)在該數(shù)據(jù)上訓(xùn)練后的變化程度。然而,RL 和 SL 的探索方法主要集中在收集單一的、靜態(tài)的、預(yù)定義的模擬器或數(shù)據(jù)集中的信息樣本。靜態(tài)的數(shù)據(jù)源不能很好地反映現(xiàn)實(shí)世界的無(wú)限性和不斷變化的本質(zhì)。在這種靜態(tài)數(shù)據(jù)生成器的范圍之外進(jìn)行探索需要重新思考探索。廣義探索的框架提出了一條有希望的前進(jìn)道路。

與 RL 和 SL 中現(xiàn)有的探索概念不同(它采取主動(dòng)學(xué)習(xí)的形式),廣義的探索是從整個(gè)數(shù)據(jù)空間中尋找信息最豐富的樣本。一般來(lái)說(shuō),完整的數(shù)據(jù)空間可能是無(wú)界的,不能被單一的、預(yù)定義的數(shù)據(jù)集或模擬器捕獲。在這些情況下,我們必須不斷從數(shù)據(jù)集或模擬器之外收集更多的數(shù)據(jù),以逐漸擴(kuò)大其范圍,執(zhí)行一種引導(dǎo)過(guò)程。例如,一個(gè)典型的 RL 代理可以在一個(gè)程序化生成的環(huán)境中體驗(yàn)特定游戲的轉(zhuǎn)換,但它無(wú)法探索所有可能的游戲轉(zhuǎn)換。廣義的探索將探索所有游戲中可能的轉(zhuǎn)換空間,而不僅僅是有限數(shù)量的游戲中的轉(zhuǎn)換。當(dāng)被探索的數(shù)據(jù)空間不受限制時(shí),這個(gè)過(guò)程通過(guò)將數(shù)據(jù)收集與代理模型相聯(lián)系,在當(dāng)前代理模型經(jīng)歷最多學(xué)習(xí)進(jìn)展的轉(zhuǎn)換中逐步進(jìn)行搜索,從而執(zhí)行開放式探索。

那么,我們?nèi)绾尾拍芴剿魍暾臄?shù)據(jù)空間?我們需要在所有可能有用的數(shù)據(jù)上對(duì)搜索空間進(jìn)行參數(shù)化,并指定一個(gè)搜索標(biāo)準(zhǔn)來(lái)指導(dǎo)這個(gè)空間的探索。一個(gè)自然的搜索空間是所有相互一致的數(shù)據(jù)生成程序的空間 -- 在這個(gè)意義上,它們產(chǎn)生的輸入輸出對(duì)不應(yīng)該相互矛盾[4]。這樣的程序可能對(duì)應(yīng)于一個(gè)靜態(tài)的數(shù)據(jù)集,一個(gè)數(shù)據(jù)分布,或者一類任務(wù)的模擬器。然而,作為唯一的探索標(biāo)準(zhǔn),學(xué)習(xí)潛力可能是不夠的。同樣重要的是數(shù)據(jù)的多樣性,因?yàn)閿?shù)據(jù)空間中可能有許多部分提供高的學(xué)習(xí)潛力。此外,數(shù)據(jù)空間中可能有很大的區(qū)域與任何感興趣的實(shí)際任務(wù)無(wú)關(guān),因此將探索限制在接近我們所關(guān)心的任務(wù)類型上可能很重要。這種約束有助于將開放式的探索與更現(xiàn)實(shí)的任務(wù)聯(lián)系起來(lái)。然而,它們也會(huì)阻止學(xué)習(xí)系統(tǒng)探索潛在的重要任務(wù),這些任務(wù)看起來(lái)不像任何有實(shí)際價(jià)值的任務(wù),但卻可以作為掌握更有挑戰(zhàn)性的任務(wù)的墊腳石。因此,應(yīng)該用多少先驗(yàn)世界知識(shí)來(lái)限制探索是一個(gè)重要的開放性問(wèn)題。

當(dāng)然,我們?nèi)匀恍枰恍┓椒▉?lái)實(shí)際搜索所有數(shù)據(jù)生成程序的空間。在實(shí)踐中,我們作為系統(tǒng)設(shè)計(jì)者可以手動(dòng)定義感興趣的程序的高級(jí)規(guī)范,使它們以我們所關(guān)心的現(xiàn)實(shí)的不變特征為基礎(chǔ),但又足夠?qū)挿?,以涵蓋豐富的、無(wú)限制的任務(wù)空間。這樣的程序可以通過(guò) API 或人工干預(yù)將鉤子納入現(xiàn)實(shí)世界,使其能夠輸出真實(shí)和合成數(shù)據(jù)。一個(gè)相關(guān)的方法可能是搜索數(shù)據(jù)空間的生成模型的潛在空間,以產(chǎn)生新的數(shù)據(jù),使模型的學(xué)習(xí)潛力最大化。如果學(xué)習(xí)開始停滯不前,我們可以通過(guò)進(jìn)化規(guī)范來(lái)進(jìn)行干預(yù),比如可以在一個(gè)環(huán)中模型的協(xié)助下,按照預(yù)測(cè)的方向更新規(guī)范,提供具有更大學(xué)習(xí)潛力的數(shù)據(jù)。從某種意義上說(shuō),研究界對(duì)新基準(zhǔn)的持續(xù)、集體的發(fā)明起到了對(duì)數(shù)據(jù)生成程序持續(xù)搜索的作用。最近的研究如BIGBench,一個(gè)由越來(lái)越多的人類指定的基準(zhǔn)組成的基準(zhǔn),直接反映了這種模式。類似地,Dynabench 利用人工循環(huán)不斷為當(dāng)前模型生成新的、具有挑戰(zhàn)性的數(shù)據(jù)。

將數(shù)據(jù)視為軟件

通過(guò)將數(shù)據(jù)視為一種生成的軟件,Software2 呼應(yīng)了馮 - 諾依曼計(jì)算機(jī)架構(gòu),在該架構(gòu)中,程序指令和數(shù)據(jù)都被等價(jià)地存儲(chǔ)在內(nèi)存中。在馮 - 諾依曼架構(gòu)中,靜止的軟件等同于數(shù)據(jù)。而在 Software2 中,運(yùn)行中的數(shù)據(jù)等同于軟件。Software2 程序不斷自我改進(jìn)的能力使其成為實(shí)現(xiàn)展示 IGI 系統(tǒng)的重要組成部分。鑒于現(xiàn)在公認(rèn)的高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性 -- 如前所述,預(yù)計(jì)會(huì)越來(lái)越稀缺 -- 可能會(huì)有很多投資用于開發(fā)不同類型的 Software2 系統(tǒng)。許多研究的重點(diǎn)可能會(huì)從設(shè)計(jì)和優(yōu)化模型轉(zhuǎn)移到設(shè)計(jì)和優(yōu)化為這些模型產(chǎn)生訓(xùn)練數(shù)據(jù)的過(guò)程。在 ML 研究的許多領(lǐng)域,Software2 堆棧的關(guān)鍵組件已經(jīng)被積極開發(fā):

自動(dòng)課程學(xué)習(xí):在 SL 和 RL 中,自動(dòng)課程學(xué)習(xí)方法直接搜索數(shù)據(jù)點(diǎn)或模擬器配置,使代理的學(xué)習(xí)潛力最大化。這種方法,包括最近的環(huán)境設(shè)計(jì)方法,構(gòu)成了廣義探索的核心部分,給定了數(shù)據(jù)空間的適當(dāng)參數(shù)化,如豐富的模擬器、世界模型或?qū)?yīng)于可能任務(wù)的程序生成模型。通過(guò)競(jìng)爭(zhēng)動(dòng)態(tài)誘導(dǎo)課程的類似方法有望改善大型生成模型。例如,最近的一項(xiàng)研究表明,有可能對(duì)目標(biāo)語(yǔ)言模型進(jìn)行“紅隊(duì)”測(cè)試:也就是說(shuō),找到目標(biāo)模型的對(duì)抗性輸入,使其輸出攻擊性或其他不受歡迎的輸出。這樣的方法可以被折疊到一個(gè)在線訓(xùn)練過(guò)程中,目標(biāo)模型被逐步訓(xùn)練以糾正其在這些自動(dòng)發(fā)現(xiàn)的對(duì)抗性輸入上的行為。

由ACCEL誘導(dǎo)的自動(dòng)課程

生成模型:轉(zhuǎn)換器和擴(kuò)散模型,如產(chǎn)生合成三維數(shù)據(jù)的DreamFusion 模型,已經(jīng)徹底改變了我們對(duì)復(fù)雜的、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)分布進(jìn)行建模的能力。這樣的生成模型可以作為世界模型,用真實(shí)世界的數(shù)據(jù)不斷地更新,并作為一個(gè)開放的數(shù)據(jù)生成器進(jìn)行采樣。這種模式的一個(gè)特例是,最近發(fā)現(xiàn)大型語(yǔ)言模型(LLMs)可以通過(guò)對(duì)其自身生成的輸出進(jìn)行訓(xùn)練而自我改進(jìn),當(dāng)其輸出被過(guò)濾為某種數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)時(shí)。值得注意的是,正如 Toolformer 所展示的那樣,這種方法甚至可以讓 LLMs 自學(xué)如何使用新工具。

生成模型的合成數(shù)據(jù)示例(Dreamfusion)

人機(jī)交互界面:在確保軟件系統(tǒng)與我們希望 IGI 執(zhí)行的任務(wù)類型保持一致方面,人的指導(dǎo)可能會(huì)發(fā)揮關(guān)鍵作用。像 InstructGPT、Dynabench、Aesthetic Bot 和 GriddlyJS 這樣的作品展示了將人類的偏好和專業(yè)知識(shí)納入訓(xùn)練循環(huán)的有希望的方法。最重要的是,像 ChatGPT 和 StableDiffusion 這樣的大規(guī)模人工智能系統(tǒng)現(xiàn)在已經(jīng)部署在網(wǎng)絡(luò)上,與數(shù)以億計(jì)的用戶進(jìn)行互動(dòng)。這些交互提供了一個(gè)有效的無(wú)止境的開放式訓(xùn)練數(shù)據(jù),以提高這些模型的能力。雖然這些系統(tǒng)的能力范圍仍然受到限制(例如,ChatGPT 還不能代表用戶采取有限的文本提示以外的行動(dòng)),但它們提供了一個(gè)更先進(jìn)的 IGI 系統(tǒng)的預(yù)覽。

召喚 IGI

Software2 在現(xiàn)實(shí)世界中的實(shí)現(xiàn)可能是什么樣子的?作為一個(gè)簡(jiǎn)單的例子,想象一個(gè)虛擬助手,它可以通過(guò)控制瀏覽器完全訪問(wèn)網(wǎng)絡(luò),包括訪問(wèn)聊天界面與人溝通。人類感興趣的大多數(shù)任務(wù),從安排會(huì)議到訂購(gòu)雜貨,已經(jīng)可以通過(guò)一個(gè)基于網(wǎng)絡(luò)的中介來(lái)完成 -- 想想網(wǎng)絡(luò)應(yīng)用或按需服務(wù)。當(dāng)然,隨著人們不斷建立新的網(wǎng)站和發(fā)明新的活動(dòng)種類,網(wǎng)絡(luò)上的這類任務(wù)集正在不斷擴(kuò)大。然后,這個(gè)虛擬助理原則上可以成為一個(gè) IGI,學(xué)習(xí)通過(guò)網(wǎng)絡(luò)執(zhí)行越來(lái)越普遍的任務(wù)集。

我們可以應(yīng)用 Software2 的原則來(lái)訓(xùn)練這個(gè)虛擬助理,通過(guò)對(duì)基于網(wǎng)絡(luò)領(lǐng)域的數(shù)據(jù)生成程序的空間的普遍探索 -- 在這種情況下,也就是具體的網(wǎng)站。這種訓(xùn)練可以在一個(gè)程序化生成的模擬器或網(wǎng)頁(yè)的世界模型中進(jìn)行,該模型通過(guò)虛擬助手在真實(shí)網(wǎng)絡(luò)上的經(jīng)驗(yàn)和我們作為系統(tǒng)設(shè)計(jì)者認(rèn)為對(duì)訓(xùn)練特別重要的特定網(wǎng)頁(yè)的結(jié)合而不斷更新。此外,探索可能會(huì)積極搜索來(lái)自 YouTube 等網(wǎng)站的演示數(shù)據(jù),用于改善助手自己的決策,并告知模擬器或世界模型,用于生成訓(xùn)練的合成數(shù)據(jù)。像往常一樣,虛擬助手也可以直接根據(jù)自己在真實(shí)網(wǎng)絡(luò)上的導(dǎo)航經(jīng)驗(yàn)進(jìn)行訓(xùn)練。隨著時(shí)間的推移,我們可以預(yù)期這樣的學(xué)習(xí)系統(tǒng)會(huì)產(chǎn)生一個(gè)越來(lái)越有能力的虛擬助手,并且探索過(guò)程會(huì)逐漸包括更廣泛的網(wǎng)站空間,因?yàn)樗粩嗟貙ふ姨摂M助手可以學(xué)習(xí)新東西的網(wǎng)站。在高層次上,我們可以期待 Software2 系統(tǒng)類似于一個(gè)大規(guī)模的搜索引擎,提供一個(gè)進(jìn)入強(qiáng)大模型的界面,其核心組件在數(shù)據(jù)抓取過(guò)程的協(xié)助下不斷更新,不斷地在互聯(lián)網(wǎng)和現(xiàn)實(shí)世界中搜尋新的和有用的信息。

隨著我們的學(xué)習(xí)算法變得越來(lái)越強(qiáng)大,我們可以通過(guò)深入思考哪些數(shù)據(jù)可以提供給這些算法,以及我們?nèi)绾卧O(shè)計(jì)自我指導(dǎo)的系統(tǒng)來(lái)自己產(chǎn)生這些數(shù)據(jù),從而獲得巨大的收益。我們樂(lè)觀地認(rèn)為,鑒于開放網(wǎng)絡(luò)的不懈發(fā)展和 Software2 堆棧組件的迅速成熟,我們將很快看到廣泛有用的 IGI 的實(shí)現(xiàn),就像剛才描述的那樣。

這篇簡(jiǎn)短的文章描繪了 Software2 的大體輪廓,這是一種迅速崛起的、以數(shù)據(jù)為中心的范式,用于開發(fā)基于現(xiàn)代深度學(xué)習(xí)的自我改進(jìn)的程序。這是一種可能對(duì)未來(lái)軟件系統(tǒng)的設(shè)計(jì)產(chǎn)生影響的方法,就像最近正在進(jìn)行的向 2.0 及以后的過(guò)渡一樣。盡管如此,我們還只是觸及了表面。如果這些想法引起了你的興趣,你可能會(huì)喜歡閱讀我們完整的立論文件中的擴(kuò)展討論。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

從 Software 2.0 到 Software2:新一代 AI 變得越來(lái)越通用

Software2 將數(shù)據(jù)重塑為軟件,對(duì)世界進(jìn)行搜索和建模,以產(chǎn)生自己的、可能是無(wú)限的訓(xùn)練任務(wù)和數(shù)據(jù)。

圖片來(lái)源:pexels-Sora Shimazaki

文|巴比特資訊

我們正處于從“從數(shù)據(jù)中學(xué)習(xí)”過(guò)渡到“從什么數(shù)據(jù)中學(xué)習(xí)”作為人工智能研究中心的邊緣。最先進(jìn)的深度學(xué)習(xí)模型,如 GPT-[X] 和 Stable Diffusion,被描述為數(shù)據(jù)海綿 [1] 能夠?qū)Υ罅康臄?shù)據(jù)[2,3]進(jìn)行建模。這些大型生成模型,許多是基于變換器架構(gòu)的,可以對(duì)大量的數(shù)據(jù)集進(jìn)行建模,學(xué)習(xí)生成圖像、視頻、音頻、代碼和許多其他領(lǐng)域的數(shù)據(jù),其質(zhì)量開始與人類專家撰寫的樣本相媲美。越來(lái)越多的證據(jù)表明,這種大模型的通用性受到訓(xùn)練數(shù)據(jù)質(zhì)量的極大限制。盡管訓(xùn)練數(shù)據(jù)對(duì)模型的性能有很大的影響,但主流的訓(xùn)練方法在本質(zhì)上并不是尋求數(shù)據(jù)。相反,它們忽略了訓(xùn)練數(shù)據(jù)中的信息質(zhì)量,而傾向于最大化數(shù)據(jù)數(shù)量。這種差異暗示著研究趨勢(shì)可能會(huì)轉(zhuǎn)向更加關(guān)注數(shù)據(jù)的收集和生成,以此作為提高模型性能的主要手段。

從本質(zhì)上講,為模型收集信息數(shù)據(jù)的問(wèn)題是探索——學(xué)習(xí)的一個(gè)普遍方面。在像現(xiàn)實(shí)世界這樣的開放式領(lǐng)域中,感興趣的可能任務(wù)集實(shí)際上是無(wú)限的,探索對(duì)于收集最適合學(xué)習(xí)新任務(wù)和提高已經(jīng)學(xué)習(xí)的性能的額外數(shù)據(jù)至關(guān)重要。這種開放式學(xué)習(xí)可能是機(jī)器學(xué)習(xí)(ML)系統(tǒng)最重要的問(wèn)題設(shè)置,因?yàn)椴渴鹚鼈兊默F(xiàn)實(shí)世界正是這樣一個(gè)開放式領(lǐng)域。在正確的時(shí)間主動(dòng)獲取正確的訓(xùn)練數(shù)據(jù)是智能的一個(gè)關(guān)鍵方面,它可以讓學(xué)習(xí)更有效地進(jìn)步——換句話說(shuō),它可以“先學(xué)走,再學(xué)跑”。那么,為什么在最近關(guān)于訓(xùn)練更通用模型的討論中,探索的概念在很大程度上被忽略了呢?

造成這種疏忽的一個(gè)原因可能是,在強(qiáng)化學(xué)習(xí)(RL)和監(jiān)督學(xué)習(xí)(SL)中通常研究的探索 -- 作為主動(dòng)學(xué)習(xí)的某種變體出現(xiàn) -- 主要是以靜態(tài)的、預(yù)定義的數(shù)據(jù)集或模擬器來(lái)設(shè)計(jì)的。正如 SL 的研究主要集中在優(yōu)化像 ImageNet 這樣的靜態(tài)基準(zhǔn)上的性能,RL 主要集中在任務(wù)的靜態(tài)模擬器的設(shè)置上。這種對(duì)靜態(tài)基準(zhǔn)的關(guān)注使得現(xiàn)有的探索概念不適合在像現(xiàn)實(shí)世界這樣的開放式領(lǐng)域中學(xué)習(xí),在那里,相關(guān)的任務(wù)集是無(wú)限的,不能被建模為一個(gè)靜態(tài)的、預(yù)定義的數(shù)據(jù)發(fā)生器。

在最近的一份立論中,我和我的合著者 Tim Rockt?schel 和 Edward Grefenstette 討論了廣義探索的想法。廣義探索不是把探索限制在可以從預(yù)定的模擬器或靜態(tài)數(shù)據(jù)集中取樣的數(shù)據(jù)上,而是尋求在所有可能的訓(xùn)練數(shù)據(jù)空間中探索那些對(duì)提高學(xué)習(xí)代理的能力最有用的樣本。例如,在 RL 的情況下,這需要搜索可能的訓(xùn)練環(huán)境空間,而在 SL 的情況下,需要搜索數(shù)據(jù)空間的表達(dá)式參數(shù)化,例如數(shù)據(jù)空間的生成模型的潛在空間。這種關(guān)于探索的更普遍的觀點(diǎn)連接了 SL 和 RL 之間的探索概念。重要的是,它還描述了如何將探索應(yīng)用于完全開放的領(lǐng)域,其中探索作為關(guān)鍵的數(shù)據(jù)收集過(guò)程,用于對(duì)越來(lái)越廣泛的能力的開放式學(xué)習(xí)。

這種開放式的探索過(guò)程有望成為推動(dòng)更通用的智能模型進(jìn)展的一個(gè)關(guān)鍵組成部分。隨著大規(guī)模的模型訓(xùn)練繼續(xù)利用越來(lái)越大的數(shù)據(jù)集的好處,研究人員預(yù)測(cè),最快到2025年,訓(xùn)練數(shù)據(jù)集的增長(zhǎng)速度可能很快超過(guò)網(wǎng)絡(luò)上高質(zhì)量數(shù)據(jù)的有機(jī)增長(zhǎng)速度。此外,更大的數(shù)據(jù)集需要更昂貴的計(jì)算來(lái)進(jìn)行訓(xùn)練。最近的研究表明,只對(duì)最高質(zhì)量的數(shù)據(jù)進(jìn)行集中訓(xùn)練可以使學(xué)習(xí)效率大幅提高,從而以極低的計(jì)算成本獲得更準(zhǔn)確的模型。這樣的工業(yè)數(shù)據(jù)動(dòng)態(tài)表明,開放式的探索過(guò)程,使學(xué)習(xí)系統(tǒng)能夠自主地收集或生成新的訓(xùn)練數(shù)據(jù),有望在 ML 研究中發(fā)揮重要作用。在接下來(lái)的幾年里,大量的研究投資可能會(huì)從模型設(shè)計(jì)和優(yōu)化轉(zhuǎn)移到探索目標(biāo)和數(shù)據(jù)生成過(guò)程的設(shè)計(jì)上。本文中討論的許多最近的研究計(jì)劃清楚地表明,這種轉(zhuǎn)變已在進(jìn)行中。

ML 系統(tǒng)生成自己的訓(xùn)練任務(wù)(以及由此產(chǎn)生的數(shù)據(jù))的高級(jí)概念并不新鮮。這個(gè)概念在不同程度上被 Schmidhuber 描述為“人工好奇心”,被 Clune 描述為“生成 AI 的 AI”。在這里,我們?cè)噲D激勵(lì)這樣一個(gè)觀點(diǎn):現(xiàn)在是這些概念在實(shí)際的、真實(shí)世界的 ML 系統(tǒng)中獲得牽引力的關(guān)鍵時(shí)刻。

如果深度學(xué)習(xí)可以被描述為“Software 2.0”-- 根據(jù)輸入/輸出對(duì)的例子進(jìn)行自我編程的軟件 -- 那么這種有望以數(shù)據(jù)為中心的范式,即軟件通過(guò)搜索自己的訓(xùn)練數(shù)據(jù)有效地改進(jìn)自己,可以被描述為一種“Software2”。這種范式繼承了 Software 2.0 的優(yōu)點(diǎn),同時(shí)改進(jìn)了其核心的、受數(shù)據(jù)約束的弱點(diǎn):深度學(xué)習(xí)(Software 2.0)要求程序員為每個(gè)新任務(wù)手動(dòng)提供訓(xùn)練數(shù)據(jù),而 Software2 則將數(shù)據(jù)重塑為軟件,對(duì)世界進(jìn)行搜索和建模,以產(chǎn)生其自己的、可能是無(wú)限的訓(xùn)練任務(wù)和數(shù)據(jù)。

本文的其余部分對(duì) Software2 背后的動(dòng)機(jī)和原則進(jìn)行了快速概覽。關(guān)于這些想法的更詳細(xì)討論可以在我們最近的立論文章中找到,“通用智能需要重新思考探索”。

通用智能

深度學(xué)習(xí)將編程重塑為優(yōu)化:與其編碼一連串的指令來(lái)執(zhí)行一項(xiàng)特定的任務(wù),不如簡(jiǎn)單地定義一個(gè)衡量該任務(wù)成功與否的目標(biāo)函數(shù),用它來(lái)優(yōu)化一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)為你完成任務(wù)。這個(gè)觀點(diǎn)在 Andrej Karpathy 2017 年的文章“Software 2.0”中得到了明確闡述。這種方法的一個(gè)主要好處是,直接搜索可以在大型 DNN 的權(quán)重中編碼的程序空間,可以得到復(fù)雜問(wèn)題的解決方案,超出人類程序員可以手動(dòng)編碼的范圍。試想一下,用手寫一個(gè)程序來(lái)給圖片加標(biāo)題,或者相反,從任何文字描述到匹配的圖片,都是非常困難的。

自“Software 2.0”發(fā)表以來(lái),深度學(xué)習(xí)可以說(shuō)已經(jīng)有了很大的進(jìn)步。最值得注意的是,我們后來(lái)發(fā)現(xiàn),經(jīng)過(guò)訓(xùn)練的 DNN 不僅在它們被訓(xùn)練的特定任務(wù)上表現(xiàn)出色,而且還經(jīng)常變得更具普遍能力,學(xué)會(huì)在它們?cè)谟?xùn)練期間看到的任務(wù)之外取得成功。

文本和視頻等格式的數(shù)據(jù)的高保真生成 -- 它們可以編碼幾乎所有感興趣的任務(wù)的詳細(xì)描述 -- 說(shuō)明了盡管在單一的任務(wù)目標(biāo)上進(jìn)行訓(xùn)練,DNN 如何能夠熟練掌握各種任務(wù)的情況:學(xué)習(xí)預(yù)測(cè)互聯(lián)網(wǎng)規(guī)模的文本語(yǔ)料庫(kù)樣本中的下一個(gè) token,必然要求模型學(xué)習(xí)多種文本內(nèi)容的結(jié)構(gòu),其中自然包括對(duì)應(yīng)不同任務(wù)的文本類別,如翻譯、回答問(wèn)題、總結(jié)、編寫代碼,甚至解釋笑話。最近的研究更進(jìn)一步,將各種任務(wù) -- 包括語(yǔ)言建模、多模態(tài)問(wèn)題回答以及控制模擬和具身代理人 -- 表現(xiàn)為一個(gè)序列建模問(wèn)題。通過(guò)訓(xùn)練一個(gè)大型的模型來(lái)逐片產(chǎn)生這樣的序列,所產(chǎn)生的模型可以通過(guò)簡(jiǎn)單地從一些為感興趣的任務(wù)設(shè)定場(chǎng)景的初始起始段(通常被稱為背景或提示)自動(dòng)完成序列的其余部分來(lái)學(xué)習(xí)執(zhí)行這些任務(wù)。

那么,一個(gè)自然的問(wèn)題是,這樣的深度學(xué)習(xí)方法是否能夠產(chǎn)生一個(gè)通用的智能模型 -- 例如,一個(gè)至少能夠執(zhí)行其人類受益者可能想要執(zhí)行的任何任務(wù)的模型?;卮疬@個(gè)問(wèn)題具有挑戰(zhàn)性,部分原因是大多數(shù)”通用智能“的定義是模糊的或無(wú)法量化的。為了更好地掌握這個(gè)問(wèn)題,我們選擇用相對(duì)的術(shù)語(yǔ)來(lái)考慮通用智能:如果 A 能夠在 D 領(lǐng)域的至少一項(xiàng)任務(wù)中超過(guò) B,同時(shí)在所有其他任務(wù)中與 B 相匹配,也就是說(shuō),如果 A 的表現(xiàn)在 D 領(lǐng)域的所有任務(wù)中都嚴(yán)格地支配著 B 的表現(xiàn),那么在 D 領(lǐng)域中,模型 A 就比模型 B 更通用。然后,我們用“日益通用智能”(IGI:increasingly general intelligence)這個(gè)術(shù)語(yǔ)來(lái)指代一個(gè)系統(tǒng)在相對(duì)于其他非學(xué)習(xí)代理的通用智能方面表現(xiàn)出的持續(xù)改進(jìn),包括自身的舊版本。當(dāng)然,這個(gè)定義的前提是任務(wù)領(lǐng)域足夠豐富,能夠支持這種持續(xù)的改進(jìn)。在這個(gè)意義上,我們稱 IGI 在進(jìn)行開放式學(xué)習(xí),其收集訓(xùn)練數(shù)據(jù)的相關(guān)過(guò)程為開放式探索。這種對(duì)通用智能的看法清楚地表明,根據(jù)定義,一個(gè)不進(jìn)行持續(xù)的、開放式探索的系統(tǒng)不可能是一個(gè) IGI。

開放式的探索

如果沒(méi)有一個(gè)持續(xù)尋求新的、有信息量的訓(xùn)練數(shù)據(jù)的過(guò)程,模型的學(xué)習(xí)將趨于平穩(wěn)。RL 和 SL 中的探索方法根據(jù)數(shù)據(jù)學(xué)習(xí)潛力的代用指標(biāo),直接確定了收集這些數(shù)據(jù)的優(yōu)先次序,這些代用指標(biāo)通常是通過(guò)許多方法來(lái)估計(jì)的,包括相對(duì)于過(guò)去訓(xùn)練數(shù)據(jù)點(diǎn)的新穎性的測(cè)量;模型的認(rèn)識(shí)不確定性;或者模型的預(yù)測(cè)在該數(shù)據(jù)上訓(xùn)練后的變化程度。然而,RL 和 SL 的探索方法主要集中在收集單一的、靜態(tài)的、預(yù)定義的模擬器或數(shù)據(jù)集中的信息樣本。靜態(tài)的數(shù)據(jù)源不能很好地反映現(xiàn)實(shí)世界的無(wú)限性和不斷變化的本質(zhì)。在這種靜態(tài)數(shù)據(jù)生成器的范圍之外進(jìn)行探索需要重新思考探索。廣義探索的框架提出了一條有希望的前進(jìn)道路。

與 RL 和 SL 中現(xiàn)有的探索概念不同(它采取主動(dòng)學(xué)習(xí)的形式),廣義的探索是從整個(gè)數(shù)據(jù)空間中尋找信息最豐富的樣本。一般來(lái)說(shuō),完整的數(shù)據(jù)空間可能是無(wú)界的,不能被單一的、預(yù)定義的數(shù)據(jù)集或模擬器捕獲。在這些情況下,我們必須不斷從數(shù)據(jù)集或模擬器之外收集更多的數(shù)據(jù),以逐漸擴(kuò)大其范圍,執(zhí)行一種引導(dǎo)過(guò)程。例如,一個(gè)典型的 RL 代理可以在一個(gè)程序化生成的環(huán)境中體驗(yàn)特定游戲的轉(zhuǎn)換,但它無(wú)法探索所有可能的游戲轉(zhuǎn)換。廣義的探索將探索所有游戲中可能的轉(zhuǎn)換空間,而不僅僅是有限數(shù)量的游戲中的轉(zhuǎn)換。當(dāng)被探索的數(shù)據(jù)空間不受限制時(shí),這個(gè)過(guò)程通過(guò)將數(shù)據(jù)收集與代理模型相聯(lián)系,在當(dāng)前代理模型經(jīng)歷最多學(xué)習(xí)進(jìn)展的轉(zhuǎn)換中逐步進(jìn)行搜索,從而執(zhí)行開放式探索。

那么,我們?nèi)绾尾拍芴剿魍暾臄?shù)據(jù)空間?我們需要在所有可能有用的數(shù)據(jù)上對(duì)搜索空間進(jìn)行參數(shù)化,并指定一個(gè)搜索標(biāo)準(zhǔn)來(lái)指導(dǎo)這個(gè)空間的探索。一個(gè)自然的搜索空間是所有相互一致的數(shù)據(jù)生成程序的空間 -- 在這個(gè)意義上,它們產(chǎn)生的輸入輸出對(duì)不應(yīng)該相互矛盾[4]。這樣的程序可能對(duì)應(yīng)于一個(gè)靜態(tài)的數(shù)據(jù)集,一個(gè)數(shù)據(jù)分布,或者一類任務(wù)的模擬器。然而,作為唯一的探索標(biāo)準(zhǔn),學(xué)習(xí)潛力可能是不夠的。同樣重要的是數(shù)據(jù)的多樣性,因?yàn)閿?shù)據(jù)空間中可能有許多部分提供高的學(xué)習(xí)潛力。此外,數(shù)據(jù)空間中可能有很大的區(qū)域與任何感興趣的實(shí)際任務(wù)無(wú)關(guān),因此將探索限制在接近我們所關(guān)心的任務(wù)類型上可能很重要。這種約束有助于將開放式的探索與更現(xiàn)實(shí)的任務(wù)聯(lián)系起來(lái)。然而,它們也會(huì)阻止學(xué)習(xí)系統(tǒng)探索潛在的重要任務(wù),這些任務(wù)看起來(lái)不像任何有實(shí)際價(jià)值的任務(wù),但卻可以作為掌握更有挑戰(zhàn)性的任務(wù)的墊腳石。因此,應(yīng)該用多少先驗(yàn)世界知識(shí)來(lái)限制探索是一個(gè)重要的開放性問(wèn)題。

當(dāng)然,我們?nèi)匀恍枰恍┓椒▉?lái)實(shí)際搜索所有數(shù)據(jù)生成程序的空間。在實(shí)踐中,我們作為系統(tǒng)設(shè)計(jì)者可以手動(dòng)定義感興趣的程序的高級(jí)規(guī)范,使它們以我們所關(guān)心的現(xiàn)實(shí)的不變特征為基礎(chǔ),但又足夠?qū)挿?,以涵蓋豐富的、無(wú)限制的任務(wù)空間。這樣的程序可以通過(guò) API 或人工干預(yù)將鉤子納入現(xiàn)實(shí)世界,使其能夠輸出真實(shí)和合成數(shù)據(jù)。一個(gè)相關(guān)的方法可能是搜索數(shù)據(jù)空間的生成模型的潛在空間,以產(chǎn)生新的數(shù)據(jù),使模型的學(xué)習(xí)潛力最大化。如果學(xué)習(xí)開始停滯不前,我們可以通過(guò)進(jìn)化規(guī)范來(lái)進(jìn)行干預(yù),比如可以在一個(gè)環(huán)中模型的協(xié)助下,按照預(yù)測(cè)的方向更新規(guī)范,提供具有更大學(xué)習(xí)潛力的數(shù)據(jù)。從某種意義上說(shuō),研究界對(duì)新基準(zhǔn)的持續(xù)、集體的發(fā)明起到了對(duì)數(shù)據(jù)生成程序持續(xù)搜索的作用。最近的研究如BIGBench,一個(gè)由越來(lái)越多的人類指定的基準(zhǔn)組成的基準(zhǔn),直接反映了這種模式。類似地,Dynabench 利用人工循環(huán)不斷為當(dāng)前模型生成新的、具有挑戰(zhàn)性的數(shù)據(jù)。

將數(shù)據(jù)視為軟件

通過(guò)將數(shù)據(jù)視為一種生成的軟件,Software2 呼應(yīng)了馮 - 諾依曼計(jì)算機(jī)架構(gòu),在該架構(gòu)中,程序指令和數(shù)據(jù)都被等價(jià)地存儲(chǔ)在內(nèi)存中。在馮 - 諾依曼架構(gòu)中,靜止的軟件等同于數(shù)據(jù)。而在 Software2 中,運(yùn)行中的數(shù)據(jù)等同于軟件。Software2 程序不斷自我改進(jìn)的能力使其成為實(shí)現(xiàn)展示 IGI 系統(tǒng)的重要組成部分。鑒于現(xiàn)在公認(rèn)的高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性 -- 如前所述,預(yù)計(jì)會(huì)越來(lái)越稀缺 -- 可能會(huì)有很多投資用于開發(fā)不同類型的 Software2 系統(tǒng)。許多研究的重點(diǎn)可能會(huì)從設(shè)計(jì)和優(yōu)化模型轉(zhuǎn)移到設(shè)計(jì)和優(yōu)化為這些模型產(chǎn)生訓(xùn)練數(shù)據(jù)的過(guò)程。在 ML 研究的許多領(lǐng)域,Software2 堆棧的關(guān)鍵組件已經(jīng)被積極開發(fā):

自動(dòng)課程學(xué)習(xí):在 SL 和 RL 中,自動(dòng)課程學(xué)習(xí)方法直接搜索數(shù)據(jù)點(diǎn)或模擬器配置,使代理的學(xué)習(xí)潛力最大化。這種方法,包括最近的環(huán)境設(shè)計(jì)方法,構(gòu)成了廣義探索的核心部分,給定了數(shù)據(jù)空間的適當(dāng)參數(shù)化,如豐富的模擬器、世界模型或?qū)?yīng)于可能任務(wù)的程序生成模型。通過(guò)競(jìng)爭(zhēng)動(dòng)態(tài)誘導(dǎo)課程的類似方法有望改善大型生成模型。例如,最近的一項(xiàng)研究表明,有可能對(duì)目標(biāo)語(yǔ)言模型進(jìn)行“紅隊(duì)”測(cè)試:也就是說(shuō),找到目標(biāo)模型的對(duì)抗性輸入,使其輸出攻擊性或其他不受歡迎的輸出。這樣的方法可以被折疊到一個(gè)在線訓(xùn)練過(guò)程中,目標(biāo)模型被逐步訓(xùn)練以糾正其在這些自動(dòng)發(fā)現(xiàn)的對(duì)抗性輸入上的行為。

由ACCEL誘導(dǎo)的自動(dòng)課程

生成模型:轉(zhuǎn)換器和擴(kuò)散模型,如產(chǎn)生合成三維數(shù)據(jù)的DreamFusion 模型,已經(jīng)徹底改變了我們對(duì)復(fù)雜的、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)分布進(jìn)行建模的能力。這樣的生成模型可以作為世界模型,用真實(shí)世界的數(shù)據(jù)不斷地更新,并作為一個(gè)開放的數(shù)據(jù)生成器進(jìn)行采樣。這種模式的一個(gè)特例是,最近發(fā)現(xiàn)大型語(yǔ)言模型(LLMs)可以通過(guò)對(duì)其自身生成的輸出進(jìn)行訓(xùn)練而自我改進(jìn),當(dāng)其輸出被過(guò)濾為某種數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)時(shí)。值得注意的是,正如 Toolformer 所展示的那樣,這種方法甚至可以讓 LLMs 自學(xué)如何使用新工具。

生成模型的合成數(shù)據(jù)示例(Dreamfusion)

人機(jī)交互界面:在確保軟件系統(tǒng)與我們希望 IGI 執(zhí)行的任務(wù)類型保持一致方面,人的指導(dǎo)可能會(huì)發(fā)揮關(guān)鍵作用。像 InstructGPT、Dynabench、Aesthetic Bot 和 GriddlyJS 這樣的作品展示了將人類的偏好和專業(yè)知識(shí)納入訓(xùn)練循環(huán)的有希望的方法。最重要的是,像 ChatGPT 和 StableDiffusion 這樣的大規(guī)模人工智能系統(tǒng)現(xiàn)在已經(jīng)部署在網(wǎng)絡(luò)上,與數(shù)以億計(jì)的用戶進(jìn)行互動(dòng)。這些交互提供了一個(gè)有效的無(wú)止境的開放式訓(xùn)練數(shù)據(jù),以提高這些模型的能力。雖然這些系統(tǒng)的能力范圍仍然受到限制(例如,ChatGPT 還不能代表用戶采取有限的文本提示以外的行動(dòng)),但它們提供了一個(gè)更先進(jìn)的 IGI 系統(tǒng)的預(yù)覽。

召喚 IGI

Software2 在現(xiàn)實(shí)世界中的實(shí)現(xiàn)可能是什么樣子的?作為一個(gè)簡(jiǎn)單的例子,想象一個(gè)虛擬助手,它可以通過(guò)控制瀏覽器完全訪問(wèn)網(wǎng)絡(luò),包括訪問(wèn)聊天界面與人溝通。人類感興趣的大多數(shù)任務(wù),從安排會(huì)議到訂購(gòu)雜貨,已經(jīng)可以通過(guò)一個(gè)基于網(wǎng)絡(luò)的中介來(lái)完成 -- 想想網(wǎng)絡(luò)應(yīng)用或按需服務(wù)。當(dāng)然,隨著人們不斷建立新的網(wǎng)站和發(fā)明新的活動(dòng)種類,網(wǎng)絡(luò)上的這類任務(wù)集正在不斷擴(kuò)大。然后,這個(gè)虛擬助理原則上可以成為一個(gè) IGI,學(xué)習(xí)通過(guò)網(wǎng)絡(luò)執(zhí)行越來(lái)越普遍的任務(wù)集。

我們可以應(yīng)用 Software2 的原則來(lái)訓(xùn)練這個(gè)虛擬助理,通過(guò)對(duì)基于網(wǎng)絡(luò)領(lǐng)域的數(shù)據(jù)生成程序的空間的普遍探索 -- 在這種情況下,也就是具體的網(wǎng)站。這種訓(xùn)練可以在一個(gè)程序化生成的模擬器或網(wǎng)頁(yè)的世界模型中進(jìn)行,該模型通過(guò)虛擬助手在真實(shí)網(wǎng)絡(luò)上的經(jīng)驗(yàn)和我們作為系統(tǒng)設(shè)計(jì)者認(rèn)為對(duì)訓(xùn)練特別重要的特定網(wǎng)頁(yè)的結(jié)合而不斷更新。此外,探索可能會(huì)積極搜索來(lái)自 YouTube 等網(wǎng)站的演示數(shù)據(jù),用于改善助手自己的決策,并告知模擬器或世界模型,用于生成訓(xùn)練的合成數(shù)據(jù)。像往常一樣,虛擬助手也可以直接根據(jù)自己在真實(shí)網(wǎng)絡(luò)上的導(dǎo)航經(jīng)驗(yàn)進(jìn)行訓(xùn)練。隨著時(shí)間的推移,我們可以預(yù)期這樣的學(xué)習(xí)系統(tǒng)會(huì)產(chǎn)生一個(gè)越來(lái)越有能力的虛擬助手,并且探索過(guò)程會(huì)逐漸包括更廣泛的網(wǎng)站空間,因?yàn)樗粩嗟貙ふ姨摂M助手可以學(xué)習(xí)新東西的網(wǎng)站。在高層次上,我們可以期待 Software2 系統(tǒng)類似于一個(gè)大規(guī)模的搜索引擎,提供一個(gè)進(jìn)入強(qiáng)大模型的界面,其核心組件在數(shù)據(jù)抓取過(guò)程的協(xié)助下不斷更新,不斷地在互聯(lián)網(wǎng)和現(xiàn)實(shí)世界中搜尋新的和有用的信息。

隨著我們的學(xué)習(xí)算法變得越來(lái)越強(qiáng)大,我們可以通過(guò)深入思考哪些數(shù)據(jù)可以提供給這些算法,以及我們?nèi)绾卧O(shè)計(jì)自我指導(dǎo)的系統(tǒng)來(lái)自己產(chǎn)生這些數(shù)據(jù),從而獲得巨大的收益。我們樂(lè)觀地認(rèn)為,鑒于開放網(wǎng)絡(luò)的不懈發(fā)展和 Software2 堆棧組件的迅速成熟,我們將很快看到廣泛有用的 IGI 的實(shí)現(xiàn),就像剛才描述的那樣。

這篇簡(jiǎn)短的文章描繪了 Software2 的大體輪廓,這是一種迅速崛起的、以數(shù)據(jù)為中心的范式,用于開發(fā)基于現(xiàn)代深度學(xué)習(xí)的自我改進(jìn)的程序。這是一種可能對(duì)未來(lái)軟件系統(tǒng)的設(shè)計(jì)產(chǎn)生影響的方法,就像最近正在進(jìn)行的向 2.0 及以后的過(guò)渡一樣。盡管如此,我們還只是觸及了表面。如果這些想法引起了你的興趣,你可能會(huì)喜歡閱讀我們完整的立論文件中的擴(kuò)展討論。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。