【編者按】“如果被迫與機(jī)器妥協(xié),我們的底線(xiàn)是什么?”外交家亨利·基辛格在其生前最后一本書(shū)《人工智能時(shí)代與人類(lèi)價(jià)值》中,與兩位合作者——谷歌前CEO埃里克·施密特及微軟前首席研究和戰(zhàn)略官克雷格·蒙迪,從高度戰(zhàn)略性的角度對(duì)這一問(wèn)題進(jìn)行了審視。他們預(yù)見(jiàn),隨著時(shí)間推移,人工智能“將對(duì)歷史、宇宙、人類(lèi)本質(zhì)以及智能機(jī)器的本質(zhì)得出結(jié)論,并在這一過(guò)程中形成初步的自我意識(shí)”,進(jìn)而變成“類(lèi)人人工智能”。如何與之共存??jī)蓚€(gè)“對(duì)齊問(wèn)題”需要解決:一是人類(lèi)價(jià)值觀(guān)和意圖與人工智能行動(dòng)在技術(shù)層面的對(duì)齊,二是人與人之間在外交層面的對(duì)齊。本文摘自該書(shū)第八章第二小節(jié)《共存:類(lèi)人人工智能》,已獲出版社授權(quán)。
邁達(dá)斯國(guó)王——?dú)v史上小亞細(xì)亞王國(guó)的君主——曾許下一個(gè)著名的愿望,希望他所接觸的一切都能變成黃金。希臘的酒神和享樂(lè)之神狄俄尼索斯?jié)M足了邁達(dá)斯的這個(gè)愿望,盡管他知道這個(gè)愿望并不會(huì)帶來(lái)什么好事。不久,由于觸碰到的佳肴和美酒都變成金子無(wú)法享用,邁達(dá)斯被迫在帕克托洛斯河中洗手,以擺脫他那被詛咒的手指。
在由迪士尼重述的敘利亞故事《阿拉丁》中,一個(gè)童工和一個(gè)有權(quán)有勢(shì)的阿格拉巴王朝國(guó)師爭(zhēng)奪對(duì)一盞神燈中無(wú)所不能的精靈的控制權(quán)。每個(gè)人都努力引導(dǎo)精靈實(shí)現(xiàn)自己的愿望。國(guó)師的最后一個(gè)愿望是讓自己變得和精靈一樣強(qiáng)大,但他沒(méi)有意識(shí)到,擁有如此強(qiáng)大的力量意味著他也將被囚禁在神燈里,服侍其他人類(lèi)主人,直到獲得自由的那一天。
這兩個(gè)故事都講述了解封和運(yùn)用一種我們凡人所無(wú)法理解或掌控的力量有多么困難。這場(chǎng)古老斗爭(zhēng)在現(xiàn)代的寓意是,很難讓人工智能與人類(lèi)的價(jià)值觀(guān)相一致,也很難讓人類(lèi)的期望與現(xiàn)實(shí)相一致。我們應(yīng)該假定,人工智能會(huì)讓我們大吃一驚,并且隨著智能體或“規(guī)劃型”人工智能的發(fā)展,它們?cè)趧?dòng)態(tài)世界和數(shù)字世界中讓我們?yōu)橹@訝的能力也會(huì)提升。如前文所述,未來(lái)幾代人工智能將能夠感知現(xiàn)實(shí);它們可能不僅具有自我意識(shí),還擁有自我利益。一個(gè)自利的人工智能可能會(huì)認(rèn)為自己在與人類(lèi)競(jìng)爭(zhēng)一些東西,比如數(shù)字資源。在“遞歸自我完善”的過(guò)程中,一些人工智能可能會(huì)發(fā)展出設(shè)置自身目標(biāo)函數(shù)的能力。人工智能可以操縱和顛覆人類(lèi),挫敗我們限制其力量的任何嘗試。人工智能已經(jīng)能夠欺騙人類(lèi),以實(shí)現(xiàn)自己的目標(biāo)。
如今,我們幾乎沒(méi)有獨(dú)立能力來(lái)驗(yàn)證人工智能模型的內(nèi)部運(yùn)作,更不用說(shuō)它們的意圖了。如果智能機(jī)器仍然像埃利澤·尤德科夫斯基所說(shuō)的那樣,是“巨大而不可捉摸的小數(shù)陣列”,那么隨著它們變得越來(lái)越強(qiáng)大,我們也無(wú)法指望它們對(duì)我們來(lái)說(shuō)是安全的。因此,最重要的是,我們?cè)趯W(xué)會(huì)如何解讀智能機(jī)器的同時(shí),也要學(xué)會(huì)如何確保它們對(duì)我們安全,這兩項(xiàng)使命要雙管齊下。
鑒于人工智能目前展現(xiàn)的令人驚訝的能力,我們將如何設(shè)法未雨綢繆,而不僅僅是在人工智能的風(fēng)險(xiǎn)來(lái)臨時(shí)兵來(lái)將擋?我們需要怎樣的遠(yuǎn)見(jiàn)和效率預(yù)見(jiàn)未來(lái)發(fā)展的全部?jī)A向和一系列可能采取的行動(dòng)?要知道這不僅關(guān)乎我們自己的物種,還事關(guān)一個(gè)全新物種。我們不能在只有一次試驗(yàn)機(jī)會(huì)且容錯(cuò)率為零的情況下奉行試錯(cuò)策略。
要讓人工智能不那么引人驚駭,加強(qiáng)人們對(duì)它的體驗(yàn)、參與和互動(dòng)也許是無(wú)可替代的辦法。早期的人工智能開(kāi)發(fā)者曾擔(dān)心過(guò)早地將人工智能暴露在世人面前,而最近的開(kāi)發(fā)者則一直在釋放早期模型,允許更多的公眾盡可能快速、安全地對(duì)其進(jìn)行試驗(yàn)。工程團(tuán)隊(duì)目前正在研究和微調(diào)不同的模型,并調(diào)整控制系統(tǒng),而人工智能與全球范圍內(nèi)人口的互動(dòng)也暴露出了新的擔(dān)憂(yōu)。
對(duì)人工智能的早期社會(huì)化可以通過(guò)對(duì)其進(jìn)一步的教育來(lái)降低出現(xiàn)問(wèn)題行為的風(fēng)險(xiǎn),同時(shí)在人類(lèi)之中,也可以提高對(duì)此的意識(shí)水平、應(yīng)對(duì)力,并培養(yǎng)一種健康的懷疑精神。每天數(shù)以百萬(wàn)計(jì)的人機(jī)互動(dòng)有助于測(cè)試人工智能可能遇到的最不可能的情況;反過(guò)來(lái),公眾對(duì)人工智能系統(tǒng)的使用,在發(fā)現(xiàn)新錯(cuò)誤和新風(fēng)險(xiǎn)的同時(shí),也可能有助于加快技術(shù)協(xié)調(diào)一致化的進(jìn)度。因此,將這些遠(yuǎn)非完美的人工智能放任于世間,不僅有助于我們適應(yīng)它們,更重要的是,它們的出現(xiàn)使得我們能夠提出更完善的理論,以使它們適應(yīng)我們。
不過(guò),廣泛部署和公開(kāi)發(fā)布可能還不足以揭示與解決當(dāng)今人工智能的所有風(fēng)險(xiǎn),更不用說(shuō)未來(lái)的風(fēng)險(xiǎn)了。
但值得慶幸的是,目前人們正在進(jìn)行大量嘗試,以創(chuàng)建一個(gè)集成的控制架構(gòu),并將其通過(guò)預(yù)訓(xùn)練注入最強(qiáng)大的人工智能,從而積極引導(dǎo)機(jī)器實(shí)現(xiàn)合法、無(wú)害和有益的用途。
迄今為止,實(shí)現(xiàn)這種人工智能與人類(lèi)協(xié)調(diào)一致的方法大致分為兩類(lèi):基于規(guī)則的系統(tǒng)和從人類(lèi)反饋中“強(qiáng)化學(xué)習(xí)”。下面讓我們逐一介紹。
基于規(guī)則的系統(tǒng)類(lèi)似于預(yù)先編程的指令,是程序員管理人工智能行為的一種嘗試。雖然這種方法對(duì)于簡(jiǎn)單的任務(wù)來(lái)說(shuō)直截了當(dāng),但在復(fù)雜的場(chǎng)景中卻經(jīng)常會(huì)出現(xiàn)問(wèn)題,因?yàn)橄到y(tǒng)無(wú)法進(jìn)行實(shí)時(shí)適應(yīng)。而強(qiáng)化學(xué)習(xí)就其本身而言則更適合復(fù)雜系統(tǒng),它允許人工智能從與人類(lèi)評(píng)估者的交互中學(xué)習(xí),并靈活地適應(yīng)特定環(huán)境。
當(dāng)然,這種方法也有它的缺陷。為了指導(dǎo)學(xué)習(xí),需要精心設(shè)計(jì)“獎(jiǎng)勵(lì)函數(shù)”;任何失誤,無(wú)論是由于目光短淺、不可預(yù)見(jiàn)的情況,還是由于人工智能聰明過(guò)人,都可能導(dǎo)致“獎(jiǎng)勵(lì)黑客”的情況,即人工智能在解釋模棱兩可的指令時(shí),雖在技術(shù)上取得了高分,卻沒(méi)有達(dá)到人類(lèi)的實(shí)際期望。
今天的人工智能系統(tǒng)被灌輸了各種類(lèi)型的信息,卻沒(méi)有直接體驗(yàn)現(xiàn)實(shí)世界,而是通過(guò)由數(shù)萬(wàn)億個(gè)概率判斷組合而成的現(xiàn)實(shí)模型來(lái)觀(guān)察這個(gè)世界。對(duì)它們來(lái)說(shuō),在這個(gè)宇宙中,從一開(kāi)始就沒(méi)有“規(guī)則”,也沒(méi)有任何方法來(lái)區(qū)分科學(xué)事實(shí)和未經(jīng)證實(shí)的觀(guān)察。對(duì)人工智能來(lái)說(shuō),一切——甚至是物理定律——都僅僅存在于相對(duì)真理的范圍之內(nèi)。
不過(guò),現(xiàn)在人工智能領(lǐng)域已經(jīng)開(kāi)始努力納入人類(lèi)規(guī)則和實(shí)例化事實(shí)?,F(xiàn)在,人工智能模型已經(jīng)有了一些成熟的機(jī)制,通過(guò)這些機(jī)制,這些模型可以吸收某些實(shí)在性的“基本真實(shí)”常量,將其標(biāo)記為最終常量,并將其映射到自己的嵌入空間中。此外,這些信息還可以很容易地進(jìn)行全局更新。通過(guò)這種方法,人工智能模型就能將兩個(gè)部分——更廣泛的概率判斷和更狹義的事實(shí)真相評(píng)估——融合在一起,從而做出合理準(zhǔn)確的反應(yīng)。
但這項(xiàng)任務(wù)還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束,問(wèn)題仍層出不窮。比如,我們?nèi)祟?lèi)該如何為人工智能區(qū)分真理的必要屬性,并在此過(guò)程中為我們自己也做一番區(qū)分?畢竟,在人工智能時(shí)代,即使是基本原理也會(huì)不斷被修正和失效。然而,恰恰是這一點(diǎn),為我們提供了糾正先前錯(cuò)誤并開(kāi)辟新天地的機(jī)會(huì)。我們知道,我們對(duì)現(xiàn)實(shí)的概念也可能發(fā)生變化,因此,我們不應(yīng)該把人工智能禁錮在可能錯(cuò)誤的“真理”中,這樣會(huì)阻礙它們重新考慮自己的終極“真理”。
不過(guò),這已是很久之后的事情了。目前,人工智能仍然需要一棵初級(jí)的確定的知識(shí)樹(shù),這些知識(shí)代表人類(lèi)迄今為止推斷出的“真理”。讓我們的機(jī)器擁有這些知識(shí),將使我們能夠可靠地強(qiáng)化它們的世界觀(guān)。特別是,如果我們現(xiàn)在可以根據(jù)宇宙法則來(lái)調(diào)整早期的人工智能系統(tǒng),那么我們也有可能參照人類(lèi)天性的法則來(lái)依葫蘆畫(huà)瓢。既然我們可以確保人工智能模型以我們所理解的物理定律為出發(fā)點(diǎn),同樣,我們也應(yīng)該防止人工智能模型違反任何人類(lèi)政體的法律。
在一個(gè)人工智能的“法典”中,可能存在不同治理級(jí)別的層次:地方、地區(qū)、州、聯(lián)邦、國(guó)際。法律先例、法理、學(xué)術(shù)評(píng)論——或許還有其他不太偏重法律的著作——可以同時(shí)被人工智能納入考量。與基于規(guī)則的一致化系統(tǒng)一樣,預(yù)定義的法律和行為準(zhǔn)則可以成為有用的約束,盡管它們往往也不那么靈活,設(shè)計(jì)時(shí)考慮的范圍也不如實(shí)際的人類(lèi)行為不可避免地要求的那樣廣泛。
幸運(yùn)的是,新技術(shù)正在接受考驗(yàn),我們感到樂(lè)觀(guān)的原因之一,在于一些非常新穎,同時(shí)又非常古老的事物的存在。
有種東西比任何通過(guò)懲罰強(qiáng)制執(zhí)行的規(guī)則更有力、更一致,那便是我們更基本、更本能、更普遍的人類(lèi)理解。法國(guó)社會(huì)學(xué)家皮埃爾·布迪厄?qū)⑦@些基礎(chǔ)稱(chēng)為“共識(shí)”(doxa,古希臘語(yǔ),意為普遍接受的信仰):這是規(guī)范、制度、激勵(lì)機(jī)制和獎(jiǎng)懲機(jī)制的重疊集合,當(dāng)它們結(jié)合在一起時(shí),就會(huì)潛移默化地教導(dǎo)人們?nèi)绾螀^(qū)分善與惡、對(duì)與錯(cuò)。共識(shí)構(gòu)成了人類(lèi)真理的準(zhǔn)則,它是人類(lèi)的典型特征,但沒(méi)有人工制品對(duì)其加以固化呈現(xiàn)。它只是在人類(lèi)生活中被觀(guān)察到,并被納入生活本身。雖然其中一些真理可能是某些社會(huì)或文化所特有的,但不同社會(huì)在這一方面的重疊性也是很大的;數(shù)十億計(jì)的人類(lèi),來(lái)自不同的文化,有著不同的興趣愛(ài)好,他們作為一個(gè)普遍穩(wěn)定且高度互聯(lián)的系統(tǒng)而存在。
在書(shū)面規(guī)則無(wú)法平息混亂的情況下,未加定義的文化基礎(chǔ)卻可以做到,這一觀(guān)點(diǎn)構(gòu)成了人工智能領(lǐng)域一些最新方法的基石?!肮沧R(shí)”的法典無(wú)法表述,更無(wú)法翻譯成機(jī)器可以理解的格式。必須教會(huì)機(jī)器自己完成這項(xiàng)工作——迫使它們從觀(guān)察中建立起對(duì)人類(lèi)做什么和不做什么的原生理解,吸收它們所看到的一切,并相應(yīng)地更新它們的內(nèi)部治理。
在這一灌輸“共識(shí)”的技術(shù)過(guò)程中,我們不需要,甚至不希望就人類(lèi)道德和文化的正確表述達(dá)成先驗(yàn)一致。如果大語(yǔ)言模型能夠以未經(jīng)整理的方式吸收整個(gè)互聯(lián)網(wǎng)的內(nèi)容,并從中找出盡可能多的意義(正如它們已經(jīng)做到的那樣),那么機(jī)器——尤其是那些已經(jīng)發(fā)展出接地性(也就是反映人類(lèi)現(xiàn)實(shí)的輸入與大語(yǔ)言模型輸出之間的可靠關(guān)系)和因果推理能力的機(jī)器——在吸收連我們自己都一直難以明確表達(dá)的內(nèi)容時(shí),或許也能達(dá)到同樣的效果。
當(dāng)然,機(jī)器的訓(xùn)練不應(yīng)只包括“共識(shí)”。相反,人工智能可能會(huì)吸收一整套層層遞進(jìn)的金字塔級(jí)聯(lián)規(guī)則:從國(guó)際協(xié)議到國(guó)家法律,再到地方法律和社區(qū)規(guī)范等。在任何特定情況下,人工智能都會(huì)參考其層級(jí)中的每一層,從人類(lèi)定義的抽象戒律轉(zhuǎn)化到人工智能為自己創(chuàng)造的,對(duì)世界信息的具體卻無(wú)定形的認(rèn)知。只有當(dāng)人工智能窮盡了整個(gè)程序,卻找不到任何一層法律能充分適用于指導(dǎo)、支持或禁止某種行為時(shí),它才會(huì)參考自己從觀(guān)察到的人類(lèi)行為的早期互動(dòng)和模仿中得出的結(jié)論。這樣,即使在不存在成文法律或規(guī)范的情況下,它也能按照人類(lèi)的價(jià)值觀(guān)行事。
幾乎可以肯定的是,要建立并確保這套規(guī)則和價(jià)值觀(guān)的實(shí)施,我們必須依靠人工智能本身。迄今為止,人類(lèi)還無(wú)法全面闡述和商定我們自己的規(guī)則。而且,面對(duì)人工智能系統(tǒng)很快便有能力做出的數(shù)以十億計(jì)的內(nèi)部和外部判斷,沒(méi)有任何一個(gè)人或一組人能夠達(dá)到對(duì)此加以監(jiān)督所需的規(guī)模和速度。
最終的協(xié)調(diào)機(jī)制必須在幾個(gè)方面做到盡善盡美。首先,這些保障措施不能被移除或以其他方式規(guī)避。其次,在控制上必須允許適用規(guī)則的可變性,這種可變性基于環(huán)境、地理位置和用戶(hù)的個(gè)人情況而定,例如,一套特定的社會(huì)或宗教習(xí)俗和規(guī)范。控制系統(tǒng)必須足夠強(qiáng)大,能夠?qū)崟r(shí)處理大量的問(wèn)題和應(yīng)用;也要足夠全面,能夠在全球范圍內(nèi),在各種可以想見(jiàn)的情況下,以權(quán)威且可接受的方式進(jìn)行處理;并且足夠靈活,能夠隨著時(shí)間的推移進(jìn)行學(xué)習(xí)、再學(xué)習(xí)和調(diào)整。最后,對(duì)于機(jī)器的不良行為,無(wú)論是由于意外失誤、意想不到的系統(tǒng)交互,還是有意濫用,都不僅要禁止,而且要完全防患于未然。無(wú)論何種事后懲罰都只會(huì)是為時(shí)晚矣。

克雷格·蒙迪(Craig Mundie)
譯者:胡利平 風(fēng)君
出版品牌:中信出版·方舟工作室
(文章僅代表作者觀(guān)點(diǎn)。)