編譯 | 智東西 ZeR0
編輯 | 漠影
新的索尼大法來(lái)了!智東西2月10日?qǐng)?bào)道,今日,索尼AI部門(mén)Sony AI重磅宣布,其AI程序擊敗了世界上最頂級(jí)的賽車(chē)游戲選手,并登上國(guó)際學(xué)術(shù)頂刊Nature的封面。
論文鏈接:https://www.nature.com/articles/s41586-021-04357-7
這是繼AI在撲克、象棋、圍棋、星際爭(zhēng)霸、DOTA等游戲擊敗人類(lèi)冠軍選手后,游戲AI實(shí)現(xiàn)的又一里程碑。作為全球首個(gè)能夠在高度擬真賽車(chē)模擬游戲中戰(zhàn)勝最強(qiáng)人類(lèi)選手的賽車(chē)AI智能體,索尼的賽車(chē)游戲AI GT Sophy僅用一兩天磨練戰(zhàn)術(shù)和技巧,就做到了超過(guò)賽車(chē)模擬游戲《GT賽車(chē)》中可以擊敗95%的人類(lèi)玩家。在訓(xùn)練總計(jì)45000小時(shí)后,這個(gè)AI程序已經(jīng)能與頂級(jí)GT賽車(chē)玩家一較高下。
相比此前AI已經(jīng)掌握的棋牌類(lèi)游戲及部分多人策略游戲,《GT賽車(chē)》更加復(fù)雜,因?yàn)樗叨饶M現(xiàn)實(shí)世界,每輛車(chē)、每條軌道都經(jīng)過(guò)建模,視覺(jué)、音頻以及動(dòng)態(tài)方面全部盡可能地還原現(xiàn)實(shí)世界的駕駛體驗(yàn)。這使得AI必須具備極強(qiáng)的持續(xù)判斷和快速反應(yīng)能力,在高速變動(dòng)的條件下,綜合考量摩擦、空氣動(dòng)力學(xué)、駕駛路線、速度、方向等各種因素,在距離對(duì)手幾英寸的范圍內(nèi),對(duì)具有復(fù)雜非線性動(dòng)力學(xué)的車(chē)輛進(jìn)行實(shí)時(shí)控制,并知道如何在不違規(guī)的前提下超越對(duì)手?!霸谝粓?chǎng)正面競(jìng)賽中如此超越杰出的人類(lèi)車(chē)手,是AI領(lǐng)域的一項(xiàng)里程碑式成就?!惫餐牡乃固垢4髮W(xué)汽車(chē)研究中心聯(lián)席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于開(kāi)發(fā)該AI的技術(shù)有望在自動(dòng)駕駛汽車(chē)軟件中發(fā)揮作用。
GitHub鏈接:https://sonyai.github.io/gt_sophy_public/
01.比玩星際爭(zhēng)霸更強(qiáng)的智能體,精通控制、戰(zhàn)術(shù)和禮儀
GT Sophy研究項(xiàng)目啟動(dòng)于2020年4月,是一個(gè)使用新型深度強(qiáng)化學(xué)習(xí)平臺(tái)進(jìn)行訓(xùn)練的自主AI智能體,也是Sony AI自2019年11月成立以來(lái)一直致力于應(yīng)對(duì)的關(guān)鍵挑戰(zhàn)之一。Sony AI以日本、美國(guó)和歐洲三地為據(jù)點(diǎn),重點(diǎn)推進(jìn)游戲、成像、傳感三個(gè)AI旗艦項(xiàng)目。Sony AI全球負(fù)責(zé)人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎(jiǎng)!”而今日登上Nature封面的賽車(chē)游戲AI,正是Sony AI韜光養(yǎng)晦、籌謀已久的大招!過(guò)去兩年間,Sony AI團(tuán)隊(duì)、《GT賽車(chē)》系列背后的游戲開(kāi)發(fā)工作室Polyphony Digital(PDI)以及索尼互動(dòng)娛樂(lè)(SIE)的云游戲團(tuán)隊(duì)密切合作,使用SIE管理的云游戲基礎(chǔ)設(shè)施訓(xùn)練這個(gè)AI。
為了盡可能重現(xiàn)現(xiàn)實(shí)世界的賽車(chē)環(huán)境,PDI為PlayStation 4創(chuàng)建了超現(xiàn)實(shí)主義驅(qū)動(dòng)模擬器GT Sport,并提供API訪問(wèn)。GT Sport配備了一些最新的汽車(chē)動(dòng)力學(xué)模擬,逼真地還原了賽車(chē)、賽道乃至空氣阻力、輪胎摩擦等物理現(xiàn)象,并在汽車(chē)制造商的指導(dǎo)下嚴(yán)扣從車(chē)身曲線、車(chē)身面板間隙到大燈形狀等每個(gè)細(xì)節(jié)。該模擬器是與國(guó)際汽聯(lián)合作設(shè)計(jì)的,在全球擁有超過(guò)40萬(wàn)人的電子競(jìng)技社區(qū),它帶來(lái)了一個(gè)具有明確規(guī)則和判斷標(biāo)準(zhǔn)的公平賽車(chē)環(huán)境。
GT Sophy即是在這個(gè)終極模擬環(huán)境中訓(xùn)練而出,同樣,分布式訓(xùn)練平臺(tái)DART也對(duì)于該AI新成果功不可沒(méi)?;谶@個(gè)定制平臺(tái),Sony AI研究人員能在SIE云游戲平臺(tái)的PlayStation 4控制臺(tái)上訓(xùn)練GT Sophy。DART允許研究人員輕松指定實(shí)驗(yàn),在云資源可用時(shí)自動(dòng)運(yùn)行,并收集可以在瀏覽器中查看的數(shù)據(jù)。此外,該平臺(tái)還管理PlayStation 4控制臺(tái)、代理計(jì)算資源和GPU,用于跨數(shù)據(jù)中心的訓(xùn)練。它能訪問(wèn)1000多個(gè)PlayStation 4控制臺(tái),每個(gè)都用于收集訓(xùn)練GT Sophy的數(shù)據(jù)或評(píng)估訓(xùn)練有素的版本。該平臺(tái)由必要的計(jì)算組件(GPU、CPU)組成,用于與大量PlayStation 4進(jìn)行交互,并支持長(zhǎng)時(shí)間的大規(guī)模訓(xùn)練。
DART使得Sony AI的研究團(tuán)隊(duì)能夠同時(shí)無(wú)縫運(yùn)行數(shù)百個(gè)實(shí)驗(yàn),并探索將GT Sophy提升到更高水平的技術(shù)。在這些基礎(chǔ)設(shè)施的支持下,僅在一兩天內(nèi),GT Sophy就做到超過(guò)GT Sport中約95%的選手。經(jīng)過(guò)10天、總計(jì)45000小時(shí)的駕駛學(xué)習(xí),GT Sophy在所有三條賽道上取得了超人般的計(jì)時(shí)賽表現(xiàn)。為了驗(yàn)證這個(gè)賽車(chē)游戲AI的實(shí)力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車(chē)挑戰(zhàn)賽”中,與世界上最優(yōu)秀的四名GT賽車(chē)手同臺(tái)競(jìng)技,并成功超過(guò)這些頂級(jí)人類(lèi)選手。
02.頂級(jí)賽車(chē)游戲AI是怎樣煉成的?
為了打造出超強(qiáng)賽車(chē)游戲AI,Sony AI研究人員和工程師開(kāi)發(fā)了創(chuàng)新的強(qiáng)化學(xué)習(xí)技術(shù),包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓(xùn)練算法、一種可以理解的賽車(chē)規(guī)則編碼,以及一種促進(jìn)獲得細(xì)微的賽車(chē)技能的訓(xùn)練方案。深度強(qiáng)化學(xué)習(xí)是街機(jī)游戲、國(guó)際象棋、圍棋等復(fù)雜策略游戲及其他實(shí)時(shí)多人策略游戲中大多數(shù)AI里程碑的關(guān)鍵組成部分,特別適合開(kāi)發(fā)游戲AI智能體,因?yàn)閺?qiáng)化學(xué)習(xí)智能體會(huì)考慮其行為的長(zhǎng)期影響,并能在學(xué)習(xí)期間獨(dú)立收集自己的數(shù)據(jù),從而避免了對(duì)復(fù)雜、手工編碼的行為規(guī)則的需求。而處理《GT賽車(chē)》等復(fù)雜領(lǐng)域,需要同樣復(fù)雜和微妙的算法、獎(jiǎng)勵(lì)和訓(xùn)練場(chǎng)景。
AI從多個(gè)《GT賽車(chē)》游戲中獲取信息,通過(guò)最大化快速跑圈的獎(jiǎng)勵(lì)和最小化碰撞的懲罰等方式來(lái)學(xué)會(huì)如何取勝。比如,如果它超過(guò)另一輛車(chē)就會(huì)獲得一定權(quán)重的獎(jiǎng)勵(lì),但出現(xiàn)抄近路、碰撞、打滑等事故則受到懲罰。GT Sophy在《GT賽車(chē)》的三種汽車(chē)和賽道組合上接受了多種場(chǎng)景的訓(xùn)練。其中一些只有AI智能體在賽道上,而另一些則增加了7個(gè)正常游戲的NPC對(duì)手。每次賽道位置、起始速度、汽車(chē)之間的間距以及對(duì)手的技能水平都是隨機(jī)的。
通過(guò)持續(xù)學(xué)習(xí)和積累經(jīng)驗(yàn),GT Sophy掌握了賽車(chē)控制、賽車(chē)戰(zhàn)術(shù)和賽車(chē)禮儀的技能。(1)賽車(chē)控制:賽車(chē)本質(zhì)上是試圖駕駛處于控制邊緣或行駛更遠(yuǎn)地方的汽車(chē)。估計(jì)制動(dòng)點(diǎn)、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機(jī)器學(xué)習(xí)問(wèn)題。一種新的算法QR-SAC明確推理了GT Sophy高速行動(dòng)的各種可能結(jié)果。解釋駕駛動(dòng)作的后果和其中的不確定性,有助于GT Sophy在車(chē)體極限上通過(guò)彎道,并在與不同類(lèi)型的對(duì)手比賽時(shí)考慮復(fù)雜的可能性。我們來(lái)看一個(gè)展示GT Sophy極限駕駛技能的例子,在沒(méi)有接觸的情況下,智能體可駕駛通過(guò)一系列緊貼墻壁的彎道行駛。
(2)賽車(chē)戰(zhàn)術(shù):車(chē)手需能在高速變化的賽車(chē)情況下快速做出決策,到線路超過(guò)對(duì)手,同時(shí)考慮到對(duì)手對(duì)超車(chē)嘗試的反應(yīng)。雖然AI智能體可以收集自己的數(shù)據(jù),但訓(xùn)練尾流超車(chē)(slipstream passing)等特定技能需要對(duì)手處于特定位置。為了解決這個(gè)問(wèn)題,GT Sophy的學(xué)習(xí)包括使用在每條賽道上可能至關(guān)重要的人工比賽情況進(jìn)行混合場(chǎng)景訓(xùn)練,以及幫助智能體學(xué)習(xí)這些技能的專(zhuān)門(mén)對(duì)手。這些技能培養(yǎng)場(chǎng)景幫助GT Sophy獲得了專(zhuān)業(yè)的賽車(chē)技術(shù),包括處理?yè)頂D的起跑、彈弓式尾流超車(chē),甚至防御機(jī)動(dòng)。
GT Sophy利用急轉(zhuǎn)彎成功超車(chē)人類(lèi)賽車(chē)手
(3)賽車(chē)禮儀:車(chē)手需要遵守具體規(guī)則,以限定賽車(chē)可以滑出賽道的程度,以及在發(fā)生碰撞時(shí)誰(shuí)應(yīng)該背責(zé)。與此同時(shí),車(chē)手需要積極開(kāi)車(chē)才能獲勝,找到正確的平衡是一大挑戰(zhàn)。為了幫助GT Sophy學(xué)習(xí)運(yùn)動(dòng)禮儀,Sony AI研究人員找到了將成文和不成本比賽規(guī)則編碼為復(fù)雜獎(jiǎng)勵(lì)功能的方法。研究團(tuán)隊(duì)還發(fā)現(xiàn),有必要平衡對(duì)手的數(shù)量,以確保GT Sophy有競(jìng)爭(zhēng)性的訓(xùn)練比賽,同時(shí)不會(huì)對(duì)人類(lèi)競(jìng)爭(zhēng)變得過(guò)于激進(jìn)或膽怯。例如,GT Sophy在不堵塞駕駛線路的情況下超過(guò)了人類(lèi)車(chē)手,給他們留下了足夠的機(jī)動(dòng)空間,展示出公平和體育精神。
這些特性,使得GT Sophy與此前在一些經(jīng)典游戲中擊敗人類(lèi)冠軍的早期AI智能體區(qū)分開(kāi)來(lái)。國(guó)際象棋、圍棋等屬于完全信息類(lèi)游戲,AI無(wú)需掌握現(xiàn)實(shí)世界的物理,只需專(zhuān)注于游戲策略。即便是玩星際爭(zhēng)霸的AlphaStar和Dota的OpenAI Five,也沒(méi)有試圖掌握現(xiàn)實(shí)世界的物理學(xué)。而現(xiàn)在,GT賽車(chē)就在試圖模擬現(xiàn)實(shí)世界,因此其戰(zhàn)術(shù)、策略和禮儀都至關(guān)重要,更難的是,AI需要在汽車(chē)在物理極限加速時(shí)具備這些技能。
03.還能應(yīng)用于機(jī)器人、無(wú)人機(jī)和自動(dòng)駕駛
就像其他打敗人類(lèi)冠軍的AI一樣,GT Sophy的價(jià)值可不僅局限于玩游戲。在GT Sophy的開(kāi)發(fā)過(guò)程中,研究人員定期與頂級(jí)驅(qū)動(dòng)程序互動(dòng),以測(cè)試最新版本?!八鞣频馁愜?chē)路線是人類(lèi)車(chē)手永遠(yuǎn)想不到的。”《GT賽車(chē)》的創(chuàng)造者、現(xiàn)實(shí)生活中的賽車(chē)手Kazunori Yamauchi說(shuō),這項(xiàng)技術(shù)將成為其未來(lái)版本游戲的一部分,并有望幫助新手和專(zhuān)業(yè)司機(jī)提高他們的技能。“我認(rèn)為很多關(guān)于駕駛技能的教科書(shū)都將被重寫(xiě)?!盙T Sophy也帶給了頂級(jí)人類(lèi)車(chē)手新的靈感。FIA Gran Turismo錦標(biāo)賽2018年冠軍Igor Fraga稱(chēng)贊說(shuō):“GT Sophy向我們展示了我們之前從未想象過(guò)的新可能性?!壁A得電子競(jìng)技賽車(chē)賽事前所未有“三冠王”的日本頂級(jí)選手Takuma Miyazono,從4歲就開(kāi)始玩虛擬賽車(chē),但他從未遇到過(guò)像GT Sophy這樣的賽車(chē)手。“Sophy非???,圈速比最好的車(chē)手的預(yù)期要好?!彼J(rèn)為,看到Sophy,有些動(dòng)作才成可能。FIA Gran Turismo錦標(biāo)賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發(fā),她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。
Emily Jones
“在某些彎道上,我把車(chē)開(kāi)得很大,然后倒車(chē),而AI則把車(chē)開(kāi)得很近,所以我學(xué)到了很多關(guān)于線路的知識(shí)。還知道該優(yōu)先考慮什么。以進(jìn)入第1個(gè)彎道為例,我剎車(chē)的時(shí)間比AI晚,但AI會(huì)比我有一個(gè)更好的出口,并在下個(gè)彎道打敗我。直到我看到AI,我才意識(shí)到這一點(diǎn),并認(rèn)為「好吧,我應(yīng)該這么做?!埂盓mily Jones說(shuō)。更重要的是,這一研究突破將引發(fā)一場(chǎng)關(guān)于無(wú)人駕駛汽車(chē)使用的最佳計(jì)算方法的辯論。Sony AI全球負(fù)責(zé)人北野宏明談道,GT Sophy的目的不僅是超越人類(lèi)玩家,而是為玩家提供一個(gè)具有刺激性的對(duì)手,加速并提升玩家的技術(shù)和創(chuàng)造力。為GT Sophy開(kāi)發(fā)的AI算法可能也適用于無(wú)人機(jī)、機(jī)器人等其他類(lèi)型的機(jī)器?!俺藶橛螒蛏鐓^(qū)做出貢獻(xiàn)外,我們相信這一突破也為自動(dòng)賽車(chē)、自動(dòng)駕駛、高速機(jī)器人和控制等領(lǐng)域帶來(lái)了新的機(jī)遇?!北币昂昝髡f(shuō)。
Sony AI CEO北野宏明
豐田研究所人類(lèi)中心駕駛研究高級(jí)經(jīng)理阿維納什·巴拉昌德拉(Avinash Balachandra)認(rèn)為:“在賽車(chē)中使用機(jī)器學(xué)習(xí)和自動(dòng)控制是令人興奮的。”該研究所正在測(cè)試能夠在極端速度下運(yùn)行的自動(dòng)駕駛汽車(chē)。他說(shuō),豐田正在研究“人類(lèi)放大技術(shù),利用專(zhuān)家從賽車(chē)運(yùn)動(dòng)中學(xué)習(xí)的技術(shù),有朝一日可以改善主動(dòng)安全系統(tǒng)”。馬薩諸塞大學(xué)阿姆赫斯特分校研究強(qiáng)化學(xué)習(xí)的教授布魯諾·卡斯特羅·達(dá)席爾瓦(Bruno Castro da Silva)評(píng)價(jià)GT Sophy是“一項(xiàng)令人印象深刻的成就”,是朝著為自動(dòng)駕駛汽車(chē)訓(xùn)練AI邁出的重要一步。但他認(rèn)為,從《GT賽車(chē)》到現(xiàn)實(shí)世界將是一個(gè)挑戰(zhàn),因?yàn)橄馟T Sophy這樣的強(qiáng)化學(xué)習(xí)算法很難考慮決策的長(zhǎng)期影響,而且也很難保證這些算法的安全性或可靠性。“如果我們希望這樣的AI系統(tǒng)在現(xiàn)實(shí)生活中部署,安全保障是最重要的?!眃a Silva說(shuō),“缺乏安全保障,是基于機(jī)器學(xué)習(xí)的機(jī)器人尚未廣泛應(yīng)用于工廠和倉(cāng)庫(kù)的主要原因之一。”
04.結(jié)語(yǔ):AI與游戲玩家的雙重勝利
在評(píng)價(jià)這一研究進(jìn)展時(shí),索尼集團(tuán)董事長(zhǎng)、總裁兼CEO吉田憲一郎說(shuō):“索尼的宗旨是「通過(guò)創(chuàng)造力和技術(shù)的力量,讓世界充滿(mǎn)情感」,而GT Sophy就是這一理念的完美體現(xiàn)?!笨傮w來(lái)看,賽車(chē)游戲AI不僅展現(xiàn)了AI如何學(xué)習(xí)在復(fù)雜情況下工作策略的技術(shù)進(jìn)展,也展示出AI如何為玩家提供新的游戲體驗(yàn)。據(jù)悉,Sony AI和PDI將探索如何將GT Sophy集成到《GT賽車(chē)》系列的未來(lái)版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念將促進(jìn)游戲和汽車(chē)的未來(lái)。
來(lái)源:Sony AI,Nature,Ars Technica,Wired