文|游戲觀察
10月5日,英國《自然》雜志以“矩陣游戲”(Matrix Games)為題,將DeepMind團隊通過游戲訓練AI發(fā)現(xiàn)矩陣乘法算法問題作為了封面報道。
DeepMind 的最新研究探討了現(xiàn)代 AI 技術(shù)如何推動新矩陣乘法算法的自動發(fā)現(xiàn),通過名為“AlphaTensor” 的AI在游戲中的反復演算解決了50 年來在數(shù)學領(lǐng)域一個懸而未決的問題,找到兩個矩陣相乘最快方法。
以此延申,對于更大更復雜的矩陣來說,AI發(fā)現(xiàn)算法比許多 SOTA 方法更有效。該研究表明 AI 設(shè)計的算法優(yōu)于人類設(shè)計的算法,這是算法發(fā)現(xiàn)領(lǐng)域向前邁出的重要一步。DeepMind 同時提出了 AlphaTensor是第一個可用于為矩陣乘法等基本任務(wù)發(fā)現(xiàn)新穎、高效且可證明正確的算法的人工智能系統(tǒng)。
從圍棋、紙牌到更復雜的策略類游戲,“AI+游戲”的研究逐步深化,AlphaTensor其實也是我們熟知的阿爾法狗到AlphaZero的升級版。DeepMind依靠AI與游戲的結(jié)合,多次公布研究成果和登上《自然》雜志,比如2015年《通過深度強化學習達到人類水平的控制》,提出了著名的深度Q網(wǎng)絡(luò)(DQN);2019年AlphaZero從0自學完虐前輩阿爾法狗等。
事實上,矩陣游戲更大的意義在于,AI與游戲的結(jié)合突破了以往簡單利用、大數(shù)據(jù)環(huán)境訓練學習的傳統(tǒng)模式,從通過預先人為程序和算法設(shè)計,轉(zhuǎn)向利用AI的自主學習和演化能力,突破和帶動數(shù)學算法以及其他科學研究進步的可能性。
游戲發(fā)展離不開AI,也可以成為AI進步、科學探索競爭力的重要一環(huán)。
游戲?qū)I的利用
即使從游戲娛樂的基礎(chǔ)屬性來看,AI都是行業(yè)發(fā)展重要的一部分。
無論是單機還是網(wǎng)游,玩家熱衷于PVE還是PVP,AI提供的內(nèi)容交互能力都成為影響當下發(fā)展的關(guān)鍵部分。隨著行業(yè)競爭白熱化,玩家對于游戲內(nèi)容和質(zhì)量的要求不斷提高,對于內(nèi)容的消耗速度也在不斷加速,這對開發(fā)團隊的持續(xù)內(nèi)容生產(chǎn)能力提出了更高的要求,如肉鴿在內(nèi)的可重復玩法被廣泛采用,這樣類似的設(shè)計程度提高游戲可重復性的同時,變相降低了生產(chǎn)壓力。
而AI對于當下游戲的幫助既體現(xiàn)在游戲設(shè)計,也存在于游戲體驗。越來越多開發(fā)者將之作為生產(chǎn)工具助力,來提升產(chǎn)出效率和節(jié)約成本,比如最近越來越多討論的AI制圖,AI根據(jù)用戶輸入的關(guān)鍵詞進行搜索、學習、拼接融合成符合要求的內(nèi)容。另一方面在游戲質(zhì)量的比拼中,AI也被視作提升游戲沉浸感和代入感關(guān)鍵技術(shù),擬真交互并以此自動演化新的內(nèi)容和體驗是長期存在于暢想中的理想環(huán)節(jié),包括元宇宙在內(nèi)的虛擬世界都離不開AI的添磚加瓦。
AI利用游戲?qū)W習訓練
算法、數(shù)據(jù)、算力、場景是AI研究的四大要素。然而,面對算法測試困難、場景及數(shù)據(jù)稀缺、算力昂貴等問題,并非所有環(huán)境都適宜研究AI自我學習。然而游戲行業(yè)的快速發(fā)展,便捷虛擬環(huán)境的提供、大數(shù)據(jù)的優(yōu)勢,成為當下AI實驗的良好土壤。
在過去的“AI+游戲”發(fā)展中,最廣為人知的是通過人與機(AI)的不斷博弈,探索AI進化的可能性。
1997年,IBM的Deep Blue深藍以4:2戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫。2016年和2017年,AlphaGo先后戰(zhàn)勝李世石與柯杰世界聞名。
棋類游戲之外,牌類游戲也是游戲AI關(guān)注的一個焦點。作為一款非完美信息游戲,紙牌游戲不僅涉及策略合作,隊友/對手水平等復雜因素,其牌型組合更高,極大地限制了如 CFR 等搜索類算法的使用,也對算法模型的創(chuàng)新探索提出了更高的要求。
前不久網(wǎng)易互娛 AI Lab 聯(lián)合上海交通大學和 CMU開源基于完美信息蒸餾(PTIE)的斗地主 AI“PerfectDou”。相關(guān)研究成果還登上了AI頂級學術(shù)會議NeurIPS 2022,受到國際學術(shù)界的高度認可。
在此基礎(chǔ)上,更復雜的即時對戰(zhàn)和策略游戲也成為研究AI的重要方向,考察AI能否綜合對多種單位、多種要素等的分析,設(shè)計復雜的計劃,并隨時根據(jù)情況靈活調(diào)整計劃。DeepMind此前宣布和暴雪合作,將《星際爭霸2》作為新一代AI測試環(huán)境,發(fā)布SC2LE平臺。
對于國內(nèi),《王者榮耀》這款國民產(chǎn)品成為騰訊AI研究的基點。2020年,騰訊AI Lab攜手《王者榮耀》聯(lián)合建設(shè)“開悟”訓練平臺。平臺為科研人員提供技術(shù)與資源支持,保證學界在人工智能研究訓練時所需要的大規(guī)模運算。同時通過騰訊開悟多智能體強化學習系列大賽,邀請來自清華北大等20余所國內(nèi)外頂尖高校的師生團隊借助《王者榮耀》開展AI研究的競爭。
發(fā)現(xiàn)、驗證算法的新臺階
雖然AI+游戲的落地可應(yīng)用場景,學術(shù)界還在不斷研究如何落地,但廣泛的共識是,在交通、醫(yī)療、航天等重點領(lǐng)域AI都大有可為。而AlphaTensor此次的實驗成果,表明“AI+游戲”突破以往人為設(shè)計然后訓練學習的限制,可以運用于基礎(chǔ)數(shù)學算法以及其他科學探究的可能性。
矩陣計算廣泛地運用于當下的計算環(huán)境,對于矩陣乘法的提升也將產(chǎn)生廣泛的社會影響。DeepMind從游戲系統(tǒng)設(shè)計中尋找靈感,通過樹形搜索的方式,將矩陣乘法高效算法的問題轉(zhuǎn)換為在單人游戲中尋求數(shù)學結(jié)果效率最高。
當然,這個游戲的復雜性在于,要考慮的可能算法的數(shù)量遠遠大于宇宙中原子的數(shù)量。研究人員通過重新設(shè)計神經(jīng)結(jié)構(gòu),利用AlphaTensor 來玩這個游戲,且AI在開始時沒有任何現(xiàn)有矩陣乘法算法的知識,在反復的游戲過程中重新演化對于矩陣乘法的算法探索,甚至首次在一個有限域中改進了 Strassen (歷史最快算法)的二階算法。
由于矩陣乘法是計算機圖形學、數(shù)字通信、神經(jīng)網(wǎng)絡(luò)訓練和科學計算等很多計算任務(wù)的核心組成部分,AlphaTensor 發(fā)現(xiàn)的算法可以顯著提升這些領(lǐng)域的計算效率。
在論文中,DeepMind 希望基于他們的研究,更多地將人工智能用來幫助社會解決數(shù)學和科學領(lǐng)域的一些最重要的挑戰(zhàn)。
不可否認的是,“AI+游戲”已經(jīng)成為騰訊、網(wǎng)易等國內(nèi)頭部游戲企業(yè)發(fā)力的核心方向,三七、盛趣、完美、B站等也都在AI+游戲的相關(guān)應(yīng)用探索報道。利用企業(yè)在游戲領(lǐng)域的優(yōu)勢,充分發(fā)揮游戲幫助AI訓練和學習的可行性。
而AI+游戲在基礎(chǔ)算法突破上的案例也會激發(fā)更多高校和頭部機構(gòu)加強這方面的研究投入和合作交流,相較于傳統(tǒng)學術(shù)研究中AI單一、定向的特點,游戲多輸入、多場景和多任務(wù)下的復雜問題的場景構(gòu)建能力、龐大數(shù)據(jù)的支撐、算法突破的可行性都會成為助力“AI+游戲”發(fā)展的強動力,將AI游戲策略研究探索轉(zhuǎn)化成更多領(lǐng)域的產(chǎn)業(yè)價值。