編譯|Tech商業(yè)
對于普通人來說,人工智能領(lǐng)域似乎正在取得巨大進步。根據(jù)一些媒體報道和新聞稿,OpenAI 的 DALL-E 2 似乎可以基于任何文本創(chuàng)建令人驚嘆的圖像;另一個名為 GPT-3 的 OpenAI 系統(tǒng)可以談?wù)撊魏问虑椤踔量梢詫懴滤约海籄lphabet 旗下 DeepMind 去年發(fā)布了一個名為 Gato 的系統(tǒng),該系統(tǒng)在公司可以交給它的每項任務(wù)上都表現(xiàn)出色。DeepMind 的一位高級管理人員甚至稱,在尋求創(chuàng)造具有人類智能的靈活性和足智多謀的通用人工智能 AGI 過程中,“游戲結(jié)束了。”
但不要被愚弄了。機器有一天可能會像人一樣聰明,甚至可能更聰明,但游戲遠未結(jié)束。要制造出真正能夠理解和推理周圍世界的機器,還有大量工作要做。我們現(xiàn)在需要的是少裝腔作勢,多做基礎(chǔ)研究。
AI 正在取得進步——合成圖像看起來越來越逼真,語音識別通常可以在嘈雜的環(huán)境中工作——但我們距離能夠理解文章和視頻真正含義的通用、人類水平的 AI ,或者處理意想不到的障礙和干擾,可能還有幾十年的時間。該領(lǐng)域面臨著與學(xué)術(shù)科學(xué)家(包括我自己)多年來一直指出完全相同的挑戰(zhàn):讓 AI 變得可靠并讓它應(yīng)對異常情況。
以最近廣受贊譽的Gato為例,據(jù)稱它是萬事通,以它如何為投手投擲棒球的圖像加上字幕為例。系統(tǒng)對上圖的前三個猜測是:
*一名棒球運動員在棒球場上投球。
*一名男子在棒球場上向投手投擲棒球。
*在棒球比賽中,一名棒球運動員在擊球,一名接球手在泥土中。*
第一個答案是正確的,但其他兩個答案包括圖像中有看不到其他玩家的幻覺。除了從與其他圖像的統(tǒng)計相似性得出的粗略近似值之外,系統(tǒng)不知道圖片中實際有什么。任何棒球迷都會認出這是一個剛剛投出球的投手,而不是相反。雖然我們預(yù)計捕手和擊球手就在附近,但他們顯然沒有出現(xiàn)在圖像中。
同樣,DALL-E 2 無法區(qū)分藍色立方體之上的紅色立方體圖像與紅色立方體之上的藍色立方體圖像之間的區(qū)別。今年 5 月發(fā)布的更新系統(tǒng)無法區(qū)分宇航員騎馬和馬騎宇航員。
當谷歌研究人員提示該公司的Imagen 生成“一匹馬騎著一名宇航員”的圖像時,它反而展示了宇航員騎著馬。圖片來源:Imagen
當像 DALL-E 2 這樣的圖像創(chuàng)建系統(tǒng)出錯時,結(jié)果可能會很有趣。但有時人工智能產(chǎn)生的錯誤會導(dǎo)致嚴重的后果。一輛自動駕駛的特斯拉曾直接駛向一名在路中間舉著停車牌的人類工人,只有在人類司機干預(yù)時才會減速。該系統(tǒng)可以自己識別人類(如他們在訓(xùn)練數(shù)據(jù)中的表現(xiàn))并在他們通常的標志位置停車(如他們在訓(xùn)練圖像中出現(xiàn)的那樣),但在遇到不熟悉的兩者組合時卻無法減速,將停車標志置于一個新的和不尋常的位置。
不幸的是,這些系統(tǒng)仍然無法可靠地工作,并且在新情況下掙扎的事實通常被掩蓋在細則中。 例如,Gato 在 DeepMind 報告的所有任務(wù)上都表現(xiàn)出色,但很少像其他當代系統(tǒng)那樣出色。GPT-3 通常能寫出流暢的散文,但在基本算術(shù)上卻很吃力,而且對現(xiàn)實的把握太少,以至于很容易造出這樣的句子,例如“一些專家認為,吃襪子的行為有助于大腦擺脫作為大腦的改變狀態(tài)”。” 然而,粗略地看一下最近的頭條新聞,你不會發(fā)現(xiàn)這些問題中的任何一個。
這里的次要情節(jié)是,人工智能領(lǐng)域最大的研究人員團隊不再出現(xiàn)在學(xué)術(shù)界,同行評審出現(xiàn)在企業(yè)中。與大學(xué)不同,企業(yè)沒有公平競爭的動力。他們沒有將引人注目的新論文提交給學(xué)術(shù)審查,而是通過新聞稿發(fā)表,引導(dǎo)記者關(guān)注方向并回避同行評審過程。我們只知道公司想讓我們知道的。
在軟件行業(yè),有一個詞形容這種策略:“demoware”,即設(shè)計用于演示的軟件看起來不錯,但在現(xiàn)實世界中不一定足夠好。通常,演示軟件會變成汽化軟件vaporware (即僅有營銷作用、不實際落地) ,以震驚和敬畏的方式宣布以阻止競爭對手,但最終不會發(fā)布成為實際應(yīng)用。
不過,這些行為總會使得公司自身自食其果。被熱捧的AI 可能會經(jīng)歷一個預(yù)期破滅的冬天。產(chǎn)品太多,比如無人駕駛汽車、自動化放射科醫(yī)生和通用數(shù)字代理,已經(jīng)過演示、宣傳——但從未交付過。目前,投資資金不斷兌現(xiàn)承諾。但如果不解決不可靠和無法應(yīng)對異常值的核心問題,投資就會枯竭。我們可能會在機器翻譯、語音和物體識別方面取得堅實的進步,但對于所有過早的炒作來說,其他方面的進展太少了。取而代之的是“智能”城市和“民主化”醫(yī)療保健,我們將留下具有破壞性的深度偽造和排放大量碳的耗能網(wǎng)絡(luò)。
盡管深度學(xué)習(xí)提高了機器識別數(shù)據(jù)模式的能力,但它存在三個主要缺陷。具有諷刺意味的是,它學(xué)習(xí)的模式是膚淺的;它產(chǎn)生的結(jié)果很難解釋;結(jié)果很難在其他過程的上下文中使用,例如記憶和推理。正如哈佛大學(xué)計算機科學(xué)家 Les Valiant 指出的那樣,“[前進] 的核心挑戰(zhàn)是統(tǒng)一……學(xué)習(xí)和推理的公式。” 如果你甚至不真正了解停車標志是什么,就無法與舉著停車標志的人打交道。
目前,我們陷入了“局部最低限度”,公司追求的是基準而不是基本理念。當前的工程實踐遠遠領(lǐng)先于科學(xué)技能:這些部門專注于使用他們已經(jīng)擁有的知之甚少的工具進行小的改進,而不是開發(fā)具有更清晰理論基礎(chǔ)的新技術(shù)。這就是基礎(chǔ)研究仍然至關(guān)重要的原因。AI 研究社區(qū)的很大一部分(比如那些大喊“游戲結(jié)束”的人)甚至沒有看到這一點,好吧,令人心碎。
想象一下,如果某個外星人僅通過俯視地面上的陰影來研究所有人類互動,并注意到,有些人比其他人大,所有的陰影在晚上都消失了。也許它甚至?xí)⒁獾疥幱耙蕴囟ǖ闹芷谛杂幸?guī)律地增長和收縮——而無需抬頭看太陽或識別上面的三維立體世界。
人工智能研究人員是時候從浮華的、直接面向媒體的演示中抬起頭來,提出有關(guān)如何構(gòu)建可以同時學(xué)習(xí)和推理系統(tǒng)的基本問題了。
本文編譯來源:https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/,作者Gary-marcus,其是一位科學(xué)家、暢銷書作家和企業(yè)家。本文首發(fā)于2022.7