文|創(chuàng)瞰巴黎 Agnès Vernet
編輯|Meister Xia
導(dǎo)讀
人工智能的算法是如何模仿生物的神經(jīng)系統(tǒng)的?生物模仿學(xué)在算法的發(fā)展中有什么作用?為什么現(xiàn)在的算法需要注意力層來提高學(xué)習(xí)速度?這些問題都與我們的未來息息相關(guān),因?yàn)樗惴ㄒ呀?jīng)滲透到了我們生活的方方面面,從醫(yī)療診斷到自動翻譯,從游戲設(shè)計到能源消耗。如何讓算法更加節(jié)能,更加符合生物的特性,是未來的挑戰(zhàn)和機(jī)遇。本文將帶你走進(jìn)這些算法的奧秘,讓你感受生物與計算的魅力。
一覽:
- 神經(jīng)網(wǎng)絡(luò)算法是一種仿生系統(tǒng),模仿生物體神經(jīng)元的機(jī)理。
- 仿生學(xué)已用于許多算法的開發(fā),例如遺傳算法和卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)算法。
- 受到人類行為的啟發(fā),研究人員通過在神經(jīng)網(wǎng)絡(luò)中添加“注意力層”來提高算法的速度。
- 未來的挑戰(zhàn)是減少這些算法學(xué)習(xí)所需要的電力。
如今,算法技術(shù)發(fā)展迅猛,功能愈發(fā)強(qiáng)大。仿生學(xué)的理念在算法開發(fā)中扮演了舉足輕重的角色。生物體最大的優(yōu)勢之一是其對能源的高利用率,但這一點(diǎn)暫時還無法在IT開發(fā)中得到實(shí)現(xiàn)。
算法自誕生之初,便開始應(yīng)用仿生學(xué)理念。1964 年首個神經(jīng)網(wǎng)絡(luò)“感知器”就是仿生學(xué)的產(chǎn)物。里昂-克洛德·貝爾納第一大學(xué)講師 Clément Viricel 解釋道:“‘感知器’模擬了神經(jīng)元的電生理特性,及其傳遞興奮和信息的能力?!泵總€神經(jīng)元接收數(shù)據(jù),對其進(jìn)行評估并根據(jù)算法中指定的函數(shù)產(chǎn)生結(jié)果。這個過程構(gòu)成了人工神經(jīng)元的“激活”過程,就像大腦中的神經(jīng)元被神經(jīng)脈沖激活一樣。在“感知器”中,神經(jīng)元連接在單層中,可通過增加神經(jīng)元層來處理信息流。
01 仿生學(xué)與神經(jīng)網(wǎng)絡(luò)的發(fā)展
從20世紀(jì)90年代開始,訓(xùn)練算法就開始采用神經(jīng)網(wǎng)絡(luò),模仿人類的學(xué)習(xí)方式。里昂-克洛德·貝爾納第一大學(xué)研究員Laurent Pujo-Menjouet解釋道:“神經(jīng)網(wǎng)絡(luò)是仿生的,因?yàn)樗鼈兺ㄟ^犯錯來學(xué)習(xí),就像人類一樣,特別是人類嬰兒。神經(jīng)可塑性可以用矩陣來模擬:矩陣的元素根據(jù)成功程度進(jìn)行加權(quán)。系數(shù)在神經(jīng)元之間起到了強(qiáng)化作用?!?Viricel補(bǔ)充道:“例如,在學(xué)習(xí)語言時,人類往往通過上下文領(lǐng)會單詞的含義,語義起著至關(guān)重要的作用。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,就是讓算法做填空題,然后通過反向傳播進(jìn)行優(yōu)化?!币簿褪钦f根據(jù)輸出結(jié)果,來修正輸入神經(jīng)元的權(quán)重?!暗@個過程是一個黑匣子,其中使算法得以發(fā)展的權(quán)重變化是不可見的?!比绻麩o法得知某個事物的原理,人們就很難信任它。對于生產(chǎn)自動駕駛汽車[1]、診斷輔助系統(tǒng)[2]的廠家而言,產(chǎn)品必須包含算法,而算法的不可知性是個非常棘手的問題。
許多算法的開發(fā)都得益于仿生學(xué),比如遺傳算法。該算法基于計算目的的系統(tǒng)發(fā)生樹,并且能夠根據(jù)多種方法(排序、選擇、適應(yīng)等)得到最相關(guān)的結(jié)果。諸如此類的系統(tǒng)已用于優(yōu)化問題和游戲開發(fā)中。著名的《超級馬里奧》正是使用它對玩家進(jìn)行排名。此外還有受人類視覺系統(tǒng)啟發(fā)的卷積神經(jīng)網(wǎng)絡(luò)。Viricel 解釋道:“開發(fā)者希望重現(xiàn)人眼分析圖像的方式,先用多個神經(jīng)元排成一個方形,掃描圖像以捕獲像素,然后將圖像整體重建。”基于卷積神經(jīng)網(wǎng)絡(luò)的計算機(jī)視覺在某些領(lǐng)域的辨識能力已經(jīng)超越了人類專家,特別是在黑色素瘤的診斷 [3]。“在訓(xùn)練期間,它會提取‘腫瘤形狀’和‘腫瘤大小’等特征,然后通過尋找這些特征來識別圖像中是否有腫瘤。”
仿生算法的應(yīng)用范圍很廣,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)。據(jù)Viricel介紹:“此類神經(jīng)網(wǎng)絡(luò)可按順序或按時間先后分析數(shù)據(jù),廣泛用于需要考慮詞序的文本自動處理。密集層是循環(huán)出現(xiàn)的,因此網(wǎng)絡(luò)不會忘記它之前做過的事情?!边@樣的網(wǎng)絡(luò)已應(yīng)用于機(jī)器翻譯工具中。第一個循環(huán)網(wǎng)絡(luò)“讀取”原始語言文本,并將其編碼,第二個循環(huán)網(wǎng)絡(luò)以另一種語言解碼文本。這些步驟需要耗費(fèi)時間和電力。Viricel承認(rèn):“算法訓(xùn)練耗電量很大?!?/p>
02 Transformer網(wǎng)絡(luò):模擬人類思維的成果
考慮到高能耗,未來必須開發(fā)出學(xué)習(xí)得更快的算法。為此,學(xué)者們設(shè)計了一種再現(xiàn)“詞匯依賴”現(xiàn)象的方法。當(dāng)人類學(xué)習(xí)文本時,能立刻明白每個代詞的所指,減輕理解負(fù)擔(dān)。Viricel解釋道:“為了模擬人類的‘詞匯依賴’,我們添加了額外的神經(jīng)元層,即‘注意力層’。這是仿生學(xué)應(yīng)用在算法研發(fā)中帶來的又一突破。”“注意力層”的發(fā)明者在一篇題為《注意力就是你所需要的一切 Attention is all you need》的論文中闡述了其最新發(fā)現(xiàn)。他們的神經(jīng)網(wǎng)絡(luò)僅由12個注意力層和編碼器/解碼器系統(tǒng)組成。此類網(wǎng)絡(luò)被稱為“transformer”。由三名法國人創(chuàng)立的Hugging Face初創(chuàng)公司,就是使用了transformer開發(fā)BERT和BLOOM語言模型,現(xiàn)已被谷歌采用。Chat-GPT與transformer一脈相承,不過只有解碼器而沒有編碼器。
以上所述的例子,證明了仿生學(xué)對算法創(chuàng)新的促進(jìn)作用。但研發(fā)者在仿生的同時,卻忘記了生物體的基本特征之一:能量利用率極高。訓(xùn)練 Chat GPT-3已經(jīng)耗費(fèi)了1.287 兆瓦時的能量,排放了552噸二氧化碳[4]。Viricel 承認(rèn):“一直以來,神經(jīng)網(wǎng)絡(luò)開發(fā)者都沒有關(guān)注能耗問題。這是分工所導(dǎo)致的。設(shè)計算法的和生產(chǎn)制造硬件的是兩批人。前者往往會忽略實(shí)際的設(shè)備設(shè)計問題。最新的硬件已經(jīng)很耗能了,未來的TPU 或 HPU只會更加如此。”
不過,新一代程序員或許會突破以往的常規(guī)?!霸贗T業(yè)界,對能耗的關(guān)注度越來越高。這既是出于節(jié)能的需要,也是出于保護(hù)環(huán)境的道德義務(wù)。目前的改進(jìn)主要是機(jī)械硬件優(yōu)化,以節(jié)省能量傳導(dǎo)中的消耗?!辈贿^,也有學(xué)者另辟蹊徑,例如設(shè)計零樣本沖擊、零樣本學(xué)習(xí)的算法?!八鼈儫o需訓(xùn)練即可運(yùn)行,從而節(jié)省了學(xué)習(xí)成本?!辈贿^,新算法的性能是否能達(dá)到現(xiàn)有算法的水平,用以生成徹底仿生的系統(tǒng),尚有待觀察。