文|智東西 徐珊
編輯|云鵬
市值一夜蒸發(fā)2300億美元后,扎克伯格開始拿出“AI黑科技”拯救自己的身價了!
智東西2月24日消息,就在今天北京時間凌晨一點,扎克伯格特意舉辦了一場名為“元宇宙里的AI”的活動,專門宣布了Meta在AI領(lǐng)域的技術(shù)布局,這也是扎克伯格2022年首次談及Meta將在語音翻譯、AI創(chuàng)造以及語音助手等領(lǐng)域重點發(fā)力。
會上,Meta宣布研發(fā)一款為世界上每個人定制的翻譯軟件,研究人員通過構(gòu)建高級的AI模型和一款可適用所有語言的翻譯器,希望能在“元宇宙”中打造一個無障礙交流的空間。
Meta計劃研發(fā)一款新的AI系統(tǒng)BuilderBot,你在虛擬世界中說什么,AI就能給你展現(xiàn)對應(yīng)的畫面,看樣子AI也能成為“阿拉丁神燈”一樣的神器了。
不僅如此,Meta新推出了CAIRaoke項目,研發(fā)人員開發(fā)了一個端到端的神經(jīng)模型,它可以提供與人們進行更多的交流,可以比以前簡單對話的層面更深一步,能夠理解人們說話的語境。
最新財報顯示,Meta旗下專攻“元宇宙”的Reality Labs部門2021年虧損102億美元。扎克伯格秘藏已久的AI大招,救得了聲勢漸垮的元宇宙嗎?
▲Meta 2021年股價變化圖
01.CEO扎克伯格:Meta將發(fā)力語音翻譯和語音助手
扎克伯格談道,現(xiàn)在多數(shù)AI研究的重點是如何讓AI更好地理解現(xiàn)實世界,但未來,AI需要幫助人們在現(xiàn)實世界和虛擬世界都能實現(xiàn)導(dǎo)航等功能。并且由于虛擬世界總是在發(fā)生變化,AI應(yīng)該像人類一樣擁有理解環(huán)境和學(xué)習(xí)的能力。
▲Meta CEO扎克伯格
“元宇宙世界中你將會與任何地方都能發(fā)生視覺交互,包括你在3D空間中的位置、面部、手勢等等肢體語言,這些都需要不同的輸入方式。”他認(rèn)為AI是重要的數(shù)據(jù)入口之一。
扎克伯格不但介紹了AI在語音翻譯、語音助手以及AI創(chuàng)造領(lǐng)域的應(yīng)用,還簡單談了Meta在推動AI技術(shù)研究方面所作出的貢獻(xiàn)。
目前,Meta正在打造三個AI項目。
第一個是被稱為BuilderBot的AI系統(tǒng),該系統(tǒng)可以讓人們通過描述虛擬世界的一部分來構(gòu)建它們。他們通過一段視頻展示BuilderBot未來的效果。比如說,當(dāng)人們身處虛擬世界時,對這個系統(tǒng)說“我希望天上有片云”,AI將會自動在島嶼上添加一片云。這么一想,如果該系統(tǒng)能夠研發(fā)成功的話,在虛擬世界里“衣來伸手,飯來張口”的日子也不遠(yuǎn)了。
第二個項目是Meta希望打造一款能夠像人類一樣思考的AI。Meta AI的首席AI科學(xué)家楊立昆(Yann LeCun)提出,是否能夠模仿世界的運作方式,打造一款“世界模型”的能力可能是該項目的關(guān)鍵之處。
“當(dāng)今AI最重要的挑戰(zhàn)之一是設(shè)計學(xué)習(xí)范式和架構(gòu),使機器能夠以自我監(jiān)督的方式學(xué)習(xí)世界模型,然后使用這些模型進行預(yù)測、推理和計劃?!彼f。
楊立昆嘗試運用多種學(xué)科中的相關(guān)概念并將它們與機器學(xué)習(xí)中的新概念相結(jié)合,融入自我監(jiān)督學(xué)習(xí)(self-supervised learning)和聯(lián)合—嵌入式架構(gòu)(joint-embedding architectures)模型中。
第三個項目則和Meta的“元宇宙”布局相關(guān)。在去年十月的活動中,Meta就曾展示過一個“萬能”的翻譯對話軟件,現(xiàn)在,這一場景背后的細(xì)節(jié)也逐漸浮出水面。
活動上,Meta AI宣布將打造一款翻譯工具,該項目將分為兩個部分推進。第一部分是覆蓋全語種,Meta正在構(gòu)建一個新的高級AI模型,該模型可以從需要訓(xùn)練的示例更少的語言中學(xué)習(xí),然后實現(xiàn)數(shù)百種語言的專家級翻譯。第二部分是打造通用語言翻譯器,研究人員正在設(shè)計一些新方法,希望能將一種語言的語音實時翻譯成另一種語言。
除此之外,扎克伯格也簡單介紹了一下Meta在隱私保護、數(shù)據(jù)開放等方面做出的貢獻(xiàn)。
Meta與紐約大學(xué)朗格尼醫(yī)學(xué)中心合作開展了一個名為“快速MRI”的項目,可以利用AI從較少的數(shù)據(jù)中創(chuàng)建磁共振成像,從而實現(xiàn)更快的磁共振掃描。
“如果不仔細(xì)考慮我們?nèi)绾我约昂螘r發(fā)布數(shù)據(jù),就無法真正推進科學(xué)研究?!蓖瑫r,扎克伯格也提到在發(fā)布數(shù)據(jù)集時,他們會考慮以隱私和公平為指導(dǎo)原則。
02.為元宇宙打造AI模型Meta打造多款觸摸傳感器
Meta的AI研究人員多年來一直在討論如何建立一個豐富的、具有代表性的模型。并且這款新的模型不僅現(xiàn)在能夠?qū)崿F(xiàn)預(yù)測,還可以適用于未來。
“我們希望模型可以進行長期規(guī)劃和推理,以便未來在現(xiàn)實世界和虛擬世界中都能做好AI代理?!盕acebook AI Research的總經(jīng)理Joelle Pineau說。
此外,她還向大家介紹幾個Meta正在重點研究的方向,其中有一款是“機器人”。
“它可以突破實驗室或工廠等固定場景的限制。并且能夠在家中、在辦公室流暢地操作,自然地與人類交互?!盝oelle Pineau介紹道,“但我們同樣需要機器人自己可以觸摸等方式提高感知世界的能力。”
為此,Meta一直在研發(fā)新的觸摸傳感器。Meta正在與其他研究人員合作打造一款新的傳感器,目前該傳感器正處在原型階段。
與其他傳感器不同的是,該觸摸傳感器的外層會有一層薄薄的膜,膜上嵌有磁性顆粒。當(dāng)觸摸傳感器變形時,磁信號就會改變。
通過這些變化,AI技術(shù)可以推斷接觸點施加力的大小,甚至能使用自我監(jiān)督學(xué)習(xí)模型來自動校準(zhǔn)傳感器,使其更適用于各種場景。
不僅如此,Meta還與其他研發(fā)機構(gòu)合作開發(fā)的另一種數(shù)字傳感器。該傳感器的表面由可變形彈性材料組成,能夠通過傳感器內(nèi)攝像頭記錄的圖像變化來感受力的變化。
Joelle Pineau也提到,虛擬世界與真實世界之間仍有很大差距,要建立一個可靠的世界模型還有很多工作要做。尤其是,從簡單的物體到人的全身運動都能實時呈現(xiàn)高分辨率的虛擬環(huán)境。
在演講中,她還宣布Meta的研究人員與Instagram的研究團隊合作,計劃發(fā)布一個名為Instagram Feed Ranking的原型系統(tǒng)。
03.打造“萬能”翻譯器還支持百種語言自動標(biāo)注
機器翻譯專家Angela Fan認(rèn)為,語言是我們用來理解與周圍世界互動的主要途徑之一。
她介紹自己在加拿大生活以及在巴黎工作時,常常感受到語言障礙帶來的深遠(yuǎn)影響?;谶@些語音溝通壁壘,Meta希望每個人都能感受到最新的翻譯技術(shù),“我們希望所有未來的技術(shù)在默認(rèn)情況下都是具有包容性的?!?/p>
據(jù)預(yù)測,全球大約有20億人說的母語沒有任何可用的翻譯系統(tǒng)。并且,全球有數(shù)千種語言,但翻譯系統(tǒng)如今只支持大約100種語言。
如何創(chuàng)建真正適合每個人的翻譯系統(tǒng)是Meta一直在思考的問題。
Angela Fan認(rèn)為,創(chuàng)建更具包容性的翻譯的第一步是開發(fā)能夠支持多種語言的系統(tǒng)。“我們要是想要實現(xiàn)多語種翻譯,我們就需要必須為每一個語言方向創(chuàng)建一個單獨的模型,這樣一來,我們就要創(chuàng)建數(shù)萬個模型,這是一件非常復(fù)雜的事情?!?/p>
為了解決這一難題,Meta嘗試根據(jù)不同的語言體系來加強模型的訓(xùn)練能力。比如說,羅曼什語作為一個小眾語種,會與其他語言體系有共同點,語種之間的聯(lián)系將會簡化語言模型的開發(fā)過程。
“最近,我們在兩個頂級翻譯比賽中獲勝?!彼v到,“我們證明了多語種系統(tǒng)確實比雙語系統(tǒng)更好,通過增加模型大小,例如通過生成更多培訓(xùn)數(shù)據(jù)和縮小翻譯規(guī)模,我們證明了多語種翻譯是一個非常有前途的發(fā)展方向?!?/p>
除此之外,Meta還可以自動創(chuàng)建一些翻譯數(shù)據(jù)的示例,而無須雇用人員手動翻譯大量數(shù)據(jù)。目前,Meta已經(jīng)支持一百多種語言實現(xiàn)自動創(chuàng)建數(shù)據(jù)集,并且部分?jǐn)?shù)據(jù)集開源。
04.Meta計劃打造超級語音助手連續(xù)決策成AI交互關(guān)鍵
Meta AI的高級研究經(jīng)理Alborz Geramifard談到語音交互助手可以分為三個類別。
第一類是初級的語音助手。比如說我們想要查詢話費,打電話給客戶服務(wù),你會聽到請按1鍵獲得話費信息,請按2鍵獲得訂閱服務(wù)等。“你常常會發(fā)現(xiàn)你想要的服務(wù)不在選項列表中”。
第二類語音交互助手,但擁有可能有一些智能模型。“你可能會在家里和它們簡單的互動。但它們不能理解語義背景,也不能進行深度交流?!?/p>
第三類是Meta想要打造的超級語音助手。這類超級語音助手延續(xù)了深層次的語境,可以為用戶提供個性化體驗。比如你想早晨放一首歌曲,同時窗外又在下雨,超級語音助手就會根據(jù)此刻的場景為你推薦一首歌曲播放。
他還談到,能理解的AI和能交互的AI是兩種不同的概念。能理解的AI是一個單向的過程,從輸入到輸出,比如說轉(zhuǎn)錄音頻解析可以得到相應(yīng)的文本。
▲理解式AI和實時交互AI的區(qū)別
而交互是用戶和AI之間能實現(xiàn)連續(xù)對話。例如,詹姆斯可能想向尼克發(fā)送一條消息,說他將遲到五分鐘。當(dāng)AI完成相關(guān)操作時,詹姆斯想將時間修改到10分鐘,在這種情況下,詹姆斯可以繼續(xù)修改他的時間安排,AI也能完成相關(guān)操作。在交互式的對話中往往會涉及連續(xù)決策的問題。
“我們的目標(biāo)是將我們的項目打造的新模型與VR/AR設(shè)備相結(jié)合,通過AI實現(xiàn)更具沉浸式和多模態(tài)的交互形式?!?/p>
比如說,你的語助手可以幫助你制作美味的食材,根據(jù)你的食譜列出食材,并主動引導(dǎo)你完成整個過程菜譜。并且,當(dāng)你在這道菜中添加了鹽時,超級語音助手注意到你的鹽越來越少了,所以幫助你下了一個購物的訂單。超級語音助手與你之間的互動越來越緊密。
05.開放數(shù)據(jù)集Meta力圖消除數(shù)據(jù)偏見
去年夏天,Meta就曾發(fā)布了文章概述了其AI原則的五大支柱,包括隱私和安全、公平和包容、穩(wěn)健性、安全性、透明度和可控性。
面對AI公平性,F(xiàn)acebook AI的項目經(jīng)理Jacqueline Pan談到AI團隊與另一個內(nèi)部團隊合作發(fā)布了一些對話數(shù)據(jù)集,這些數(shù)據(jù)集旨在幫助評估AI系統(tǒng)中可能存在的潛在算法。
最新的數(shù)據(jù)集將包含超過45000個付費參與者進行非腳本對話的視頻,這些參與者透露了他們的年齡和性別,讓AI能夠相對公正地分析信息。
此外,Meta還能夠提供膚色和聲音的標(biāo)簽,該數(shù)據(jù)集旨在幫助研究人員評估其計算機視覺和音頻模型在這些維度上的準(zhǔn)確性。
Meta還曾在2020年與佐治亞理工學(xué)院的合作教學(xué)項目,以培養(yǎng)AI人才。
AI研究人員將與佐治亞理工學(xué)院教員一起打磨一門深度學(xué)習(xí)課程開發(fā)課程,并作為該大學(xué)計算機科學(xué)在線碩士課程的一部分,其主要目標(biāo)是幫助學(xué)生體驗現(xiàn)實世界中學(xué)習(xí)擴展算法時會用到哪些技術(shù)。
據(jù)統(tǒng)計,第一年就有一千六百多名學(xué)生參加了這門課程,今年有近2400名學(xué)生完成了這門課程。并且,約85%的受訪學(xué)生表示,他們在該課程上收獲頗豐。
06.結(jié)語:元宇宙這盤棋,扎克伯格用AI技術(shù)下
說起2022的開年,扎克伯格是真的慘。
自從重壓元宇宙后,扎克伯格一邊成為行走的元宇宙代言,直接帶動全球元宇宙熱度,另一邊Meta的股市表現(xiàn)卻愁云慘淡。這家曾躋身美股五巨頭的科技企業(yè),如今卻頹勢難挽,市值被昔日手下敗將特斯拉、英偉達(dá)、臺積電、騰訊壓了一頭。
今年2月3日,Meta公布其最新財報,首次披露的元宇宙部門虧損從2019年45億美元顯著增加到2021年102億美元。當(dāng)天收盤其股價暴跌26%,創(chuàng)下美股市場歷史最大市值跌幅,市值跌超2370億美元。
不僅股價暴跌、市值縮水,扎克伯格自己也掉出全球富豪榜前10,不可謂不狼狽。
顯然,人們對扎克伯格畫的元宇宙“大餅”還處于觀望狀態(tài)。而今日凌晨,扎克伯格完全從技術(shù)角度出發(fā),展示了一套依然緊密圍繞元宇宙藍(lán)圖的前沿AI技術(shù)套餐,以創(chuàng)造一個更有說服力的故事。
但華爾街的投資者會為此買賬嗎?Meta展示的技術(shù)藍(lán)圖,要真正支撐起扎克伯格編織的虛擬世界未來,尚需要一些時間。