文|硅兔賽跑 Cora Xu
編輯|蔓蔓周
打響空間智能第一槍!李飛飛3個月拿下10億估值。
生成式AI再次迎來里程碑時刻!
就在今天凌晨,斯坦福教授、“AI教母”李飛飛攜手其新團隊World Labs發(fā)布首個空間智能AI模型:從單個圖像一鍵生成3D世界。
只要用戶上傳一張圖片,該模型就能圍繞這張圖片的環(huán)境信息,生成一定范圍內(nèi)的3D虛擬世界。用戶可以直接在網(wǎng)頁端通過鼠標(biāo)或者鍵盤觀看3D世界。
目前,大多數(shù)的GenAI工具都以制作2D內(nèi)容,如圖像或視頻等為主。當(dāng)AI自動生成3D內(nèi)容,將會提高3D內(nèi)容的一致性,將極大簡化了電影制作、游戲制作、VR游戲制作等內(nèi)容素材的制作流程。
World Labs由李飛飛與三位聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall今年9月共同創(chuàng)立,致力于構(gòu)建大型世界模型,生成、感知、交互3D世界,這也是李飛飛的首個AI創(chuàng)業(yè)項目。
目前,該模型還處于早期階段,用戶可通過名單候補的方式獲得體驗機會,產(chǎn)品正式上線預(yù)估到2025年。
從Midjourney,到Sora,再到World Labs,一個又一個的AI模型出現(xiàn),宣告著AI內(nèi)容創(chuàng)作的邊界不斷拓寬。
英偉達高級研究科學(xué)家Jim Fan用一句話總結(jié)了這段AI內(nèi)容進化史:“GenAI正創(chuàng)造更豐富層次的環(huán)境縮影;Stable Diffusion是2D縮影;Sora是2D+時間維度的縮影;而World Labs是3D、沉浸式的縮影”。
由圖片一鍵生成3D環(huán)境,World Labs借力打力
從文生圖模型誕生以來,一直都有人嘗試用AI打造3D模型,盡管行業(yè)類出現(xiàn)的模型并不算太少,但始終難有一個標(biāo)志性的產(chǎn)品出現(xiàn)。一方面是,現(xiàn)有的3D模型數(shù)據(jù)集太少,很難有足夠的優(yōu)質(zhì)數(shù)據(jù)去訓(xùn)練出合適的模型。另一方面即便生成出3D內(nèi)容,其展示的內(nèi)容邏輯性以及畫面質(zhì)量都很難真正用到相應(yīng)的電影、動畫中去。
World Labs的空間智能AI模型,與大多數(shù)的AI生成3D模型不同,并非是通過文字提示生成3D內(nèi)容,而是從圖像生成3D內(nèi)容。李飛飛團隊直接借助了現(xiàn)有文生圖模型如FLUX、Midjourney、Ideogram、DALL-E等模型實現(xiàn)文字生成圖像這一過程。
這不但讓W(xué)orld Labs直接兼容各種圖片風(fēng)格,不同模型生成圖像會有不同風(fēng)格呈現(xiàn),而且新的AI系統(tǒng)可以繼承風(fēng)格特征,在3D世界中進一步展現(xiàn)。此外,使用AI模型生成的圖片打造3D環(huán)境的另一大好處是,由于基礎(chǔ)的環(huán)境背景生成來源于此前的文生圖AI模型,從一定程度上World Labs能夠規(guī)避內(nèi)容版權(quán)問題的風(fēng)險。
比如說,在FLUX、Midjourney、Ideogram、DALL-E四款文生圖模型中同樣給出如下文字提示:一間充滿活力的卡通風(fēng)格青少年臥室,床上鋪著色彩鮮艷的毯子,書桌上擺放著一臺電腦,墻上貼著海報,還有散落的運動裝備。一把吉他靠在墻上,中間放著一張舒適的帶圖案地毯。窗戶透出的光線給房間增添了溫暖、年輕的氛圍。則會會得到四種不同風(fēng)格的AI圖像信息:
*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成
空間智能模型則能夠分別根據(jù)這四張圖片生成一定范圍內(nèi)的3D環(huán)境。
比如說,由FLUX圖片生成出來的環(huán)境則是:
由Midjourney圖像生成出來的3D環(huán)境是:
由Ideogram圖像生成出來的3D環(huán)境是:
由DALL-E圖像生成出來的環(huán)境是:
可以從預(yù)覽的畫面看出,首先生成出來3D環(huán)境是360度全景圖像,在生成的3D環(huán)境內(nèi)部,有一定范圍的探索空間,基于網(wǎng)頁端設(shè)置,可用鍵盤和鼠標(biāo)進行新的探索。一旦超出探索范圍,畫面會顯示“越界”提示用戶。
其次,在風(fēng)格上,生成的內(nèi)容環(huán)境會繼承原有的圖形風(fēng)格,整體3D內(nèi)容的風(fēng)格較為統(tǒng)一,多數(shù)物品的位置擺放沒有特別違背常理的地方。
最后,在生成3D內(nèi)容的過程中,新生成的AI世界將遵循3D幾何形狀的基本物理規(guī)則,具有實物感,與某AI生成的視頻夢幻感對比鮮明。
Eric Solorio展示了World Labs的模型如何填補其創(chuàng)意工作流程中的空白:用戶可以安排角色在不同場景中出現(xiàn),并指導(dǎo)精確的攝像機運動。“盡管我們只是參與到World Labs模型早期的角色當(dāng)中,但是一切都是如此不可思議。”
Eric Solorio談到現(xiàn)在有些動漫會采用AI制作背景畫面,但是大多數(shù)的模型很難同時生成不同風(fēng)格的3D環(huán)境內(nèi)容,多數(shù)僅采用1至2種風(fēng)格。但World Labs可以根據(jù)圖片生成對應(yīng)的風(fēng)格畫面。
打造四大玩法,讓3D世界活起來!
從文生圖模型誕生以來,一直都有人嘗試用AI打造3D模型,盡管行業(yè)類出現(xiàn)的模型并不算太少,但始終難有一個標(biāo)志性的產(chǎn)品出現(xiàn)。
造一個AI 3D模型并非難事,但World Labs選擇了更進一步,不但讓AI創(chuàng)造了一個3D世界,同時讓AI幫助這個創(chuàng)造的3D世界更加有趣,在畫面顯示風(fēng)格、交互玩法等多個方向進一步提供了一些方向性指引。
1、預(yù)測用戶焦點走向,減小渲染壓力
World Labs模型能夠預(yù)測用戶關(guān)注的焦點走向,這將較大減少實時渲染的計算壓力。
一旦3D世界生成,虛擬世界的布局將會保持不變,一直存在。這也意味著如果用戶把視線移開然后又回來,場景不會隨時隨地發(fā)生變化。這一方向,與VR世界里的注視點渲染技術(shù)相類似,從一定程度上能夠減少設(shè)備渲染的壓力。
同時,用戶可以實時控制生成的3D內(nèi)容。生成場景后,用戶可以實時在場景中自由移動,既可以仔細觀察花朵的細節(jié),也可以偷看角落里露出的物體細節(jié)。
World Labs模型還能夠?qū)⑼ㄟ^深度圖將3D場景可視化,并且每個像素根據(jù)其與相機的距離著色,增強深度感。
2、提供三大動畫效果,展示不同畫面語言風(fēng)格
在生成3D內(nèi)容的基礎(chǔ)上,World Labs還為生成的3D內(nèi)容準(zhǔn)備了多種畫面呈現(xiàn)方式,為用戶直觀展示不同3D內(nèi)容動畫效果。
比如說,波浪形的效果下,畫面里的櫻花林和樹木全部都在以波浪形“游動”。
再比如說,低像素沙畫風(fēng)格:
其中,Brittani Natali將World Labs技術(shù)與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結(jié)合,并精心設(shè)計了攝像機路徑工作,在一段視頻中展示了不同的情緒風(fēng)格。
3、提供四大交互方式,點擊即可簡單交互
用戶可利用3D場景結(jié)構(gòu)來構(gòu)建交互效果。聚光燈場景下,生成的內(nèi)容畫面顯示為:
在聲納的顯示效果之下,用戶可以每次點擊3D世界的場景,能夠看到交互畫面中顯示出一圈圈的聲音波動信號,提示交互成功。
4、打造虛擬攝像頭,自由控制焦距遠近變幻
World Labs生成場景后,用戶可以使用虛擬攝像頭在瀏覽器中實現(xiàn)實時渲染,用戶精確控制攝像頭的角度時,還能夠?qū)崿F(xiàn)藝術(shù)攝影效果。
比如說用戶可以模擬場景的景深,其中只有距離相機一定距離的物體才能聚焦:
*從近及遠調(diào)整焦距畫面變化
同時,用戶還可以模擬推拉變焦,同時調(diào)整攝像機的位置和視野:
*從遠及近調(diào)整焦距畫面變化
3個月融資10億,李飛飛瞄準(zhǔn)“空間智能”
在諸多AI明星初創(chuàng)公司中,World Labs脫穎而出的理由離不開其明星人物——“AI教母”李飛飛以及強大的團隊研發(fā)背景。
公司目前有20名成員,不僅包括CV和圖形學(xué)領(lǐng)域的研究人才,還有系統(tǒng)工程、產(chǎn)品設(shè)計等職位,致力于在空間智能的基礎(chǔ)模型和產(chǎn)品之間構(gòu)建反饋閉環(huán),從而讓產(chǎn)品落地、服務(wù)用戶。
World Labs9月正式亮相后,就迅速完成了2.3億美元的融資,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持,公司估值已超過10億美元。如此高額的估值和關(guān)注度,也能夠說明業(yè)內(nèi)對李飛飛的團隊以及研究方向認可。
在官網(wǎng)頁面中,World Labs提到致力于構(gòu)建大型世界模型(Large World Models, LWMs),以感知、生成和與3D世界,并與之進行交互。公司目標(biāo)是將AI模型從2D像素的平面提升到完整的3D世界,包括虛擬和現(xiàn)實世界,并賦予這些模型與人類相似的空間智能。
如今,首個AI項目成果一出,我們能夠更加清晰地看待李飛飛在這一領(lǐng)域的堅定決心。
在今年10月,李飛飛接受了a16z的專訪談到自己對空間智能的理解。她認為,空間智能不同于蘋果提出的空間計算,但空間計算需要空間智能??臻g智能勢必會推動著新AI硬件發(fā)展,但具體是眼鏡,頭顯還是新的硬件產(chǎn)生,具體目前無法確定。
“空間智能是指機器在三維空間和時間中感知、推理和行動的能力,理解物體和事件在三維空間和時間中的位置,以及世界中的交互如何影響這些三維位置,以及在空間和時間上的位置,感知、推理、生成、交互,真正將機器從大型機或數(shù)據(jù)中心中解放出來,讓它進入現(xiàn)實世界,并理解這個豐富多彩的三維、四維世界?!崩铒w飛說到。
“什么可以將機器人大腦的學(xué)習(xí)和行為與現(xiàn)實世界的大腦連接起來的呢?它必須是空間智能?!?/p>