久久精品中文字幕免费,男生晚上睡不着想看点片

文｜硅兔賽跑 Cora Xu

編輯｜蔓蔓周

打響空間智能第一槍！李飛飛3個月拿下10億估值。

生成式AI再次迎來里程碑時刻！

就在今天凌晨，斯坦福教授、“AI教母”李飛飛攜手其新團隊World Labs發(fā)布首個空間智能AI模型：從單個圖像一鍵生成3D世界。

只要用戶上傳一張圖片，該模型就能圍繞這張圖片的環(huán)境信息，生成一定范圍內(nèi)的3D虛擬世界。用戶可以直接在網(wǎng)頁端通過鼠標或者鍵盤觀看3D世界。

目前，大多數(shù)的GenAI工具都以制作2D內(nèi)容，如圖像或視頻等為主。當AI自動生成3D內(nèi)容，將會提高3D內(nèi)容的一致性，將極大簡化了電影制作、游戲制作、VR游戲制作等內(nèi)容素材的制作流程。

World Labs由李飛飛與三位聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall今年9月共同創(chuàng)立，致力于構(gòu)建大型世界模型，生成、感知、交互3D世界，這也是李飛飛的首個AI創(chuàng)業(yè)項目。

目前，該模型還處于早期階段，用戶可通過名單候補的方式獲得體驗機會，產(chǎn)品正式上線預估到2025年。

從Midjourney，到Sora，再到World Labs，一個又一個的AI模型出現(xiàn)，宣告著AI內(nèi)容創(chuàng)作的邊界不斷拓寬。

英偉達高級研究科學家Jim Fan用一句話總結(jié)了這段AI內(nèi)容進化史：“GenAI正創(chuàng)造更豐富層次的環(huán)境縮影；Stable Diffusion是2D縮影；Sora是2D+時間維度的縮影；而World Labs是3D、沉浸式的縮影”。

由圖片一鍵生成3D環(huán)境，World Labs借力打力

從文生圖模型誕生以來，一直都有人嘗試用AI打造3D模型，盡管行業(yè)類出現(xiàn)的模型并不算太少，但始終難有一個標志性的產(chǎn)品出現(xiàn)。一方面是，現(xiàn)有的3D模型數(shù)據(jù)集太少，很難有足夠的優(yōu)質(zhì)數(shù)據(jù)去訓練出合適的模型。另一方面即便生成出3D內(nèi)容，其展示的內(nèi)容邏輯性以及畫面質(zhì)量都很難真正用到相應的電影、動畫中去。

World Labs的空間智能AI模型，與大多數(shù)的AI生成3D模型不同，并非是通過文字提示生成3D內(nèi)容，而是從圖像生成3D內(nèi)容。李飛飛團隊直接借助了現(xiàn)有文生圖模型如FLUX、Midjourney、Ideogram、DALL-E等模型實現(xiàn)文字生成圖像這一過程。

這不但讓World Labs直接兼容各種圖片風格，不同模型生成圖像會有不同風格呈現(xiàn)，而且新的AI系統(tǒng)可以繼承風格特征，在3D世界中進一步展現(xiàn)。此外，使用AI模型生成的圖片打造3D環(huán)境的另一大好處是，由于基礎(chǔ)的環(huán)境背景生成來源于此前的文生圖AI模型，從一定程度上World Labs能夠規(guī)避內(nèi)容版權(quán)問題的風險。

比如說，在FLUX、Midjourney、Ideogram、DALL-E四款文生圖模型中同樣給出如下文字提示：一間充滿活力的卡通風格青少年臥室，床上鋪著色彩鮮艷的毯子，書桌上擺放著一臺電腦，墻上貼著海報，還有散落的運動裝備。一把吉他靠在墻上，中間放著一張舒適的帶圖案地毯。窗戶透出的光線給房間增添了溫暖、年輕的氛圍。則會會得到四種不同風格的AI圖像信息：

*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成

空間智能模型則能夠分別根據(jù)這四張圖片生成一定范圍內(nèi)的3D環(huán)境。

比如說，由FLUX圖片生成出來的環(huán)境則是：

由Midjourney圖像生成出來的3D環(huán)境是：

由Ideogram圖像生成出來的3D環(huán)境是：

由DALL-E圖像生成出來的環(huán)境是：

可以從預覽的畫面看出，首先生成出來3D環(huán)境是360度全景圖像，在生成的3D環(huán)境內(nèi)部，有一定范圍的探索空間，基于網(wǎng)頁端設(shè)置，可用鍵盤和鼠標進行新的探索。一旦超出探索范圍，畫面會顯示“越界”提示用戶。

其次，在風格上，生成的內(nèi)容環(huán)境會繼承原有的圖形風格，整體3D內(nèi)容的風格較為統(tǒng)一，多數(shù)物品的位置擺放沒有特別違背常理的地方。

最后，在生成3D內(nèi)容的過程中，新生成的AI世界將遵循3D幾何形狀的基本物理規(guī)則，具有實物感，與某AI生成的視頻夢幻感對比鮮明。

Eric Solorio展示了World Labs的模型如何填補其創(chuàng)意工作流程中的空白：用戶可以安排角色在不同場景中出現(xiàn)，并指導精確的攝像機運動。“盡管我們只是參與到World Labs模型早期的角色當中，但是一切都是如此不可思議?！?/p>

Eric Solorio談到現(xiàn)在有些動漫會采用AI制作背景畫面，但是大多數(shù)的模型很難同時生成不同風格的3D環(huán)境內(nèi)容，多數(shù)僅采用1至2種風格。但World Labs可以根據(jù)圖片生成對應的風格畫面。

打造四大玩法，讓3D世界活起來！

從文生圖模型誕生以來，一直都有人嘗試用AI打造3D模型，盡管行業(yè)類出現(xiàn)的模型并不算太少，但始終難有一個標志性的產(chǎn)品出現(xiàn)。

造一個AI 3D模型并非難事，但World Labs選擇了更進一步，不但讓AI創(chuàng)造了一個3D世界，同時讓AI幫助這個創(chuàng)造的3D世界更加有趣，在畫面顯示風格、交互玩法等多個方向進一步提供了一些方向性指引。

1、預測用戶焦點走向，減小渲染壓力

World Labs模型能夠預測用戶關(guān)注的焦點走向，這將較大減少實時渲染的計算壓力。

一旦3D世界生成，虛擬世界的布局將會保持不變，一直存在。這也意味著如果用戶把視線移開然后又回來，場景不會隨時隨地發(fā)生變化。這一方向，與VR世界里的注視點渲染技術(shù)相類似，從一定程度上能夠減少設(shè)備渲染的壓力。

同時，用戶可以實時控制生成的3D內(nèi)容。生成場景后，用戶可以實時在場景中自由移動，既可以仔細觀察花朵的細節(jié)，也可以偷看角落里露出的物體細節(jié)。

World Labs模型還能夠?qū)⑼ㄟ^深度圖將3D場景可視化，并且每個像素根據(jù)其與相機的距離著色，增強深度感。

2、提供三大動畫效果，展示不同畫面語言風格

在生成3D內(nèi)容的基礎(chǔ)上，World Labs還為生成的3D內(nèi)容準備了多種畫面呈現(xiàn)方式，為用戶直觀展示不同3D內(nèi)容動畫效果。

比如說，波浪形的效果下，畫面里的櫻花林和樹木全部都在以波浪形“游動”。

再比如說，低像素沙畫風格：

其中，Brittani Natali將World Labs技術(shù)與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結(jié)合，并精心設(shè)計了攝像機路徑工作，在一段視頻中展示了不同的情緒風格。

3、提供四大交互方式，點擊即可簡單交互

用戶可利用3D場景結(jié)構(gòu)來構(gòu)建交互效果。聚光燈場景下，生成的內(nèi)容畫面顯示為：

在聲納的顯示效果之下，用戶可以每次點擊3D世界的場景，能夠看到交互畫面中顯示出一圈圈的聲音波動信號，提示交互成功。

4、打造虛擬攝像頭，自由控制焦距遠近變幻

World Labs生成場景后，用戶可以使用虛擬攝像頭在瀏覽器中實現(xiàn)實時渲染，用戶精確控制攝像頭的角度時，還能夠?qū)崿F(xiàn)藝術(shù)攝影效果。

比如說用戶可以模擬場景的景深，其中只有距離相機一定距離的物體才能聚焦：

*從近及遠調(diào)整焦距畫面變化

同時，用戶還可以模擬推拉變焦，同時調(diào)整攝像機的位置和視野：

*從遠及近調(diào)整焦距畫面變化

3個月融資10億，李飛飛瞄準“空間智能”

在諸多AI明星初創(chuàng)公司中，World Labs脫穎而出的理由離不開其明星人物——“AI教母”李飛飛以及強大的團隊研發(fā)背景。

公司目前有20名成員，不僅包括CV和圖形學領(lǐng)域的研究人才，還有系統(tǒng)工程、產(chǎn)品設(shè)計等職位，致力于在空間智能的基礎(chǔ)模型和產(chǎn)品之間構(gòu)建反饋閉環(huán)，從而讓產(chǎn)品落地、服務用戶。

World Labs9月正式亮相后，就迅速完成了2.3億美元的融資，得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持，公司估值已超過10億美元。如此高額的估值和關(guān)注度，也能夠說明業(yè)內(nèi)對李飛飛的團隊以及研究方向認可。

在官網(wǎng)頁面中，World Labs提到致力于構(gòu)建大型世界模型（Large World Models, LWMs），以感知、生成和與3D世界，并與之進行交互。公司目標是將AI模型從2D像素的平面提升到完整的3D世界，包括虛擬和現(xiàn)實世界，并賦予這些模型與人類相似的空間智能。

如今，首個AI項目成果一出，我們能夠更加清晰地看待李飛飛在這一領(lǐng)域的堅定決心。

在今年10月，李飛飛接受了a16z的專訪談到自己對空間智能的理解。她認為，空間智能不同于蘋果提出的空間計算，但空間計算需要空間智能?？臻g智能勢必會推動著新AI硬件發(fā)展，但具體是眼鏡，頭顯還是新的硬件產(chǎn)生，具體目前無法確定。

“空間智能是指機器在三維空間和時間中感知、推理和行動的能力，理解物體和事件在三維空間和時間中的位置，以及世界中的交互如何影響這些三維位置，以及在空間和時間上的位置，感知、推理、生成、交互，真正將機器從大型機或數(shù)據(jù)中心中解放出來，讓它進入現(xiàn)實世界，并理解這個豐富多彩的三維、四維世界?！崩铒w飛說到。