界面新聞記者 | 李彪
界面新聞編輯 | 劉方遠
著名華裔人工智能科學家、斯坦福大學教授李飛飛近期創(chuàng)辦了一家新的AI公司。這也是她2018年從谷歌離職重返斯坦福后,首次直接下場參與的創(chuàng)業(yè)項目。
李的個人領(lǐng)英主頁也有了相應的更新變化,最上面的簡歷一欄顯示她從2024年1月已經(jīng)有了新職位,相關(guān)項目匿名顯示為“something new”,工作狀態(tài)為“全職”。
根據(jù)路透社報道,李飛飛所創(chuàng)辦的新公司主要從事“空間智能”的研發(fā),已完成種子輪融資,投資方包括a16z和RadicalVentures。 李飛飛本人也是RadicalVentures的合伙人之一,這是一家專注于人工智能和相關(guān)創(chuàng)新的獨立基金,在加拿大注冊成立,成立之初就拿到了AI領(lǐng)域的頂尖科學家Jeff Hinton、李飛飛等人的投資。
而新公司要做的“空間智能”也與李飛飛最近在許多場合頻繁提及的AI應用方向一致。
按照其上個月在TED大會上發(fā)表的主題演講介紹,空間智能是通過理解物體之間的關(guān)系,從中得到新的發(fā)現(xiàn)或預測。這是比傳統(tǒng)視覺識別更高級的計算機視覺智能,是綜合自然語言大模型、機器人、計算機視覺多領(lǐng)域研究成果的一門研究,機器可以像人類一樣進行更復雜的視覺推理,進而采取更貼合實際的行動。
她在演講中展示了一張“貓伸出爪子要把玻璃杯推向桌子邊緣”的照片來幫助觀眾理解何為空間智能:人類大腦通常這一瞬間可以評估玻璃杯的幾何形狀、玻璃杯在真實三維世界中的位置、杯子與桌子、貓和其他物體的關(guān)系,并且可以預測接下來會發(fā)生什么,采取行動。
而空間智能所要做的就是教會計算機如何在真實的三維世界中行動。
去年11月,李飛飛領(lǐng)導實驗室已經(jīng)發(fā)布過一款“VoxPoser”智能機器人。這項研究把通用語言大模型與計算機視覺、機器人等多項技術(shù)結(jié)合在一起,允許機器人通過接入大模型來直接理解人類的自然語言指令,并將這些復雜指令轉(zhuǎn)化為具體的行動規(guī)劃。這款機器人不但能順利完成類似于人類口頭直接指派的“清掃垃圾到簸箕里”“打開抽屜并注意避開附近的花瓶”等日常任務,還能根據(jù)諸如“我是左撇子”“你偏離了1厘米”等特殊行為偏好來調(diào)整操作。
更為重要的是,團隊宣稱這款機器人可以做到“零樣本”,即不需要提前接受過特定任務訓練也能夠完成訓練。雖然此項目目前還處于實驗室測試階段,但也足以令常年受困于“數(shù)據(jù)不足”的機器人行業(yè)興奮異常。
“讓我們更接近一個人工智能不僅可以看到、創(chuàng)造,還與周圍的物理世界互動的世界?!崩铒w飛在TED演進中這樣總結(jié)空間智能的最終愿景。
讓計算機像人一樣“看到”,也是李飛飛多年人工智能研究的注腳。她近日出版的個人自傳也用“我看見的世界”作為書名。
1976年,李飛飛出生于中國北京,在四川成都長大。1992年跟隨父母前往美國移民定居,先后考入普林斯頓大學、加州理工學院攻讀本科、研究生。
2005年,不滿30歲、剛從加州理工學院拿到電子工程博士學位的李飛飛,便同自己的一名研究生共同發(fā)起了ImageNet項目。這個項目是她學術(shù)生涯的開端,也是其迄今為止為人工智能行業(yè)做出的最重要貢獻。
ImageNet是一個擁有超過1500萬張經(jīng)過標注的高清圖片,覆蓋了22000個類別的大型圖像數(shù)據(jù)庫,龐大的數(shù)據(jù)集為人工智能深度學習模型的訓練提供了豐富的資源。此后,她與學生發(fā)起了ImageNet Challenge挑戰(zhàn)賽,從2010年至今已有14年的歷史,每一年舉辦一次,已經(jīng)成為了目前計算機視覺領(lǐng)域最受矚目的頂尖賽事。
上述兩項工作也被認為奠定了人工智能革命全面爆發(fā)的開端。2022年,李飛飛被選為美國工程院院士時,官方在頒獎詞中寫道,“李飛飛為建立大型機器學習和視覺理解知識庫做出了貢獻?!?/p>