文|烏鴉智能說
3月14日凌晨,OpenAI和初創(chuàng)公司Figure最新發(fā)布的一段人形機(jī)器人視頻在社交平臺引發(fā)熱議。
在視頻中,這款名為Figure 01的人形機(jī)器人與創(chuàng)造者的高級人工智能工程師Corey Lynch進(jìn)行了互動,Lynch讓機(jī)器人在一個臨時廚房里完成了幾項任務(wù),包括識別蘋果、碗碟和杯子。
當(dāng)Lynch要求機(jī)器人給他找一些吃的東西時,F(xiàn)igure 01將自然而然地拿起了桌面上的蘋果。之后,Lynch讓Figure 01把垃圾收集到一個籃子里,它也按照指令完成了任務(wù)。
據(jù)悉,F(xiàn)igure 01采用了OpenAI最新推出的視覺語言模型技術(shù),結(jié)合生成式人工智能與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)原理,是世界上的一款通用任務(wù)人工智能人形機(jī)器人。與特定任務(wù)AI機(jī)器人不同,F(xiàn)igure 01可以同時進(jìn)行多任務(wù)處理、識別周圍環(huán)境、與用戶實時交流。
值得一提的是,這款基于OpenAI大模型的智能人形機(jī)器人的問世,距離OpenAI與Figure于3月1日官宣合作僅僅過了13天。
/ 01 / 多任務(wù)處理,可與人類實時交流
根據(jù)官網(wǎng)介紹,這款機(jī)器人高5英尺6英寸(約167cm),重60kg,可承重20kg,續(xù)航5h,前進(jìn)速度1.2m每秒 。
Figure 01能做什么?與以往的工業(yè)機(jī)器人有何不同,AI工程師Corey Lynch給出了自己的答案:
一是強大的語義理解能力,能夠與人類實時溝通 。 “實時”是Figure 01最顯著的特征,在Figure公司發(fā)布的視頻中,該款機(jī)器人的語音識別和語義理解速度已經(jīng)可以和普通人類媲美,并沒有以往過程帶給使用者的“機(jī)械化延時”感受。
二是端對端的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力,能夠像人類一樣思考、推理。 在FigureAI發(fā)布的視頻中,F(xiàn)igure01已經(jīng)能夠從“吃的”推斷出“蘋果”,并且正確識別出了“垃圾”,將其放入垃圾桶?!俺缘摹薄袄钡瘸橄笤~匯,并非特定指示類的任務(wù)處理模式,需要不同于以往工業(yè)機(jī)器人的抽象學(xué)習(xí)能力。而Figure 01,即使沒有人類指令,也已經(jīng)知道餐具應(yīng)該被放在架子上。
三是情感互動,反問交互。 “我可以吃一口嗎”這樣的回答讓人難以與一個基于算法、數(shù)據(jù)建構(gòu)而成的“冷冰冰”的機(jī)器人聯(lián)系在一起。即使在交互性人機(jī)界面,也鮮少有AI程序能夠與用戶進(jìn)行反問式的話題互動與情感交流。Figure 01的“類人性”讓很多用戶大吃一驚,其研發(fā)團(tuán)隊的一名工程師直言Figure 01已經(jīng)具有常識(common sense),能夠通過基本的邏輯推理像人類一樣 說話 ,進(jìn)行簡單的任務(wù)處理。
四是通用環(huán)境下的多任務(wù)處理能力。 Figure01出世前,工業(yè)機(jī)器人都需要預(yù)先編程以執(zhí)行特定功能,但Figure 01可以通過觀察學(xué)習(xí)并糾正自己的錯誤,識別周圍環(huán)境中的物體,并在實時對話中通過自然語言理解進(jìn)行多任務(wù)處理。
值得注意的是,在Figure 01強大優(yōu)越的性能背后,是OpenAI最新視覺語言模型(visual language model)與Figure神經(jīng)網(wǎng)絡(luò)系統(tǒng)的聯(lián)合押注。
據(jù)悉,F(xiàn)igure 01的集成攝像頭可將數(shù)據(jù)發(fā)送到OpenAI訓(xùn)練的大型視覺語言模型,而Figure自己的神經(jīng)網(wǎng)絡(luò)也“通過機(jī)器人上的攝像頭以10 Hz的頻率采集頭像”。傳統(tǒng)AI機(jī)器人需要通過大量數(shù)據(jù)集和基礎(chǔ)的編程代碼來學(xué)習(xí)的特定任務(wù),對于Figure 01,只需要觀看10個小時的視頻錄像就能學(xué)會。
Figure01還使用了公司研發(fā)的 "學(xué)習(xí)型低級雙臂操作",該系統(tǒng)將精確的圖像校準(zhǔn)(精確到像素級)與神經(jīng)網(wǎng)絡(luò)相匹配,以控制動作。"Figure AI稱 :“這些網(wǎng)絡(luò)以10hz的頻率接收板載圖像,并以200hz的頻率生成24-DOF動作(手腕姿勢和手指關(guān)節(jié)角度)?!比绻l(fā)現(xiàn)任何偏離所學(xué)行為或預(yù)期結(jié)果的情況,F(xiàn)igure 01就會將其解釋為錯誤,并調(diào)整自己的行動,直到達(dá)到預(yù)期結(jié)果。通過強化學(xué)習(xí),任務(wù)完成后的反饋會加強實現(xiàn)這一任務(wù)的神經(jīng)連接,進(jìn)一步將其嵌入'已知'過程 。
/ 02 / 估值26億美元的超級明星,微軟、英偉達(dá)紛紛下注
FigureAI成立于2021年,團(tuán)隊成員大多是前谷歌工程師。公司的總目標(biāo)是,研發(fā)具有高性能的人形機(jī)器人,將人類從危險繁重工作中解放出來,比如采礦、施工、災(zāi)后重建等重體力的勞動密集型產(chǎn)業(yè)。?
看重人形機(jī)器人的行業(yè)前景與巨大的盈利能力,微軟、英偉達(dá)、OpenAI等行業(yè)巨頭紛紛下注。據(jù)悉,F(xiàn)igure公司在二輪融資中籌集了6.75億美元,公司市值總估值達(dá)到26億美元。亞馬遜前首席執(zhí)行官、世界第二富豪貝索斯通過其公司Explore Investments投資了1億美元,微軟投資了9500萬美元,英偉達(dá)和一家亞馬遜附屬基金各投資了5000萬美元。
Figure團(tuán)隊目前由40名行業(yè)專家組成,大多來自波士頓動力公司、特斯拉、IHMC、GoogleX、Cruise和蘋果SPG,這些公司大多擁有100年人工智能和仿人機(jī)器人的研發(fā)經(jīng)驗。在Figure擔(dān)任首席技術(shù)官的Jerry Pratt博士,在IHMC擁有20多年的仿人機(jī)器人研發(fā)經(jīng)驗,曾帶領(lǐng)團(tuán)隊參加DARPA仿真人機(jī)器人挑戰(zhàn)賽。
AI是技術(shù)和資本的聯(lián)合產(chǎn)物,繼生成式人工智能席卷整個世界的資本浪潮后,人形機(jī)器人會成為AI行業(yè)的新風(fēng)口嗎?
實際上,人形機(jī)器人的歷史由來已久,但發(fā)展速度十分緩慢。
人形機(jī)器人起步于1960年代日本早稻田大學(xué)的WABOT項目。誕生于1972年,由加藤一郎帶領(lǐng)研發(fā)的WABOT-1是世界上第一個全尺寸人形機(jī)器人。它擁有肢體控制系統(tǒng)、視覺系統(tǒng)和對話系統(tǒng),可以行走、抓握和搬運物品,并能用日語與人交流。
其后,波士頓公司于2013年發(fā)布的Atlas人形機(jī)器人經(jīng)過一系列的優(yōu)化設(shè)計,已經(jīng)可以完成快速小跑、側(cè)空翻等人類才能完成的跑酷動作,被譽為運動方面最接近人類的人形機(jī)器人。
自此,Walker、Ameca、擎天柱等多款赫赫有名的人形機(jī)器人也進(jìn)入了人們的視野。
不過,這些產(chǎn)品最終都沒能掀起人形機(jī)器人在AI領(lǐng)域的商業(yè)化浪潮和資本關(guān)注。
究其原因,還是不夠“像人”。從用戶體驗來講,就像是在與只能執(zhí)行機(jī)械化命令的“冰冷機(jī)器”對話。缺乏人性化的設(shè)計和情感互動無法激發(fā)資本的押注和市場的購買欲。
但是,F(xiàn)igure01的出現(xiàn)可能會大大加速這一進(jìn)程。
據(jù)悉,早在2022年,F(xiàn)igureAI就與德國汽車品牌寶馬簽訂了該公司第一項商業(yè)協(xié)議,旨在將多功能AI自動化機(jī)器人Figure 01部署在美國南卡羅萊納州斯帕坦堡的汽車加工廠。
而FigureAI高額的融資與市場估值也展現(xiàn)了這一行業(yè)巨大的發(fā)展?jié)摿陀芰Α?/p>
關(guān)于未來走向何方,F(xiàn)uture AI稱,他們將與OpenAI聯(lián)手開啟人形機(jī)器人新紀(jì)元。
或許在不久的將來 ,我們就可以看見《黑鏡》里機(jī)器人與人類在街頭漫步的場景了。
或許在更久的將來,《愛德華剪刀手》里機(jī)器人的自主意識與感情也不再是電影劇本里浪漫的橋段。
在那一天,這些與人類外形無異的機(jī)器人將何去何從,也將成為關(guān)乎人類生存問題的一大課題。