黄片香蕉欧日韩超爽网站,亚洲国产精品无码久久久蜜芽

文|經緯創(chuàng)投

最近，人形機器人變得非?；馃?。2023世界機器人大會近日在北京開幕，人潮涌動。同時，宇樹科技、智元機器人等創(chuàng)業(yè)公司，相繼發(fā)布了自己的人形機器人，當這些站立行走，能跑能跳的機器人真真切切地出現(xiàn)在人們面前時，把人們的期待推向了最高潮。

機器人一直是說起來容易，很科幻，但做起來非常難。哪怕是在不少工廠的流水線里，機器人還是很難適應很多復雜場景。不過自去年底，特斯拉發(fā)布了人形機器人Optimus（擎天柱）以來，人形機器人賽道就在逐漸升溫。

那么，為什么人形機器人火了？現(xiàn)在到技術爆發(fā)的臨界點了嗎？相比于工業(yè)機器人（是一個比較成熟的賽道，更像傳統(tǒng)機械設備），這一波大家對機器人的想象，與工業(yè)機器人有什么底層不同？

首先，我們總結說結論，人形機器人賽道之所以變熱，核心是智能泛化能力大幅加強，讓通用機器人成為可能。以前機器人行業(yè)之所以迭代得很慢，是因為每學一套新動作，就需要重新編程一次，只是“機械的自動化”。而現(xiàn)在有了智能泛化能力的突破，甚至只需要語音控制，機器人就能實現(xiàn)新功能，這是從自動化到智能化的底層轉變，機器人的通用性被大大增強。

英國機器人公司Engineered Arts的人形機器人Ameca，在接入Stable Diffusion之后，可以完成一些簡筆畫，比如畫一只貓。圖片來源：Engineered Arts

基于這個認知，我們還可以延展出很多新問題：

當機器人觸達技術爆發(fā)臨界點，更智能的機器人能用在哪里？

機器人是否要做成“人形”？

訓練數(shù)據是瓶頸，數(shù)據還能從哪里來？

今天這篇文章，我們就來探討以上這些問題，不過人形機器人是一個高速發(fā)展中的新賽道，很多問題還沒有準確答案，對于一些有爭議的部分，歡迎在評論區(qū)聊聊，Enjoy：

人形機器人是一個大賽道，能帶動眾多細分賽道。以特斯拉機器人Optimus為代表的人形機器人硬件全景圖。圖片來源：中信證券

01 當機器人觸達技術爆發(fā)臨界點，更智能的機器人能用在哪里？

曾經，機器人是一個迭代速度不算太快的領域，現(xiàn)在的汽車工廠里已有很多工業(yè)機器人，并且有著幾十年的應用歷史，但基本都是非通用智能機器人。

其中的瓶頸在于，像工業(yè)機器人這樣的非通用智能機器人（往往只是一個機械臂），是在特定場景里做特定任務，各種動作和反應的算法都是寫定的，一旦遇到新的情況或環(huán)境，如果沒有預先寫好算法，就會立即變成“智障”。

如今有可能出現(xiàn)真正的通用機器人，這也極大擴展了機器人潛在的應用場景。以往工業(yè)機器人只能在流水線的單點上，比如擰好某個螺絲，或是組裝好某個部件，但如今有了通用機器人之后，只需要讓機器人學會安裝邏輯和評估標準就可以了，并且它不僅可以擰好螺絲，當螺絲用完了還可以自己從倉庫里取來，或是給機器人裝上靈巧手，它就可以使用一些工具，來處理螺絲之外更復雜的事情。

此外，結合LLM我們還可以實現(xiàn)語音控制，只需要說出“請給我拿杯水”，先把語音轉換成代碼，再把代碼轉換成機器人的動作。這不是影視劇里很遙遠的事情，而是正在發(fā)生的。今年谷歌發(fā)布了Robotics Transformer-2（RT-2），微軟發(fā)布了“ ChatGPT for Robotics ”論文，給整個機器人行業(yè)帶來了轟動。

今年的這些新進展，與以前“每做一套新動作，就需要重新編程一次”的機器人，有著天壤之別。未來無論是在工廠車間，還是商場、家庭，都很有可能出現(xiàn)一個通用機器人，它能適應不同的環(huán)節(jié)，不需要重新編程就能在不同任務之間切換自如。

目前，對于大多數(shù)通用機器人創(chuàng)業(yè)公司來說，第一目標還不是ToC，而是ToB，比如工業(yè)或是商業(yè)場景。先在B端場景中打磨好能力，再最終應用到C端，是不少機器人公司的計劃。

很多公司都把汽車生產作為首要場景。汽車工廠規(guī)模很大，較早實現(xiàn)自動化，其中很多環(huán)節(jié)已經形成流水線用工業(yè)機器人替代，但仍有不少環(huán)節(jié)需要人工操作。比如在汽車工廠的總裝車間，仍然需要大量人力，人形機器人可以替代這些環(huán)節(jié)，并非替代已經通過工業(yè)機器人實現(xiàn)自動化的環(huán)節(jié)。

如果按照馬斯克的計劃，特斯拉的第一批機器人主要在B端應用，替代那些危險、無聊、重復的工作，或是人們不想做的工作。第二批大規(guī)模使用的機器人，會擁有在現(xiàn)實世界中的導航能力，也是復用特斯拉電動車的視覺導航技術，無需特定指令也能做有用的事；第三批則是10年左右，人們可以在家里使用機器人。

除了汽車工廠，還有3C的組裝、檢測等環(huán)節(jié)；以及在商業(yè)場景中，比如零售業(yè)的貨架管理、清潔等，也仍有需要大量人工的場景。隨著社會老齡化及人力成本的攀升，將有不小的勞動力缺口需要填補。

當然，有些場景也并非一定需要人形機器人，而是根據需求來選擇。比如宇樹科技創(chuàng)始人兼CEO王興興曾說，四足機器人與雙足機器人相比，具備更高的載荷能力和極強的平衡能力，也更易于控制、設計和維護，在工業(yè)端和消費端等都有廣泛的應用場景，尤其能在一些危險場景代替人類進行作業(yè)。

宇樹科技的機器狗可用于消防。圖片來源：宇樹科技

鴻海、軟銀投資的日本機器人初創(chuàng)公司Telexistence，可作為商超貨架的補貨機器人

不過，今天的通用機器人，離真正商業(yè)化落地還有諸多障礙。最明顯的就是成功率、執(zhí)行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1，執(zhí)行成功率提高到了80%，但在實機演示中，還是錯誤地識別了一罐檸檬味蘇打水，說成了“橘子味”；以及被問到桌子上有什么水果時，機器人回答成“白色”，但實際是香蕉。谷歌解釋說，因為WiFi臨時中斷，機器人使用了緩存的答案來回答。雖然80%的準確率在一些場景夠用，但在另一些需要精度的場景仍然不夠，比如一些精密儀器的操作等等。

當然，我們說了這么多具身智能、通用機器人，也并不是說原來的工業(yè)機器人領域就沒有機會了，只是邏輯不同。在傳統(tǒng)機械設備領域，仍有大量機器人零部件創(chuàng)新，和國產替代的機會。比如工業(yè)機器人的核心零部件減速器，就長期被日本和德國公司壟斷；工業(yè)機器人整體的國產化率也僅有35%，特別是在大六軸、汽車3C、焊接等工業(yè)機器人細分賽道，國產化率都是偏低的，結合智能化仍然有成長空間與創(chuàng)新潛力。

02 機器人是否要做成“人形”？

在無數(shù)科幻影視作品中，人形機器人一直才是人們對機器人的終極想象，比起工業(yè)機器人，人形機器人是一種更高維的存在。但由于實現(xiàn)難度太大，一直不是機器人行業(yè)的主要形態(tài)，直到最近1年特斯拉的人形機器人發(fā)布，才成為市場焦點。

市場也存在很多質疑聲：到底我們需不需要人形機器人？既然難度這么大，到底需要多少年才能在現(xiàn)實生活中落地？是否應該先從機械狗、多輪底盤+機械臂等形態(tài)入手，而不是一上來就做人形？

當然這個問題還沒有答案，我們看到谷歌搭載RT-2的機器人，就是四個輪子作為底盤+一個機械臂，已經能實現(xiàn)很多功能，比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務機器人不需要靈巧手（利用空心杯電機實現(xiàn)的仿人手設計）、不需要仿人腿的運動控制系統(tǒng)，也能實現(xiàn)很多家庭、工廠場景的功能。當然它也會有限制，比如不能上下樓梯。

Google的機器人就是輪式底盤+單臂+攝像頭的形態(tài)。圖片來源：Google Deepmind

當然，我們的觀點是人形肯定是終極形態(tài)，因為我們相信最終機器人是會進入千家萬戶的。但根據不同場景需求，其他形態(tài)的機器人也會共存，比如不一定是雙足雙臂，更早到來的可能是輪式單臂。

人形的好處是：首先是應用范圍。如果用終局思維來思考，人形機器人的應用范圍肯定是最廣的，因為人形才是最適合社會中所有場景的形態(tài)，我們所有的建筑、工具等等，都是基于人類的身形而設計的，所以無需改變場景來適應機器人，就能直接使用人類社會中所有工具。這也符合馬斯克所提出的愿景，他希望今后人類不想干的事全都可以交給機器人來干，甚至發(fā)掘出目前我們還預料不到的用途。

比如最典型的，就是人類的腿和手，在仿生步態(tài)下，機器人的運動能力比傳統(tǒng)履帶、四輪、雙輪機器人都有大幅提升，機器人可以上下樓，可以跳躍過障礙物等等。對于手來說，基于空心杯電機的靈巧手，可以實現(xiàn)雙手配合和工具替換，這比起傳統(tǒng)的工業(yè)機器人，能用更廣泛的人類工具，技能更廣。

特斯拉使用空心杯電機設計的靈巧手。圖片來源：東吳證券

其次如果考慮交互，“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中，心理學家就在強調肢體語言的作用。肢體語言也最符合人類的認知，人類無需重新學習任何新東西，就能輕松理解機器人的動作。在結合大語言模型之后，能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機器人Ameca，輸入了大量真人表情數(shù)據，通過立體3D打印機制作出精確的模具，實現(xiàn)了生動的面部表情和肢體語言。

英國機器人公司Engineered Arts的人形機器人Ameca，能夠在橡膠皮膚上表現(xiàn)出超過 62 種面部表情，這是Ameca著名的“蘇醒時刻”

我們都知道人形有這么多好處，但對人形機器人最大的制約，還是軟硬件技術的高難度，小到每一個關節(jié)的設計，再到運動控制、對環(huán)境的感知等等，每一個環(huán)節(jié)都存在技術難題，綜合在一起更是對系統(tǒng)的集成度、魯棒性要求很高。

比如運動控制的標桿波士頓動力，已經成立了31年，歷經被谷歌收購、被軟銀收購、被韓國現(xiàn)代集團收購，一直都在不斷投入，雖然實現(xiàn)了“跑酷”等炫酷的功能，但背后是不計成本的投入、功耗極高、噪音很大，離量產落地還差很遠。

波士頓動力的機器人跑酷演示。視頻來源：波士頓動力YouTube頻道

不過，如果一家公司把最終目標定位成人形機器人，不代表它的產品只有一款人形機器人。在高難度的技術研發(fā)中，無論是移動、抓取還是視覺感知等等，都可以在這個過程中迭代出新的產品，而最終把各項技術組合在一起，簡單來說就是：人形機器人是最難的機器人形態(tài)，誰能做好人形，誰就也能做好其他形態(tài)的機器人。

總之，機器人的通用性和智能化是接下來的重點，但不一定非要是人形，當下還需要看場景需求。

03 訓練數(shù)據是瓶頸，數(shù)據還能從哪里來？

能否獲得高質量且足夠便宜的數(shù)據，是當下制約智能機器人發(fā)展的瓶頸，也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots，它曾是谷歌的明星獨立項目，但在今年2月被谷歌因成本控制而解散，并入谷歌其他部門。造成Everday Robots成本高昂的一個重要原因，就是數(shù)據采集成本過于昂貴。OpenAI曾經也有一個機器人部門，但后來放棄了，問題也出在數(shù)據收集上。

為什么采集成本這么高？主要是因為Everday Robots基于真實環(huán)境來收集數(shù)據。谷歌為了訓練PaLM-E，用了13臺機器人，收集了17個月，才拿到足夠的數(shù)據量，如果是在更復雜的工業(yè)場景，數(shù)據采集成本會更高。

目前對于人形機器人來說，主流的數(shù)據獲取手段有四種：

遙操作數(shù)據：這是目前最主流的方式，特斯拉等很多機器人公司都在使用。這種方式基于人工遙操作，先學習和分解人是怎么做到的，然后對應機器人要怎么做到。由于是真實世界的數(shù)據，所以數(shù)據質量最高，但數(shù)據采集成本也是最高的。

模擬器數(shù)據：由于遙操作成本過高，更低成本的基于模擬器，來生產仿真數(shù)據也有越來越多人使用。一方面通過合成仿真數(shù)據可以大幅擴展數(shù)據集，此外仿真場景還可以去補充日?，F(xiàn)實中比較少出現(xiàn)的任務。在一些任務中，比如導航或是抓取物品等，仿真表現(xiàn)不錯，但在另一些對真實物理數(shù)據要求比較高的場景，比如在流體中的運動、或是物體破裂等等，還比較難在仿真里做到。但模擬器不是萬能的，如何構建豐富的3D內容、如何設置合適的獎勵機制等，也是這種方式所面臨的問題，當然還有算力成本。

視頻數(shù)據：鑒于線上視頻網站中，有大量第一人稱視角的視頻，這些視頻完全可以讓機器人或者AI來學習，這些都是很好的人類真實活動的視頻，通過這些圖像來訓練機器人的行為決策，可以快速且低成本的實現(xiàn)數(shù)據積累和泛化能力。目前學界和谷歌等大廠，都在嘗試這種方式來加快訓練。

模仿學習：這種方式還在研究中，就是讓人直接在機器人面前演示一遍，機器人就學會了。比如在家庭場景中的一些動作，掃地或是把臟衣服放進洗衣機，可能只需要教幾遍，不需要額外采集數(shù)據，也不需要動作捕捉。有不少相關的論文已經發(fā)表。

總之，具身大數(shù)據對于機器人來說是一個重要瓶頸，在缺乏具身數(shù)據的情況下，很難訓練出真正好用的具身基礎模型。

目前在每條數(shù)據獲取的技術路徑上，都有很多公司或高校在嘗試，很多公司也是幾種方式混合在一起使用，以最快的速度和盡量低的成本來獲取高質量數(shù)據。

今年，機器人在真實環(huán)境中的規(guī)劃、感知、決策、執(zhí)行等能力大幅提升，通過語音直接控制成為可行，人機交互也大大增強。在這種智能化、通用性的發(fā)展趨勢下，通用機器人的應用領域被大大拓寬，人形機器人的商業(yè)化也成為了可能。

通用機器人還將帶來工業(yè)制造能力的騰飛，從以前只能機械完成代碼指令的工業(yè)機器人，變成能使用大量人類工具、載具的通用機器人。而在工業(yè)制造領域，無論是在機器人零件端，還是工業(yè)制造的應用場景、訓練所需要的數(shù)據成本等方面，中國都更具優(yōu)勢。

在ITF World 2023大會上，英偉達創(chuàng)始人黃仁勛說，人工智能的下一個浪潮將是具身智能，即能理解、推理、并與物理世界互動的智能系統(tǒng)。而通用機器人，無疑是最理想的載體。