文|智東西
編譯|程茜
智東西1月21日消息,1月19日,瑞士蘇黎世聯(lián)邦理工學(xué)院的一項(xiàng)新成果登上國際學(xué)術(shù)頂刊Science(《科學(xué)》)的子刊Science Robotics(《科學(xué)·機(jī)器人學(xué)》)。研究人員推出一個(gè)類似機(jī)器狗的四足機(jī)器人,這個(gè)機(jī)器人能夠結(jié)合外部感知和本體感知,爬上120米高的山僅需要31分鐘,比人類徒步花費(fèi)的時(shí)間還要快4分鐘。
山上往往都由濕滑地面上的陡峭路段、高高的臺(tái)階、碎石和布滿樹根的森林小徑組成,能在偏遠(yuǎn)和危險(xiǎn)環(huán)境中自主操作的腿式機(jī)器人,將幫助人類探索海拔較高的未知領(lǐng)域。
外部感知對(duì)于快速和節(jié)能的運(yùn)動(dòng)至關(guān)重要,機(jī)器人在接觸地形之前感知地形可以提前規(guī)劃和適應(yīng)步態(tài),以保持速度和穩(wěn)定性。
瑞士蘇黎世聯(lián)邦理工學(xué)院機(jī)器人系統(tǒng)實(shí)驗(yàn)室機(jī)器人學(xué)教授馬可·赫特(Marco Hutter)領(lǐng)導(dǎo)的研究小組,聯(lián)合學(xué)校的衍生公司ANYbotics,推出了商業(yè)化的腿式四足機(jī)器人ANYmal,這個(gè)機(jī)器人能夠穿越多種類型的復(fù)雜地形。
01.不依賴傳感器,自主判斷速度快慢
為了在困難的地形上前進(jìn),人類和動(dòng)物會(huì)自動(dòng)將其環(huán)境的視覺感知與他們的腿和手的本體感覺結(jié)合起來。這使他們能夠輕松應(yīng)對(duì)濕滑或松軟的地面,并較容易地四處走動(dòng)。不過,到目前為止,腿式機(jī)器人只能在有限的范圍內(nèi)做到這一點(diǎn)。
“原因是激光傳感器和攝像頭記錄的有關(guān)直接環(huán)境的信息通常不完整且模棱兩可?!焙仗匮芯啃〗M的博士生、該研究的主要作者三木隆弘(Takahiro Miki)解釋說。
機(jī)器人能夠利用外部感知來行動(dòng),是該項(xiàng)技術(shù)中的一項(xiàng)重大挑戰(zhàn)。首先,山上的雪、植被和水表面的反射率高,機(jī)器人會(huì)將它們視為無法踩到或完全消失的障礙物;其次,由于山上有灰塵、霧氣,能見度低,或者由于光線反射、植被遮擋機(jī)器人身上的傳感器,這些都可能會(huì)導(dǎo)致傳感器的感知度降低。
受這些因素影響,機(jī)器人腿部運(yùn)動(dòng)比較通用的解決方案是靠本體感覺,這也嚴(yán)重限制了其運(yùn)動(dòng)速度,因?yàn)闄C(jī)器人需要先親身感受地形,然后再調(diào)整步態(tài)。
“這就是為什么像ANYmal這樣的機(jī)器人必須能夠自己決定,何時(shí)信任對(duì)環(huán)境的視覺感知并快速前進(jìn),何時(shí)最好謹(jǐn)慎行事,小步前進(jìn)。”三木隆弘說。
02.控制器快速避障,10秒前進(jìn)4米多
赫特領(lǐng)導(dǎo)的研究小組提出的這種更加通用的解決方案,他們整合了機(jī)器人腿部運(yùn)動(dòng)的外部感受和本體感受。研究人員開發(fā)的具有高魯棒性和速度的腿式運(yùn)動(dòng)控制器,采用了基于注意力的循環(huán)編碼器。該編碼器可以集成本體感受和外部感受輸入,并經(jīng)過端到端的訓(xùn)練,讓機(jī)器人學(xué)習(xí)無縫組合不同的感知模式。
“機(jī)器人已經(jīng)學(xué)會(huì)將其環(huán)境的視覺感知與本體感覺,也就是基于直接的腿部接觸的觸覺結(jié)合起來。這使它能夠更快、更有效地應(yīng)對(duì)崎嶇地形,最重要的是,更穩(wěn)健?!焙仗卣f,未來,ANYmal可以用于任何對(duì)人類來說太危險(xiǎn),或?qū)ζ渌麢C(jī)器人來說也難以通過的地方。
機(jī)器人在現(xiàn)實(shí)世界中實(shí)際行動(dòng)之前,科學(xué)家們?cè)谔摂M訓(xùn)練營(yíng)中為這個(gè)四足機(jī)器人設(shè)置了眾多障礙,以便于它能找到克服多種障礙的理想方式,以及它何時(shí)可以依賴環(huán)境數(shù)據(jù)、何時(shí)可以忽略這些數(shù)據(jù)。
赫特說:“在實(shí)驗(yàn)中評(píng)估機(jī)器人外部感知很重要?!毖芯咳藛T在模擬的附加實(shí)驗(yàn)中,他們還比較了各種階梯和樓梯地形中,機(jī)器人行動(dòng)的成功率,以進(jìn)一步定量評(píng)估其性能。
在評(píng)估過程中,研究人員向機(jī)器人發(fā)出0.7m/s的固定前進(jìn)速度指令,持續(xù)10秒,并收集了300個(gè)實(shí)驗(yàn)數(shù)據(jù)來計(jì)算成功率。實(shí)驗(yàn)成功的標(biāo)準(zhǔn)是機(jī)器人的行動(dòng)距離是否超過4米。研究結(jié)果顯示,這個(gè)四足機(jī)器人的控制器性能明顯優(yōu)于基線,可以穿越更多類型的地形范圍。
03.教師+學(xué)生模型訓(xùn)練,訓(xùn)練迭代1000個(gè)環(huán)境
研究小組還采用了教師-學(xué)生模式來對(duì)機(jī)器人進(jìn)行訓(xùn)練。在訓(xùn)練過程中,赫特將信息策略的控制頻率設(shè)置為50 Hz,每個(gè)環(huán)境收集250個(gè)時(shí)間段的軌跡數(shù)據(jù),形成一次訓(xùn)練迭代。隨后他們將模擬環(huán)境并行化,以同時(shí)執(zhí)行1000個(gè)環(huán)境的訓(xùn)練。
對(duì)于教師模型,研究人員采用深度增強(qiáng)學(xué)習(xí)PPO算法,這個(gè)算法模型可以有效衡量機(jī)器人的步長(zhǎng)。在將觀察結(jié)果匯總觀察之前,他們會(huì)使用運(yùn)行平均值和標(biāo)準(zhǔn)偏差對(duì)其進(jìn)行標(biāo)準(zhǔn)化,不同的實(shí)驗(yàn)會(huì)在每一次訓(xùn)練中以指數(shù)形式更新。
對(duì)于學(xué)生模型,赫特說:“我們?cè)?00個(gè)環(huán)境中進(jìn)行了推廣,并為一次訓(xùn)練迭代收集了400個(gè)時(shí)間段的軌跡?!辈⑶以谟?xùn)練學(xué)生模型時(shí),實(shí)驗(yàn)過程沒有高度樣本噪音干擾。
“通過這種訓(xùn)練,機(jī)器人能夠在以前從未見過的情況下掌握最困難的自然地形?!焙仗卣f,“即使直接環(huán)境中的傳感器數(shù)據(jù)模棱兩可或含糊不清,這也有效?!?/p>
根據(jù)赫特的說法,ANYmal會(huì)依靠其本體感覺安全行事,這樣的話機(jī)器人行動(dòng)就做到了兩全其美,能夠結(jié)合外部感知的速度和效率以及本體感知的安全性。
04.結(jié)語:機(jī)器人或能幫助人類探索未知領(lǐng)域
在實(shí)際應(yīng)用場(chǎng)景中,ANYmal在自主探索狹窄隧道、洞穴和城市基礎(chǔ)設(shè)施的地下系統(tǒng)的同時(shí),還能自動(dòng)快速地克服許多障礙物和困難地形。
機(jī)器人的快速避障和感知能力進(jìn)一步提升,在未來,各種極端條件下,比如地震之后、核災(zāi)難之后或是森林火災(zāi)期間,對(duì)人類來說太危險(xiǎn)以及其他機(jī)器人無法應(yīng)對(duì)困難地形的地方,像ANYmal這樣的機(jī)器人都可以派上大用場(chǎng)。
近年來,機(jī)器人研究的應(yīng)用在不斷擴(kuò)展,機(jī)器人行動(dòng)結(jié)合本體感受和外部感受等技術(shù),都在解決很多機(jī)器人運(yùn)動(dòng)的難題,該領(lǐng)域未來在人類未知領(lǐng)域的探索應(yīng)用場(chǎng)景可能會(huì)進(jìn)一步擴(kuò)大。
來源:Robohub、Science