近年來,全球許多研究團(tuán)隊一直在開發(fā)和評估技術(shù),以使腿式機(jī)器人實現(xiàn)不同的運(yùn)動風(fēng)格。訓(xùn)練機(jī)器人像人或動物一樣走路的一種方法是讓它們分析并模擬真實世界的演示。這種方法稱為模仿學(xué)習(xí)。
蘇格蘭愛丁堡大學(xué)的研究人員最近設(shè)計了一個框架,用于訓(xùn)練人形機(jī)器人通過人類演示像人一樣行走。在arXiv上預(yù)發(fā)表的一篇論文中提出的這個新框架將模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)技術(shù)與機(jī)器人控制理論相結(jié)合,以實現(xiàn)人形機(jī)器人的自然運(yùn)動和動態(tài)運(yùn)動。
“我們著手研究的關(guān)鍵問題是如何將(1)機(jī)器人運(yùn)動中的有用人類知識和(2)模仿人類的運(yùn)動捕獲數(shù)據(jù)納入深度強(qiáng)化學(xué)習(xí)范例,以更有效地提升有腿機(jī)器人的自主能力,” Chuanyu進(jìn)行這項研究的研究人員之一,楊告訴TechXplore。我們提出了兩種將人類先驗知識引入DRL框架的方法。”
Yang和他的同事設(shè)計的框架基于獨特的獎勵設(shè)計,該設(shè)計使用人類步行的運(yùn)動字幕數(shù)據(jù)作為訓(xùn)練參考。另外,它利用了兩種專門的分層神經(jīng)架構(gòu),即相功能神經(jīng)網(wǎng)絡(luò)(PFNN)和模式自適應(yīng)神經(jīng)網(wǎng)絡(luò)(MANN)。
Yang解釋說:“復(fù)制類似人的運(yùn)動方式的關(guān)鍵是引入人的行走數(shù)據(jù),作為學(xué)習(xí)代理模仿的專家演示。” “獎勵設(shè)計是強(qiáng)化學(xué)習(xí)的重要方面,因為它支配著代理的行為。”
Yang和他的同事使用的獎勵設(shè)計包括一個任務(wù)術(shù)語和一個模仿術(shù)語。這些組件中的第一個組件為類人機(jī)器人實現(xiàn)高水平的運(yùn)動提供了必要的指導(dǎo),而后者則可以實現(xiàn)更人性化和自然的行走方式。這種獨特的設(shè)計與其他常規(guī)人形控制方法背后的關(guān)鍵理論概念保持一致。
研究人員通過在模擬環(huán)境中進(jìn)行的一系列實驗評估了他們的模仿學(xué)習(xí)框架。他們發(fā)現(xiàn),即使在存在干擾或不良因素(例如地形不規(guī)則或外部推動)的情況下,它也能夠在各種情況下產(chǎn)生強(qiáng)大的運(yùn)動行為。
楊說:“通過利用人類的步行動作作為人工代理模仿的專家演示,我們可以加快學(xué)習(xí)速度,提高整體任務(wù)績效。” “人類的示范知識使我們能夠更有意義地設(shè)計學(xué)習(xí)框架,這被證明總體上對運(yùn)動技能和運(yùn)動控制有益。”
這組研究人員收集的發(fā)現(xiàn)表明,專家演示(在此示例中為人類行走的鏡頭)可以顯著增強(qiáng)深度強(qiáng)化學(xué)習(xí)技術(shù),以針對不同的運(yùn)動風(fēng)格訓(xùn)練機(jī)器人。最終,他們提出的新框架可用于訓(xùn)練類人機(jī)器人,使其以與人類相似的方式更快,更高效地行走,同時還實現(xiàn)更自然和類似人類的行為。
具有模仿效果的自然且類似人的步態(tài):人類的演示確保AI策略不會偏離建議的動作。圖片來源:Yang等
到目前為止,Yang和他的同事們只在仿真中評估了他們的框架,因此他們現(xiàn)在計劃研究將其從仿真環(huán)境轉(zhuǎn)移到現(xiàn)實環(huán)境的方法。他們最終希望在真正的人形機(jī)器人上實現(xiàn)它,以便進(jìn)一步評估其有效性和可用性。
楊說:“在未來的工作中,我們還計劃擴(kuò)展學(xué)習(xí)框架,以模仿更加多樣化和復(fù)雜的人類運(yùn)動,例如橫跨運(yùn)動,操縱和抓握的一般運(yùn)動技能。” “我們還計劃研究有效的從仿真到現(xiàn)實的策略傳輸,以實現(xiàn)對真正機(jī)器人的學(xué)習(xí)策略的快速部署。”