機器人領(lǐng)域向前邁出了一步,緊隨其后的又是另一步。最近,一個名為Rainbow Dash的機器人自學了走路。這只四腳機器只需要幾個小時就可以學會向前和向后行走,并在此過程中左右旋轉(zhuǎn)。
谷歌,加州大學伯克利分校和佐治亞理工學院的研究人員在ArXiv預印服務器上發(fā)表了一篇論文,描述了一種統(tǒng)計AI技術(shù),即深度強化學習,他們用來產(chǎn)生這種成就,這是很重要的,其原因有很多。
大多數(shù)強化學習部署都在計算機模擬的環(huán)境中進行。但是,Rainbow Dash使用此技術(shù)來學習在實際物理環(huán)境中行走。
而且,它能夠在沒有專門的教學機制的情況下進行操作,例如人工指導或帶有標簽的培訓數(shù)據(jù)。最終,Rainbow Dash成功地在多個表面上行走,包括柔軟的泡沫床墊和帶有明顯凹口的門墊。
機器人使用的深度強化學習技術(shù)包括一種機器學習,其中代理與環(huán)境交互以通過反復試驗來學習。大多數(shù)強化學習用例都涉及計算機游戲,其中數(shù)字特工學習如何玩贏。
這種形式的機器學習與傳統(tǒng)的有監(jiān)督或無監(jiān)督學習明顯不同,在傳統(tǒng)的有監(jiān)督或無監(jiān)督學習中,機器學習模型需要標記的訓練數(shù)據(jù)來學習。深度強化學習將強化學習方法與深度學習相結(jié)合,傳統(tǒng)的機器學習的規(guī)模隨著強大的計算能力而大大擴展。盡管研究團隊將Rainbow Dash的學習能力歸功于自己,但人為干預仍在實現(xiàn)該目標方面發(fā)揮了重要作用。研究人員必須創(chuàng)建邊界,機器人可以在該邊界內(nèi)學習走路,以防止機器人離開該區(qū)域。
他們還必須設(shè)計特定的算法來防止機器人摔倒,其中一些算法集中在限制機器人的運動上。為了防止諸如墜落損壞之類的事故,通常在數(shù)字環(huán)境中進行機器人強化學習,然后再將算法轉(zhuǎn)移到物理機器人上以保持其安全性。
彩虹短跑的勝利發(fā)生大約一年后,研究人員最初想出如何讓機器人在物理學習,而不是虛擬的,周圍的環(huán)境。
斯坦福大學與Google無關(guān)的助理教授切爾西·芬恩(Chelsea Finn)表示,“將人員從[學習]過程中撤離確實很困難。通過允許機器人自主學習,機器人將更接近于能夠在現(xiàn)實世界中學習我們的生活。”