在即將舉行的MineRL競賽中,AI工程師,研究人員等將獲得4天的時間來開發(fā)能夠通過挖掘在流行的Minecraft游戲中找到鉆石的AI。問題在于參與者將有800萬步訓練他們創(chuàng)建的AI來尋找鉆石。這比目前訓練AI模型所需的時間短。因此,參與者必須提出新的工程解決方案才能完成任務。
在最近的比賽中,人工智能在戰(zhàn)略游戲《星際爭霸2》中擊敗了人類。為了提高挑戰(zhàn)水平,現(xiàn)在需要AI在Minecraft中完成任務?!缎请H爭霸II》有明確的目標,可以分解為合理的步驟,然后將其用于訓練AI程序。另一方面,《我的世界》是一款大型的開放世界的沙盒游戲,要分解成清晰合理的步驟要困難得多。因此,為Minecraft訓練AI程序要復雜得多。培訓步驟的上限為800萬,從而增加了復雜性。
目前,用于AI的培訓方法是強化學習。工廠中的機械臂通過這種方法進行訓練。強化學習需要大量的計算機處理能力來進行訓練,其中數(shù)千臺計算機被鏈接在一起進行學習。
為了克服強化學習的缺點,研究人員正在開發(fā)模仿學習系統(tǒng),在該系統(tǒng)中訓練AI程序以模仿人類通過觀察進行學習的行為。
選擇Minecraft是因為它很受歡迎,因為培訓數(shù)據(jù)很容易獲得。實際上,組織者招募了Minecraft玩家來創(chuàng)建各種工具并打破常規(guī)。收集了超過6000萬個可以在游戲中采取的動作示例,這些視頻可以播放1000小時的視頻。所有這些都移交給了參與者以培訓他們的AI。
Minecraft允許玩家從簡單的構建塊中構建復雜的結構。創(chuàng)建結構的過程可以分解為不同的階段,參與者可以將其用作進度的標記。
模仿學習將使AI能夠吸收所有數(shù)據(jù),在其中尋找模式,并對游戲做出一些假設,這將構成其知識的基線。