久久精品一本到99热免费,亚洲国产日韩一区三区,精品国产综合二区亚洲,性欧美黑人性视频在线

    <sub id="qk7nk"><ol id="qk7nk"></ol></sub>
  1. 
    
  2. <legend id="qk7nk"></legend>

    <legend id="qk7nk"></legend>

    您的位置:首頁>AI>

    研究人員吹捧可以預測未來25個視頻幀的AI

    人工智能和機器學習算法越來越善于預測視頻中的下一個動作。在最好的可以相當準確地預測,其中后一個棒球威力旅游已經(jīng)投了,或者的公路里程從起始位置的外觀。為此,谷歌,密歇根大學和Adobe的研究人員提出了一種新穎的方法,該方法利用大型模型提高了藝術(shù)水平,該模型僅用幾幀即可生成高質(zhì)量的視頻。更令人印象深刻的是,它無需像以前的方法那樣依賴光流(場景中物體,表面或邊緣的明顯運動的模式)或地標等技術(shù)就可以做到這一點。

    研究人員在描述其工作的預印本論文中寫道:“在這項工作中,我們只是通過最大化標準神經(jīng)網(wǎng)絡的容量來研究是否能夠?qū)崿F(xiàn)高質(zhì)量的視頻預測。”“據(jù)我們所知,這項工作是第一個對容量增加對視頻預測的影響進行徹底調(diào)查的工作。”

    團隊的基準模型建立在現(xiàn)有的隨機視頻生成(SVG)架構(gòu)的基礎上,并具有對未來預測中固有的不確定性進行建模的組件。他們針對為三種預測類別量身定制的數(shù)據(jù)集分別訓練和測試了模型的多個版本:對象交互,結(jié)構(gòu)化運動和部分可觀察性。對于第一個任務(對象交互),研究人員從機器人手臂與毛巾交互的視頻語料庫中選擇了256個視頻,對于第二個(結(jié)構(gòu)化運動),他們從Human 3.6M中提取了片段,該語料庫包含了人類執(zhí)行動作的片段就像坐在椅子上一樣。至于部分可觀察性任務,他們使用了來自前車儀表板攝像機鏡頭的開源KITTI駕駛數(shù)據(jù)集。

    團隊將每個模型的條件調(diào)整為2到5個視頻幀,并讓模型在訓練期間預測未來的5到10幀-針對所有任務的分辨率為低分辨率(64 x 64像素),分辨率為低分辨率和高分辨率(128 x 128)像素)用于對象互動任務。在測試期間,模型最多生成25幀。

    研究人員報告說,通過Amazon Mechanical Turk招募的評估人員,在對象交互,結(jié)構(gòu)化運動和部分可觀察性任務方面,最大的模型之一分別有90.2%,98.7%和99.3%的時間更可取。定性地,研究小組注意到,該模型清晰地描繪了人類的手臂和腿,并做出了“非常敏銳的預測,與地面真實情況相比,這些預測看起來很現(xiàn)實。

    免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!