數(shù)十年來,機器已經能夠理解簡單的音樂功能,例如每分鐘的節(jié)拍數(shù)。現(xiàn)在,人工智能正在將他們的能力提高到一個點,即他們不僅可以弄清楚正在播放的音樂的特定類型,還可以弄清楚如何適當?shù)靥琛?/p>
顯然,EDM俱樂部中的舞蹈風格與人們在酒店宴會廳中跳動的方式大不相同。即使您不是鄉(xiāng)村音樂的狂熱者,當您聽到懷舊的“鄉(xiāng)村小路”合唱時,您的腳也可能會輕拍并且搖搖頭。我們的身體對各種音樂刺激的反應幾乎是本能的-如何將其教給機器?
加利福尼亞大學,默塞德大學和NVIDIA大學的研究人員引入了一種通過分析進行綜合的學習框架Music2Dance,該框架可以為不同音樂流派產生“風格一致且節(jié)拍匹配的舞蹈”。這項工作將于下個月在溫哥華的NuerIPS 2019上發(fā)表。
研究人員介紹了一種新穎的分解到合成框架,該框架可以將基本的身體動作轉化為以音樂為條件的復雜舞蹈。分解階段通過運動節(jié)拍檢測器定義和標準化從真實舞蹈序列視頻中分割的舞蹈單元,學習如何執(zhí)行基本的舞蹈動作。在作曲階段,音樂對運動的生成對抗網絡(GAN)生成以音樂為條件的舞蹈動作。研究人員然后提取樣式和節(jié)拍,以循環(huán)的方式合成舞蹈單元,并對所生成的舞蹈單元序列應用“節(jié)拍整經器”以渲染最終的輸出舞蹈。
研究人員將其分解到合成框架與LSTM和Aud-MoCoGAN等基準進行了比較,這些指標包括運動逼真度,樣式一致性,多樣性,多模式性,拍子覆蓋率和命中率。研究人員提出的框架產生的舞蹈更加逼真,多樣,并且與音樂的同步性更好。今年早些時候,麻省理工學院CSAIL還對音頻和視頻之間的跨模式學習進行了有趣的研究。在他們的論文《Speech2Face:學習聲音背后的臉》中,研究人員設計并訓練了一個深度神經網絡,以根據(jù)人們的短語音錄音來重建人們的面部圖像。
盡管AI研究人員通常不被稱為派對動物,但他們似乎確實對舞蹈充滿熱情。Synced于10月發(fā)布了故事《搖動你的贓物:一張照片中的AI深度假裝舞步》,該報道報道了上??萍即髮W和騰訊AI實驗室研究人員的3D身體網格恢復模塊Liquid Warping GAN,它可以從一張照片中將假舞步深化。這篇論文介紹了這項研究液體翹曲GAN:模仿人體運動,外觀轉移和新穎視圖合成的統(tǒng)一框架。