Google AI研究人員發(fā)布了兩項用于衡量深度學習網絡生成的音頻和視頻質量的新指標,即Fréchet音頻距離(FAD)和Fréchet視頻距離(FVD)。度量已顯示與質量人工評估高度相關。
在最近的博客文章中,軟件工程師Kevin Kilgour和Thomas Unterthiner描述了他們的團隊所做的工作,這些工作是建立在先前對測量神經網絡生成的圖像質量的研究的基礎上的。這些團隊展示了他們的新指標如何分別檢測添加到聲音或視頻中的噪聲,以及如何通過人工評估聲音或視頻質量來跟蹤指標。FAD是通過對失真音頻樣本對的系列進行排序來評估的,其選擇與人類判斷的相關性為0.39。通過對由深度學習模型生成的視頻對進行排名,對FVD進行了類似的評估。根據所使用的生成標準,它與人類排名之間在60%到80%之間達成一致。
深度學習模型的成功在一定程度上受到諸如ImageNet之類的大型高質量數據集的可用性的驅動。這些數據集還提供了可以評估模型的“基本事實”。深度學習在生成新圖像方面的最新流行應用提出了一個新問題:如何衡量輸出的質量?由于沒有針對這些網絡生成的圖像或其他數據的“真實”答案,因此無法應用諸如信噪比或均方誤差之類的通用指標。
由于目標是創(chuàng)建看起來或聽起來對人類真實的輸出,因此可以由人類裁判對數據進行評分,但是這既不是可伸縮的,也不是客觀的。GAN的發(fā)明人提出的初始指標是初始得分(IS)。通過將預訓練的Inception圖像分類器應用于圖像并計算結果統計信息來計算此指標。該度量標準“與用于訓練生成模型的目標密切相關”,并且已證明與人類對質量的判斷高度相關。
但是,初始得分指標確實存在一些缺點;特別是,它對所使用的基礎Inception模型的更改很敏感。Unterthiner和其他人在奧地利約翰內斯·開普勒大學的LIT AI實驗室開發(fā)了Fréchet起始距離(FID)。FID使用Inception模型的隱藏層來計算輸入圖像的嵌入,而不是使用Inception模型的分類輸出。為一組生成的圖像和一組真實世界(或基線)圖像計算嵌入。將所得數據集視為由多元高斯分布生成的數據,并使用弗雷謝特距離比較這兩個分布。與IS相比,FID相對于IS的一個優(yōu)勢是,隨著將噪聲添加到圖像上,FID會增加,而IS可能保持平坦甚至降低。
Google的新指標擴展了這種思想,即為生成的數據計算嵌入并將統計數據與基準數據進行比較。對于FAD,團隊使用VGGish來計算嵌入,而對于FVD,則使用Inflated 3D Convnet。為了驗證度量標準的有效性,研究人員計算了通過向基線添加噪聲而創(chuàng)建的數據集的度量標準值。期望隨著噪聲的增加,分數會增加,這的確確實發(fā)生了。該團隊還將他們的度量結果與人工評估進行了比較,發(fā)現了度量與人類判斷之間的相關性,并且他們的新度量與人類法官的共識比其他常用度量更為一致。