伯克利提出超輕量級聲碼器SqueezeWave: Mini身材, Maxi速率
三、SqueezeWave的改進措施
通過對WaveGlow的分析發(fā)現最主要的計算量來自于輸入音頻波形的形狀(長度)。WaveGlow的輸出維度為(L=2000,Cg = 8)這會從三個方面帶來非常高的計算復雜度:WaveGlow是一維卷積,其計算復雜度隨L線性增長;為了提高梅爾譜的時域分辨率需要對其進行上采樣,由于上采樣是由現有樣本簡單插值而成的意味著in_layer中其中絕大部分計算是沒有必要的;在WN函數中,8通道的輸入被映射到了256到512維中間維度,雖然增加了模型容量但是在輸出時又被壓縮為8通道,中間維度的信息將會不可避免的丟失。
為了改進這些計算復雜的細節(jié),研究人員將輸入音頻變形為較小的時域長度和較多的通道上來,同時保持WN函數中的通道尺寸。下面是兩種改進的細節(jié)。當L=64時,時域長度與梅爾譜相同無需上采樣,而L=128時,梅爾譜僅需要進行最鄰近采樣,這樣進一步減少了cond_layer的計算開銷。fig2深度可分離卷積減小計算量。
此外,研究人員還利用深度可分離卷積代替了in_layer中的一維卷積,用于處理1D音頻信號。一維卷積將輸入轉換為,其中卷積核的尺寸為,計算量為MACs.利用深度可分離卷積可以將計算量減小為:
當K=3,Cout = 512時候,這種方法可以減小近三倍的計算量。
除此之外,由于時域長度減小不再需要利用膨脹卷積增加感受野,所以都用常規(guī)卷積進行代替更加適合硬件計算;將res_skip_layer的兩支輸出分支合并,減小了最終的輸出通道數目。在下圖中可以看到SqueezeWave的改進:
四、實驗結果
為了驗證模型的性能,研究人員將本文提出的SqueezeWave(SW)與WaveGlow和基準進行了比較,下表中SW-128L代表L=128的模型:
可以看到SW系列模型的計算量相較于WaveGlow大幅下降,而性能卻能保持較高的水平。
為了驗證在邊緣設備的性能,上表還比較了在Macbook Pro和樹莓派上的結果,可以看到甚至在樹莓派上都可以達到5.2k-21k/s的樣本生成速度。其中SW128S已經能夠生成實時并且高質量的音頻結果了。
關于我門
▼
將門是一家以專注于發(fā)掘、加速及投資技術驅動型創(chuàng)業(yè)公司的新型創(chuàng)投機構,旗下涵蓋將門創(chuàng)新服務、將門技術社群以及將門創(chuàng)投基金。將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。
將門創(chuàng)新服務專注于使創(chuàng)新的技術落地于真正的應用場景,激活和實現全新的商業(yè)價值,服務于行業(yè)領先企業(yè)和技術創(chuàng)新型創(chuàng)業(yè)公司。
將門技術社群專注于幫助技術創(chuàng)新型的創(chuàng)業(yè)公司提供來自產、學、研、創(chuàng)領域的核心技術專家的技術分享和學習內容,使創(chuàng)新成為持續(xù)的核心競爭力。
將門創(chuàng)投基金專注于投資通過技術創(chuàng)新激活商業(yè)場景,實現商業(yè)價值的初創(chuàng)企業(yè),關注技術領域包括機器智能、物聯網、自然人機交互、企業(yè)計算。在近四年的時間里,將門創(chuàng)投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創(chuàng)業(yè)公司。

請輸入評論內容...
請輸入評論/評論長度6~500個字