性按摩玩人妻hd中文字幕,特大巨人黑人aaa片bbc,四个熟妇搡bbbb搡bbbb

中科院計(jì)算所副研究員馮洋：神經(jīng)機(jī)器翻譯的訓(xùn)練改進(jìn)和解碼提速

2020-04-07 16:18

解碼

1． CubePruning

下面介紹在解碼方面的兩個(gè)工作，第一個(gè)工作要解決的是beam search每一步要計(jì)算BeamSize＊｜V｜的問題，這個(gè)計(jì)算量大大降低了inference時(shí)候解碼的速度。

這是解碼過程中每個(gè)步驟的時(shí)間消耗，對于GPU來說，大部分的時(shí)間消耗在的計(jì)算上，其它三個(gè)步驟比較節(jié)省時(shí)間，對于CPU來說，最耗費(fèi)時(shí)間的是最后兩個(gè)步驟，因?yàn)椋黇｜比較大。

傳統(tǒng)的方法使用的是Beam Search，傳統(tǒng)的 Beam Search其實(shí)是一個(gè)二維的搜索方法。其中第一維就是已經(jīng)生成的部分的譯文，假設(shè)Beam Size ＝ 4，那么就是四個(gè)譯文。第二維度是這四個(gè)譯文都要進(jìn)行下一步的Token預(yù)測計(jì)算�？偣簿托枰�(jì)算4＊｜V｜的概率。因?yàn)椋黇｜的個(gè)數(shù)通常是幾千上萬級別的，所以這個(gè)部分的計(jì)算量就非常大。

我們的做法是將二維的搜索擴(kuò)展成三維的搜索，具體的做法分為以下幾步：

1． Beam分組：假設(shè)我們要解碼第11步，我們就將第10步解碼出來相同Token的候選序列歸為一組。

2．分組預(yù)測第11步的候選Token：只用每個(gè)組得分最高的哪個(gè)候選序列來計(jì)算當(dāng)前的Token分布。

3．近似組員的Token分布：由上一步已經(jīng)知道本組最優(yōu)的候選序列的下一個(gè)token的預(yù)測分布，對于組員來說，也將共享其老大計(jì)算出來的Token分布score，然后和自身的序列score相加，得到自身擴(kuò)展一個(gè)Token后的score。這個(gè)score作為自身的近似分。

4．查找Top－K：經(jīng)過上面的計(jì)算之后，這樣每個(gè)組就是得分其實(shí)是一個(gè)二維矩陣，我們將矩陣橫軸作為每個(gè)組員，縱軸表示當(dāng)前步預(yù)測的token，然后保證右上角score最大，往右，往下都是減小。這樣便于我們查找Top－K。具體請看下一張slides。

對于近似的score這里有兩個(gè)選擇，1）如果取到的candidate是預(yù)測的score，那么用真實(shí)的狀態(tài)來重新計(jì)算一下這個(gè)score，這時(shí)候也順便更新了一下自己的隱狀態(tài)，2）直接用預(yù)測的score，不使用更新的方式，這時(shí)候和老大哥共享隱狀態(tài)。