亚洲,日韩,国产第一区二区三区,97久久久综合亚洲久久88

動(dòng)態(tài)生成掩膜預(yù)測(cè)網(wǎng)絡(luò)生成模型CondInst，助力FCN重奪實(shí)例檢測(cè)顛峰

2020-06-11 11:57

實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù)，需要算法預(yù)測(cè)出圖像中每個(gè)實(shí)例的掩膜和對(duì)應(yīng)的分類標(biāo)簽。Mask R－CNN作為一種性能優(yōu)異的算法，在實(shí)例分割領(lǐng)域取得了巨大成功，這種兩階段的方法主要依賴于ROI操作來(lái)獲取最終的實(shí)例掩膜。

而在這篇文章中，作者從全新的角度解決了實(shí)例分割問(wèn)題，來(lái)自澳大利亞阿德萊德大學(xué)的研究人員在實(shí)例條件下提出了動(dòng)態(tài)實(shí)例生成的網(wǎng)絡(luò)模型，代替了先前逐個(gè)實(shí)例的ROI區(qū)域作為預(yù)測(cè)的輸入。

這種全卷積網(wǎng)絡(luò)消除了對(duì)于ROI區(qū)域測(cè)裁剪操作和特征配準(zhǔn)方法，其次由于動(dòng)態(tài)生成的條件卷積大幅提升了網(wǎng)絡(luò)容量使得mask分支變得非常緊湊，推理速度得到了大幅度提升。實(shí)驗(yàn)表明這種方法無(wú)需更長(zhǎng)時(shí)間的訓(xùn)練，在COCO數(shù)據(jù)集上取得了比Mask R－CNN更好的結(jié)果，同時(shí)在精度和速度上都得到了明顯提升。

實(shí)例分割

Mask R－CNN是近幾年來(lái)實(shí)例分割領(lǐng)域非常重要的突破，它使用了Faster R－CNN來(lái)為每個(gè)實(shí)例預(yù)測(cè)邊界框，而后針對(duì)每個(gè)實(shí)例利用ROIAlign操作對(duì)在特征圖中進(jìn)行ROI區(qū)域裁剪，最后利用緊湊的全卷積網(wǎng)絡(luò)來(lái)對(duì)每一個(gè)實(shí)例的掩膜進(jìn)行預(yù)測(cè)。

然而這種基于ROI的方法也有著諸多需要克服的困難：

首先ROI一般都是和圖像坐標(biāo)軸對(duì)齊的邊框，當(dāng)遇到非常規(guī)不規(guī)則物體時(shí)框中就會(huì)包含較多的背景或者其他實(shí)例的部分。雖然可以通過(guò)旋轉(zhuǎn)ROI解決這一問(wèn)題，但隨之而來(lái)是更為復(fù)雜的計(jì)算代價(jià)和處理流程；其次為了區(qū)分前景和背景或者其他雜亂的實(shí)例，mask端需要堆疊更多的卷積層來(lái)獲取更大的感受野，這使得計(jì)算量大幅增加；第三由于ROI尺寸各不相同，為了有效利用批（batch）處理計(jì)算它們會(huì)被重置為相同的大小，這會(huì)限制大范圍實(shí)例的分辨率。

在計(jì)算機(jī)視覺(jué)領(lǐng)域與實(shí)例分割最相近的要數(shù)語(yǔ)義分割了，全卷積網(wǎng)絡(luò)FCN在這一任務(wù)上取得了巨大的成功。此外FCN同時(shí)也在其他逐像素的預(yù)測(cè)任務(wù)上表現(xiàn)優(yōu)異，像圖像去噪、超分辨這類底層圖像處理任務(wù)、光流估計(jì)和邊緣檢測(cè)這類中級(jí)任務(wù)，單發(fā)目標(biāo)檢測(cè)、單目深度估計(jì)和目標(biāo)計(jì)數(shù)這類高級(jí)任務(wù)都有著FCN的貢獻(xiàn)。但在實(shí)例分割任務(wù)中幾乎所有的純粹FCN方法都沒(méi)有達(dá)到最先進(jìn)的水平。究竟是什么原因讓強(qiáng)大的FCN在實(shí)例分割中敗下陣來(lái)呢？

研究人員發(fā)現(xiàn)主要的問(wèn)題在于，網(wǎng)絡(luò)對(duì)于同一張圖像需要針對(duì)不同類別預(yù)測(cè)出不同的掩膜，這會(huì)讓FCN陷入兩難的境地。例如針對(duì)兩個(gè)人A和B，在圖像中具有相同的外觀和形狀特征，但在預(yù)測(cè)A的掩膜時(shí)網(wǎng)絡(luò)需要將B視為背景，這會(huì)讓網(wǎng)絡(luò)陷入到一定程度的迷茫中。所以ROI才需要將目標(biāo)區(qū)域特征圖剪切出來(lái)。

本質(zhì)上來(lái)講，實(shí)例分割網(wǎng)絡(luò)需要兩種類型的信息：外觀形狀特征信息用于確定目標(biāo)類別、位置信息用于從同一類中區(qū)分出不同的實(shí)例。基于ROI的方法都隱式地編碼了目標(biāo)實(shí)例的位置信息。而這篇文章的方法則探索對(duì)對(duì)于實(shí)例位置敏感的卷積層來(lái)嘗試解決目標(biāo)位置信息問(wèn)題。

基于這樣的考量，研究人員提出了新的解決方法，來(lái)代替標(biāo)準(zhǔn)的、由一系列固定權(quán)重濾波器組成的ConvNet來(lái)作為實(shí)例預(yù)測(cè)端針對(duì)所有實(shí)例進(jìn)行處理，利用了一種參數(shù)基于待預(yù)測(cè)實(shí)例自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行預(yù)測(cè)。在動(dòng)態(tài)濾波器和條件卷積的啟發(fā)下，控制子網(wǎng)絡(luò)會(huì)針對(duì)每一個(gè)實(shí)例動(dòng)態(tài)生成mask FCN的網(wǎng)絡(luò)參數(shù)（也就是基于帶預(yù)測(cè)實(shí)例的中心區(qū)域來(lái)生成），隨后這些參數(shù)實(shí)例化為mask FCN用于預(yù)測(cè)對(duì)應(yīng)實(shí)例的掩膜。

其中的思想在于網(wǎng)絡(luò)參數(shù)能夠編碼實(shí)例的特征、并僅激活這一實(shí)例的像素，巧妙地避開(kāi)了前面提到的問(wèn)題。得到的條件mask端作用于整個(gè)特征圖免去了獲取ROI的操作。這一方法也許在有的人看來(lái)會(huì)帶來(lái)非常多的網(wǎng)絡(luò)參數(shù)（由于實(shí)例的數(shù)量很多），但研究人員巧妙地利用了動(dòng)態(tài)生成的濾波器來(lái)構(gòu)建緊湊的FCN mask預(yù)測(cè)端，在提高性能的同時(shí)，大幅度減少了計(jì)算復(fù)雜性。

CondInst

實(shí)例分割模型的目標(biāo)在于通過(guò)輸入圖像為圖中的實(shí)例預(yù)測(cè)出對(duì)應(yīng)的掩膜，實(shí)例數(shù)量的不確定對(duì)于傳統(tǒng)的FCN來(lái)說(shuō)十分困難。本文工作的核心在于，針對(duì)圖中待處理的K個(gè)實(shí)例，模型會(huì)動(dòng)態(tài)生成K個(gè)不同的掩膜處理端，每個(gè)掩膜處理分支將目標(biāo)實(shí)例的特征包含在了其參數(shù)中。當(dāng)其作用于特征圖時(shí)僅僅會(huì)激活實(shí)例上的像素用于掩膜預(yù)測(cè)。下圖顯示了模型的主要架構(gòu)：