動(dòng)態(tài)生成掩膜預(yù)測(cè)網(wǎng)絡(luò)生成模型CondInst,助力FCN重奪實(shí)例檢測(cè)顛峰
實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù),需要算法預(yù)測(cè)出圖像中每個(gè)實(shí)例的掩膜和對(duì)應(yīng)的分類標(biāo)簽。Mask R-CNN作為一種性能優(yōu)異的算法,在實(shí)例分割領(lǐng)域取得了巨大成功,這種兩階段的方法主要依賴于ROI操作來(lái)獲取最終的實(shí)例掩膜。
而在這篇文章中,作者從全新的角度解決了實(shí)例分割問(wèn)題,來(lái)自澳大利亞阿德萊德大學(xué)的研究人員在實(shí)例條件下提出了動(dòng)態(tài)實(shí)例生成的網(wǎng)絡(luò)模型,代替了先前逐個(gè)實(shí)例的ROI區(qū)域作為預(yù)測(cè)的輸入。
這種全卷積網(wǎng)絡(luò)消除了對(duì)于ROI區(qū)域測(cè)裁剪操作和特征配準(zhǔn)方法,其次由于動(dòng)態(tài)生成的條件卷積大幅提升了網(wǎng)絡(luò)容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實(shí)驗(yàn)表明這種方法無(wú)需更長(zhǎng)時(shí)間的訓(xùn)練,在COCO數(shù)據(jù)集上取得了比Mask R-CNN更好的結(jié)果,同時(shí)在精度和速度上都得到了明顯提升。
實(shí)例分割
Mask R-CNN是近幾年來(lái)實(shí)例分割領(lǐng)域非常重要的突破,它使用了Faster R-CNN來(lái)為每個(gè)實(shí)例預(yù)測(cè)邊界框,而后針對(duì)每個(gè)實(shí)例利用ROIAlign操作對(duì)在特征圖中進(jìn)行ROI區(qū)域裁剪,最后利用緊湊的全卷積網(wǎng)絡(luò)來(lái)對(duì)每一個(gè)實(shí)例的掩膜進(jìn)行預(yù)測(cè)。
然而這種基于ROI的方法也有著諸多需要克服的困難:
首先ROI一般都是和圖像坐標(biāo)軸對(duì)齊的邊框,當(dāng)遇到非常規(guī)不規(guī)則物體時(shí)框中就會(huì)包含較多的背景或者其他實(shí)例的部分。雖然可以通過(guò)旋轉(zhuǎn)ROI解決這一問(wèn)題,但隨之而來(lái)是更為復(fù)雜的計(jì)算代價(jià)和處理流程;其次為了區(qū)分前景和背景或者其他雜亂的實(shí)例,mask端需要堆疊更多的卷積層來(lái)獲取更大的感受野,這使得計(jì)算量大幅增加;第三由于ROI尺寸各不相同,為了有效利用批(batch)處理計(jì)算它們會(huì)被重置為相同的大小,這會(huì)限制大范圍實(shí)例的分辨率。
在計(jì)算機(jī)視覺(jué)領(lǐng)域與實(shí)例分割最相近的要數(shù)語(yǔ)義分割了,全卷積網(wǎng)絡(luò)FCN在這一任務(wù)上取得了巨大的成功。此外FCN同時(shí)也在其他逐像素的預(yù)測(cè)任務(wù)上表現(xiàn)優(yōu)異,像圖像去噪、超分辨這類底層圖像處理任務(wù)、光流估計(jì)和邊緣檢測(cè)這類中級(jí)任務(wù),單發(fā)目標(biāo)檢測(cè)、單目深度估計(jì)和目標(biāo)計(jì)數(shù)這類高級(jí)任務(wù)都有著FCN的貢獻(xiàn)。但在實(shí)例分割任務(wù)中幾乎所有的純粹FCN方法都沒(méi)有達(dá)到最先進(jìn)的水平。究竟是什么原因讓強(qiáng)大的FCN在實(shí)例分割中敗下陣來(lái)呢?
研究人員發(fā)現(xiàn)主要的問(wèn)題在于,網(wǎng)絡(luò)對(duì)于同一張圖像需要針對(duì)不同類別預(yù)測(cè)出不同的掩膜,這會(huì)讓FCN陷入兩難的境地。例如針對(duì)兩個(gè)人A和B,在圖像中具有相同的外觀和形狀特征,但在預(yù)測(cè)A的掩膜時(shí)網(wǎng)絡(luò)需要將B視為背景,這會(huì)讓網(wǎng)絡(luò)陷入到一定程度的迷茫中。所以ROI才需要將目標(biāo)區(qū)域特征圖剪切出來(lái)。
本質(zhì)上來(lái)講,實(shí)例分割網(wǎng)絡(luò)需要兩種類型的信息:外觀形狀特征信息用于確定目標(biāo)類別、位置信息用于從同一類中區(qū)分出不同的實(shí)例。基于ROI的方法都隱式地編碼了目標(biāo)實(shí)例的位置信息。而這篇文章的方法則探索對(duì)對(duì)于實(shí)例位置敏感的卷積層來(lái)嘗試解決目標(biāo)位置信息問(wèn)題。
基于這樣的考量,研究人員提出了新的解決方法,來(lái)代替標(biāo)準(zhǔn)的、由一系列固定權(quán)重濾波器組成的ConvNet來(lái)作為實(shí)例預(yù)測(cè)端針對(duì)所有實(shí)例進(jìn)行處理,利用了一種參數(shù)基于待預(yù)測(cè)實(shí)例自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行預(yù)測(cè)。在動(dòng)態(tài)濾波器和條件卷積的啟發(fā)下,控制子網(wǎng)絡(luò)會(huì)針對(duì)每一個(gè)實(shí)例動(dòng)態(tài)生成mask FCN的網(wǎng)絡(luò)參數(shù)(也就是基于帶預(yù)測(cè)實(shí)例的中心區(qū)域來(lái)生成),隨后這些參數(shù)實(shí)例化為mask FCN用于預(yù)測(cè)對(duì)應(yīng)實(shí)例的掩膜。
其中的思想在于網(wǎng)絡(luò)參數(shù)能夠編碼實(shí)例的特征、并僅激活這一實(shí)例的像素,巧妙地避開(kāi)了前面提到的問(wèn)題。得到的條件mask端作用于整個(gè)特征圖免去了獲取ROI的操作。這一方法也許在有的人看來(lái)會(huì)帶來(lái)非常多的網(wǎng)絡(luò)參數(shù)(由于實(shí)例的數(shù)量很多),但研究人員巧妙地利用了動(dòng)態(tài)生成的濾波器來(lái)構(gòu)建緊湊的FCN mask預(yù)測(cè)端,在提高性能的同時(shí),大幅度減少了計(jì)算復(fù)雜性。
CondInst
實(shí)例分割模型的目標(biāo)在于通過(guò)輸入圖像為圖中的實(shí)例預(yù)測(cè)出對(duì)應(yīng)的掩膜,實(shí)例數(shù)量的不確定對(duì)于傳統(tǒng)的FCN來(lái)說(shuō)十分困難。本文工作的核心在于,針對(duì)圖中待處理的K個(gè)實(shí)例,模型會(huì)動(dòng)態(tài)生成K個(gè)不同的掩膜處理端,每個(gè)掩膜處理分支將目標(biāo)實(shí)例的特征包含在了其參數(shù)中。當(dāng)其作用于特征圖時(shí)僅僅會(huì)激活實(shí)例上的像素用于掩膜預(yù)測(cè)。下圖顯示了模型的主要架構(gòu):

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)