論文:基于關(guān)鍵點的單目3D目標(biāo)檢測
關(guān)鍵點檢測網(wǎng)絡(luò)
本文的關(guān)鍵點檢測網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測框的頂點及中心點,其包括三個組成部分:骨架、關(guān)鍵點特征金字塔以及檢測頭,主要架構(gòu)采用了與 2D 無錨檢測器相似的一階段策略。
為了在速度和準(zhǔn)確性之間進(jìn)行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個 RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對輸入進(jìn)行降采樣。ResNet-18 和 DLA-34 用于圖像分類網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進(jìn)行上采樣。在上采樣層之前連接了相應(yīng)的低級特征圖,同時添加了一個 1×1 卷積層以減小通道尺寸。經(jīng)過三個上采樣層后,通道分別為 256、128、64。
圖像中的關(guān)鍵點在大小上沒有差異。因此,關(guān)鍵點檢測不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點特征金字塔網(wǎng)絡(luò)(KFPN),以檢測點空間中尺度不變的關(guān)鍵點。假設(shè)我們有F個尺度特征圖,我們首先調(diào)整每個大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運算生成軟權(quán)重,以表示每個尺度的重要性。通過線性加權(quán)獲得最終的尺度空間得分圖:
檢測頭由三個基本組件和六個可選組件組成,可以任意選擇這些組件以提高 3D 檢測的準(zhǔn)確性,而計算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點作為連接所有特征的主要中心 由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點。Heatmap 定義為 M,其中 C 是目標(biāo)種類的數(shù)量,另一部分是由頂點和中心點投影出的 9 個點 V,對于一個對象的關(guān)鍵點,本文將回歸得到的主中心的局部偏移量 Vc 作為指標(biāo)。最接近 Vc 坐標(biāo)的 V 的關(guān)鍵點被作為一個對象的集合。盡管 9 個關(guān)鍵點的 18 個的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗條件能夠增加更多的約束,中心偏移 M_OS,頂點偏移 V_OS 是 heatmap 中對每個關(guān)鍵點的離散誤差。
3D 目標(biāo)的維度 D 方差小容易預(yù)測,本文引用基于 Multi-Bin 方法對偏航角 θ 進(jìn)行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進(jìn)行分類,并使用 2 個 bin 生成方向特征圖,同時對 3D 邊框的中心深度Z進(jìn)行回歸。最終的 loss 如下(各部分 loss 的定義參見原文,在此不再贅述):
3D邊框的估計
得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標(biāo)是找出哪一個邊框中心點與 2D 關(guān)鍵點 kp 最匹配,這能夠最小化 3D 關(guān)鍵點和 2D 關(guān)鍵點的投影損失,并將它和其他先驗損失定義為一個非線性最小二乘優(yōu)化問題:
其中 e_cp、e_d、e_r 是相機(jī)點、維度先驗、方向先驗的損失,從 heatmap 中提取的置信度表示為:
實驗論文
本文在 KITTI 數(shù)據(jù)集上進(jìn)行了實驗。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
推薦專題