2023款本田brv的駕駛體驗、本田brv什么時候上市多少錢
淘天集團-內容理解算法團隊與浙江大學楊易教授團隊合作的關于視頻時序定位的論文被ICCV2023錄取。
本文在業界首次將視頻幀級別的細粒度信息引入至時序動作定位領域(Temporal Action Localization,TAL),對于時序動作定位任務,在單一標注(single-labeled)、密集標注(dense-labeled)和第一人稱視角(egocentric)等類型數據集上,性能普遍超過SOTA。
動機
視頻時序動作定位(Temporal Action Localization,TAL)是視頻理解領域一個重要的任務。這個任務需要對于給定的視頻,識別出其中所有發生的動作,同時定位出每個動作發生的起始時間。視頻時序動作定位的方法可以廣泛應用于高光檢測、行為監控以及短視頻分析等領域。
在過去對這個任務的處理中,大多數方法或是建立整體的時序提議,再對其做分類和定位;或是直接對不同幀同等地進行預測。但事實上,我們發現視頻中動作內部的幀是有不同重要性的。以圖1為例,對于晾衣服動作,描繪“把衣服晾到衣架上”的幀對于識別出這個動作最重要,描繪“拿出衣服”的幀對于定位出這個動作的開始最重要。而一些例如轉場或模糊的幀則不具有很高的重要度。
因此我們提出用動作敏感度來表征幀的重要度,提出動作敏感性學習(action sensitivity learning),對于每一幀的動作敏感度進行建模,并將學習到的敏感度應用于損失函數中,以促進模型更關注重要的幀,從而更好的訓練。
圖1: 晾衣服為案例的動機說明
觀察和動機
圖2:動作敏感性學習框架圖
考慮到每種動作都有其本質的行為模式,但這種模式又在不同的場景或行為主體下有不同的偏移,因此我們提出從類別級別和實例級別對動作敏感性進行建模。同時,對于動作定位子任務,由于邊界的不確定性和邊界附近幀的不同語義信息,最敏感的幀也不一定在邊界處,因此我們分別對動作分類和動作定位兩個子任務都進行動作敏感性學習。整體的框架圖如圖2所示。
在類別級別的建模中,由于視頻本身信息具有連續性,且存在一些關鍵幀,因此我們提出為每種動作使用一個可學習的高斯分布來建模其類別級別的動作敏感性。具體而言,針對分類子任務的類別級別動作敏感性pcls建模為:
針對定位子任務的類別級別動作敏感性ploc建模為:
其中μc,σc為可學習的參數。
在實例級別的建模中,考慮到重要的幀往往做出的預測質量比較高,模糊幀則相反,因此我們提出建立每一幀的預測質量,用質量來指導實例級別的學習。具體而言,以針對分類子任務的實例級別動作敏感性為例,我們首先通過實例建模網絡預測實例級別的動作敏感性結果qcls,之后通過分類分數和時序維度上與真值的重疊度得到質量分數Q:
然后基于MSE損失,學習實例建模網絡:
最后我們將類別級別和實例級別的動作敏感度做和,并嵌入到損失函數中:
具體而言,我們對每一幀都通過Focal損失進行分類的學習,對每一個在動作內部的幀都基于DIoU損失進行回歸的學習,在此基礎上每一幀的損失函數前再乘以學習到的動作敏感度:
此外,我們還引入了動作敏感度對比學習損失來進一步增強特征,具體而言,我們通過上文的動作敏感性學習,得到針對兩個子任務的敏感特征,將這兩部分作為正樣本,同時將其他不同動作類別以及背景幀作為負樣本,基于InfoNCE的形式進行學習:
因而最終的損失函數表示為:
實驗
我們在3大類共6個數據集上驗證了我們的方法,包括:密集標注的MultiThumos和Charades,見表1,我們提出的方法在average mAP指標上大幅超越以往方法。
表1: 在MultiThumos和Charades上的結果
密集標注且第一人稱視角的Ego4D-Moment Query,見表2,在使用相同特征且公平對比下,我們的方法同樣在驗證集和測試集上都優于過去方法。
表2:在Ego4D Moment Queries上的結果
單一標注的Thumos14和ActivityNet,見表3,由于在單一標注數據集上動作實例較少,我們提出方法中的對比學習部分收益較少,但整體仍然優于之前的SOTA方法。
表3:在Thumos和ActivityNet上的結果
表4展示了部分消融實驗結果,ASL結構中類別級別建模、實例級別建模都挖掘了幀之間不同的重要性,進而提升了average mAP指標。而融合了動作敏感性對比學習損失后,進一步增強了特征,獲得了最佳性能。
表4:在MultiThumos上的消融實驗
圖3展示了ASL的可視化結果,表明了我們提出的方法能夠找到動作內部一些重要的幀(如描繪“把衣服晾到衣架上”,“水流流經手”的這些幀對于分類子任務具有了較高的重要度),而一些轉場、模糊的幀則被賦予了較低的重要度。
圖3: 部分可視化結果
總結
本文從挖掘動作內部不同幀的不同重要性入手,提出了動作敏感性學習(ASL)。通過從類別級別和實例級別建模的方式,學習到每一幀的敏感度,并融入進損失函數中,以促進模型更好的訓練。同時還提出敏感度對比學習損失,進一步加強特征。本文提出的方法刷新了多個數據集時序動作定位任務的SOTA指標。相關算法將會有助于進一步提高淘寶短視頻內容理解的精準性。
Reference
Zhang C L, Wu J, Li Y. Actionformer: Localizing moments of actions with transformers[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 492-510.
Yeung S, Russakovsky O, Jin N, et al. Every moment counts: Dense detailed labeling of actions in complex videos[J]. International Journal of Computer Vision, 2018, 126: 375-389.
Caba Heilbron F, Escorcia V, Ghanem B, et al. Activitynet: A large-scale video benchmark for human activity understanding[C]//Proceedings of the ieee conference on computer vision and pattern recognition. 2015: 961-970.
Grauman K, Westbury A, Byrne E, et al. Ego4d: Around the world in 3,000 hours of egocentric video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 18995-19012.
Sigurdsson G A, Gupta A, Schmid C, et al. Charades-ego: A large-scale dataset of paired third and first person videos[J]. arXiv preprint arXiv:1804.09626, 2018.
Damen D, Doughty H, Farinella G M, et al. Scaling egocentric vision: The epic-kitchens dataset[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 720-736.
Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, Rahul Sukthankar. Thumos challenge: Action recognition with a large number of classes. 2014
作者:方橙
來源:微信公眾號:大淘寶技術
出處:https://mp.weixin.qq.com/s/FsvdjMd2zaae5BRVr0J1wg