返回頂部
關閉軟件導航
位置:首頁 > 資訊 > 電商資訊>阿里達摩院1秒替換直播背景像素級視頻分割如何實現
阿里達摩院1秒替換直播背景像素級視頻分割如何實現

計算機視覺領域的AI頂會CVPR2020剛剛落下帷幕,與往年更專注圖片識別不同,學術界和工業界的研究方向逐漸轉向了更難的視頻分割和三維視覺等領域。本次,阿里巴巴拿下了四項比賽的世界冠軍,其中就包括CVPR2020的DAVIS視頻目標分割比賽,本文將具體解讀這項冠軍技術背后的原理。

與圖像識別不同,AI分析理解視頻的技術門檻較高。長期以來,業界在視頻AI技術的研究上鮮有重大突破。以CVPR會議難度很高的比賽之一DAVIS(DenselyAnnotatedVideoSegmentation)為例,該比賽需要參賽團隊精準處理復雜視頻中物體快速運動、外觀變化、遮擋等信息,過去幾年,全球高級科技在該比賽中的成績從未突破80分,而達摩院的模型很終在test-challenge上取得了84.1的成績。

DAVIS的數據集經過精心挑選和標注,視頻分割中比較難的點都有體現,比如:快速運動、遮擋、消失與重現、形變等。DAVIS的數據分為train(60個視頻序列),val(30個視頻序列),test-dev(30個視頻序列),test-challenge(30個視頻序列)。其中train和val是可以下載的,且提供了每一幀的標注信息。對于半監督任務,test-dev和test-challenge,每一幀的RGB圖片可以下載,且第一幀的標注信息也提供了。算法需要根據第一幀的標注mask,來對后續幀進行分割。分割本身是instance級別的。

阿里達摩院提供了一種全新的空間約束方法,打破了傳統STM方法缺乏時序性的瓶頸,可以讓系統基于視頻前一幀的畫面猜測目標物體下一幀的位置;此外,阿里還引入了語義分割中的精細化分割微調模塊,大幅提高了分割的精細程度。很終,精準識別動態目標的輪廓邊界,并且與背景進行分離,實現像素級目標分割。

達摩院的算法基于去年CVPR的STM做了進一步改進。STM的主要思想在于,對于歷史幀,每一幀都編碼為key-value形式的feature。猜測當前幀的時候,以當前幀的key去和歷史幀的key做匹配。匹配的方式是non-local的。這種non-local的匹配,可以看做將當前key,每個坐標上的C維特征,和歷史每一幀在這個坐標上的C維特征做匹配。匹配得到的結果,作為一個soft的index,去讀取歷史value的信息。讀取的特征和當前幀的value拼接起來,用于后續的猜測。

STM的特征匹配方式,提供了一種空間上的長依靠,類似于Transformer中,通過self-attention來做序列關聯。這種機制,能夠很好地處理物體運動、外觀變化、遮擋等。但也有一個問題,就是缺乏時序性,缺少短時依靠。當某一幀忽然出現和目標相似的物體時,簡單產生誤召回。在視頻場景中,很多情況下,當前幀臨近的幾幀,對當前幀的影響要大于更早的幀。基于這一點,達摩院提出依靠前一幀結果,計算attention來約束當前幀目標猜測的位置,相當于對短期依靠的建模。

具體的方法如下圖所示:

下圖為空間attention的可視化結果,可以看到大致對應了前景的位置。

達摩院引入了語義分割中的感受野增強技術ASPP和精細化分割的微調(refinement)模塊。ASPP作用于memory讀取后的特征,用于融合不同感受野的信息,提升對不同尺度物體的處理能力。

阿里達摩院1秒替換直播背景像素級視頻分割如何實現1

達摩院提出了一個簡單但是有效的練習策略,減少了練習階段和測試階段存在的差異,提升了很終效果。

原始STM練習時,會隨機從視頻中采樣3幀。這三幀之間的跳幀間隔,隨著練習逐漸增大,目的是增強模型魯棒性。但達摩院發現,這樣會導致練習時和測試時不一致,因為測試時,是逐幀處理的。為此,在練習的很后階段,達摩院將跳幀間隔重新減小,以保證和測試時一致。

backbone:達摩院使用了ResNeST這個比較新的backbone,它可以無痛替換掉原STM的resnet。在結果上有比較明顯提升。

測試策略:達摩院使用了多尺度測試和modelensemble。不同尺度和不同model的結果,在很終猜測的map上,做了簡單的等權重平均。

顯存優化:達摩院做了一些顯存優化方面的工作,使得STM在多目標模式下,可以支持大尺度的練習、測試,以及支持較大的memory容量。

數據:練習數據上,達摩院使用了DAVIS、Youtube-VOS,以及STM原文用到的靜態圖像數據庫。沒有其他數據。

達摩院的模型,很終在test-challenge上取得了84.1的成績。

在test-dev上的消融實驗。達摩院復現的STM達到了和原文一致的結果。在各種trick的加持下,得到了11個點的提升。

隨著互聯網技術、5G技術等的發展,短視頻、視頻會議、直播的場景越來越多,視頻分割技術也將成為不可或缺的一環。比如,在視頻會議中,視頻分割可以正確區分前背景,從而對背景進行虛化或替換;在直播中,用戶只需要站在綠幕前,算法就實時替換背景,實現一秒鐘換新直播間;在視頻編輯領域,可以輔助進行后期制作。

Reference:

阿里達摩院1秒替換直播背景像素級視頻分割如何實現2
如果您覺得 阿里達摩院1秒替換直播背景像素級視頻分割如何實現 這篇文章對您有用,請分享給您的好友,謝謝
文章地址:http://www.meyanliao.com/article/online/8956.html
解放雙手無盡可能,有問題添加天線貓微信
主站蜘蛛池模板: yy111111电影院少妇影院无码| 无码中文字幕av免费放dvd| 精品无码无人网站免费视频| 老司机亚洲精品影院无码| 日韩精品无码视频一区二区蜜桃| 欧洲精品久久久av无码电影| 成人无码Av片在线观看| 无码日韩精品一区二区免费暖暖 | 国产精品亚洲а∨无码播放麻豆 | 精品久久久久久无码中文字幕| 中文字幕在线无码一区二区三区| 无码A级毛片免费视频内谢| 永久免费AV无码网站在线观看| 无码少妇一区二区性色AV| 午夜无码一区二区三区在线观看| 精品无码成人片一区二区98| 亚洲精品无码久久千人斩| 无码国产69精品久久久久孕妇| 精品无码一区二区三区爱欲九九 | 国产精品久久久久无码av | 超清无码无卡中文字幕| 亚洲精品无码不卡在线播放| 国产午夜无码精品免费看动漫 | 国产日韩精品中文字无码| 天堂Av无码Av一区二区三区| 久久亚洲AV成人无码软件| 岛国无码av不卡一区二区| 午夜精品久久久久久久无码| 成人无码区免费A片视频WWW| 久久男人Av资源网站无码软件| 国产乱子伦精品无码专区 | 国产成人无码午夜福利软件| 国模无码一区二区三区| 亚洲av永久中文无码精品综合| 无码国产精品一区二区免费16| 中文字幕人妻无码一区二区三区| 国产日韩AV免费无码一区二区三区| 性色av无码免费一区二区三区| 亚洲熟妇无码一区二区三区| 亚洲成a∨人片在无码2023| 在线观看亚洲AV每日更新无码 |