(通讯员:季顺平)近日,9599九五至尊官方网站季顺平教授团队联合快手团队获得2023年CVPR挑战赛“视频语义全景分割(Wild Challenge VPS Track)”和ICCV挑战赛“视频实例分割(VIS Track)赛道双冠军。同时论文“DVIS: Decoupled Video Instance Segmentation Framework”被ICCV接收。第一作者为2023级博士研究生张韬。CVPR和ICCV均是计算机视觉与模式识别领域顶尖国际盛会,随会议一同发布的挑战赛吸引了全球多个团队参与。
![](/__local/1/D8/A1/D0B7D88380BE4FE517CC4D9EBEF_B17BA3FE_1D3BC.png)
![](/__local/C/BB/63/E65E938A745A2F273FEEA53D3D5_AB1C85D9_1349E.png)
季顺平教授代表团队在ICCV会议上发言,介绍了DVIS的创新性思路;张贴阶段,参会团队回答了相关领域学者的提问。
![](/__local/9/45/59/49936A8D8866F94456F18997408_F2080CEC_1D84F.png)
![](/__local/F/F2/3D/99382C6F6253A7946BB2835EEAD_25D4FA96_2D4AB.png)
视频是图像在时域上的延伸。视频实例分割技术是图像实例分割的拓展。下图第一列代表实例分割,每只鹅与熊猫代表不同实例。第二列代表全景实例分割,除了追踪和精细分割可数目标,还需要分割图像上剩余的像素(天空、雪地等不可数目标)。
![](/__local/5/26/9F/46BDADCDB26AD714ACAAACCAFF2_E53E77F9_1FB0E9.gif)
![](/__local/5/11/E0/EFDCCF403E18A8C1B7BB453322C_F3190772_12B7B6.gif)
![](/__local/E/B0/CA/EC3917ED49D29ECC266AE91DD3B_7DE59EDD_1AEEBC.gif)
![](/__local/6/16/25/DBB0D378E246F451833C5F6C79C_E56E2F6D_EF697.gif)
团队通过分析现有方法存在的问题,即实例分割与目标追踪相互纠缠导致性能不佳的缺点,基于Transformer框架提出了DVIS(Decoupled Video Instance Segmentation)方法,设计了实例分割(Segmenter)、目标追踪(Tacker)和全局精化(Refiner)三个相对独立的流程。
![](/__local/2/01/3A/3EA9C2B6D971E3C93843296779C_1D7CB541_5FEF.png)
自从今年6月获得CVPR赛道冠军以来,为了进一步提升效果,对DVIS进行了进一步改进。第一,引入视觉大模型,实现更加先进的分割器。采用在DINO v2数据集上预训练的VIT-L 模型作为骨干网络,引入并简化适配器(VIT-Adapter),实现了骨干特征的多尺度表达并减少了对GPU显存的需求。第二,引入加噪训练方法,人为提升难度,以加强目标追踪模块在困难条件下的稳健性。
![](/__local/9/BD/D1/D6A843C5AC2D81D719C6EFA6C95_487F4AB7_7E01.png)
结合DVIS自身的优势基础和以上改进,在9月截止的ICCV挑战赛中,团队再次获得冠军并大幅领先第二名(第一名与第二名的差距等于第二名与第十名的差距)。
![](/__local/F/A8/09/45EC5F8A2986003D30DD764EA6B_78AED606_1B512.png)
AI技术特别是视觉大模型发展日新月异。但DVIS能够长期在多个视频实例分割数据集公开榜单上占据榜首。特别地,在当前权威且最具挑战性的OVIS(Occluded video instance segmentation)数据集上,从今年二月份提交以来占据榜首至今。
![](/__local/1/D3/1E/C340C0F5D789E9F77FA812BE450_581095DF_B0EF.png)
OVIS结果(codalab.lisn.upsaclay.fr/competitions/4763#results)
代码已经在Github开源。