从CenterTrack出发谈谈联合检测和跟踪的MOT框架_基于检测和跟踪联合的mot-程序员宅基地

技术标签: 算法  计算机视觉 | 顶会论文研读  机器学习  计算机视觉  深度学习  人工智能  

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

本文者:黄飘

https://zhuanlan.zhihu.com/p/125395219

未经授权,严禁二次转载

前言

最近一年里,随着Tracktor++这类集成检测和多目标跟踪算法框架的出现,涌现了很多相关的多目标跟踪算法变种,基本都位列MOT Challenge榜单前列,包括刚刚开源的榜首CenterTrack(22FPS),作者同时也是CenterNet的作者。这里我就对集成检测和跟踪的框架进行分析,相关MOT和数据关联的基础知识可以在我的专栏查看,后期我也会针对基于深度学习的数据关联、ReID2MOT和SOT2MOT等进行专题介绍,收藏的同时也希望点个赞~

1.Detect to Track and Track to Detect(D&T)

作者:Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman
备注信息:ICCV2017
论文链接:openaccess.thecvf.com/c
代码链接:github.com/feichtenhofe

当前的多目标跟踪算法主流是基于检测的框架,即Detection based Tracking(DBT),所以检测的质量对于跟踪的性能影响是很大的。那么在MOT Challenge上也分别设置了两种赛道,一种是采用官方提供的几种公共检测器的结果,即public赛道,一种是允许参赛者使用自己的检测器,即private赛道。

这篇D&T就属于private类跟踪框架,并初步将检测与跟踪框架进行了结合:

974ef02e9786b2dcea31862828ac5535.png

从图中可以清晰看到,作者通过改进版的R-FCN检测网络实现了主线的检测任务,然后基于两阶段目标检测的特点,将第一阶段所获得的多尺度特征图进行交互。这种方式借鉴了单目标跟踪中经典的Siamese网络框架,不同之处在于原本的Siamese网络做的是1:1的相关滤波,而D&T框架做的是n:n的相关滤波。其中两个分支中所包含的目标数量也是不定的,那么为什么作者要用R-FCN网络呢,可以发现,R-FCN的网络结构起到了很好的作用,正是因为其独特的position-sensitive ROI Pooling模块:

9233e20b333565abc5e0bb72cd3eb55f.png

不同于传统两阶段目标检测框架利用全连接网络分支预测分类和回归的情况,R-FCN通过全卷积的方式将分类得分转化到特征图通道上,使得特征图保持了一定的平移不变性(这个可以看我之前的博客),有利于跟踪任务的相关滤波。那么这里D&T在传统目标检测的分类和回归任务上,增加了一个跟踪分支,作者巧妙地将跟踪任务转化成了预测相邻两帧各目标位置相对偏移量的回归任务。

94519fb35282ade2bf5988c451e30146.png

当然,跟踪分支只考虑与gt的IOU>0.5的预测框,并且目标要同时出现在这两帧。多任务损失函数如下:

6598cb0fcbb66693735407f55e46f356.png

最后我们谈一下最重要的一点,如何做ROI Tracking,即在不丢失相对位置关系的前提下,执行多个区域的相关滤波:

68cd243025eb518d8f8e80eea9b830e5.png

提到相关滤波,我们可能容易想到单目标跟踪中的CF类传统方法,比如KCF(详细原理可以看我的解析)。KCF算法中就是通过循环移位的方式,利用相关滤波估计目标在图像中的位置变化。但是这种方式并不适合多目标的相关滤波,我们基于相邻两帧变化幅度不大的假设,更希望的是每块局部区域单独做类似于循环移位之类的操作。对此,作者借鉴了FlowNet的Corr操作,因为光流任务也是估计相邻帧像素的偏移量,所以用在这里很合适。

379876eec52060c771f20e9e4d5914fb.png

Corr的公式是:

0aab30e6e264c87e65f20e7005e70d33.png

可以看到,这里的滤波不是对卷积核的,而是将两幅特征图的多个kxk的区域分别做相关滤波,从而保持了相对位置。

最后对于多目标跟踪的部分,作者对于两个目标的连接代价设置如下:

43a4cd75b6af10ca99ebae0690743637.png

其中p表示的相邻两帧的检测置信度,最后一项指的是相邻两帧的目标框与预测到的位置的IOU>0.5时为1,否则为0。至此我们就可以得到跟踪预测位置和代价矩阵了,后面就是常规的多目标跟踪算法操作了。

2.Real-time multiple people tracking with deeply learned candidate selection and person re-identification(MOTDT)

作者:Long Chen, Haizhou Ai, Zijie Zhuang, Chong Shang
备注信息:ICME2018
论文链接:researchgate.net/public
代码链接:github.com/longcw/MOTDT

这篇论文表面看上基于R-FCN检测框架的private多目标跟踪算法,不过与上一篇不同的是,作者只利用R-FCN对观测框进行进一步的前景/背景分类,即用于目标框的分类过滤,而且MOTDT将检测和跟踪框架分离了。作者的框架也是由现在多目标跟踪算法的通用模块组成的,即检测、外观模型和运动模型。这里我们就只关注他的算法流程:

ed08c96c6c1196168454cee90ec57c5b.png

从算法流程可以清晰地看到,MOTDT的流程是:

  • 利用Kalman Filter完成目标的运动估计;

  • 将观测框和跟踪框合并,并做NMS操作,其中每个目标框的置信度得到了修正:

57764e2bc2dfcf8b70da76a7d8207755.png

这里面L表示的长度,通过上面两个公式,作者将检测置信度和跟踪轨迹置信度结合在一起了。

  • 提取ReID特征,先基于ReID相似度进行匹配,再对剩余的利用IOU进行关联。

MOTDT这个算法框架很经典,对于后续的一些多目标跟踪算法也起到了启发作用。

3.Tracking without bells and whistles(Tracktor++)

作者:Philipp Bergmann,Tim Meinhardt,Laura Leal-Taixe
备注信息:ICCV2019,MOT15~17: 46.6, 56.2. 56.3 MOTA(public)
论文链接:arxiv.org/pdf/1903.0562
代码链接:github.com/phil-bergman

Tracktor++算法是去年出现的一类全新的联合检测和跟踪的框架,这类框架与MOTDT框架最大的不同在于,检测部分不仅仅用于前景和背景的进一步分类,还利用回归对目标进行了进一步修正,因此关于这类框架属于public还是private得争论也存在,这里我们就不做过多的讨论了。

47a13bdcfae761b2757bff1f5e93beea.png

只要熟悉两阶段目标检测算法的应该都能理解这个算法,其核心在于利用跟踪框和观测框代替原有的RPN模块,从而得到真正的观测框,最后利用数据关联实现跟踪框和观测框的匹配。流程图如下:

0a70b30a305b511905388dc75e66e074.png

有了检测模块的加持,自然对于检测质量进行了增强,所以效果也得到了大幅提升:

4e6bcbbd2165ef5ae72328501964eec1.png

可以看到,DPM、FRCNN和SDP三种检测器输入下的性能差距不大,然而DPM检测器的性能是很差的,所以Tracktor++这类算法对于平衡检测输入的效果提升很大。

4.Multiple Object Tracking by Flowing and Fusing(FFT)

作者:Jimuyang Zhang, Sanping Zhou, Xin Chang, Fangbin Wan, Jinjun Wang, Yang Wu, Dong Huang
备注信息:MOT15~17: 46.3, 56.5. 56.5 MOTA(public)
论文链接:arxiv.org/abs/2001.1118

这篇文章也是基于Tracktor++的模式,做了很直接的一步操作,即直接增加一个光流预测分支,将Tracktor++中的跟踪框+观测框变成了光流预测框+观测框

861b1c0526c6fd91d23f9a62c46d315a.png

不过好处在于光流网络和Faster RCNN可以联合训练,在训练的时候RPN保留,不过从论文来看光流部分好像是固定权重的,其效果相对来说的确更好了:

9c6c26fd9209228b700dce749bb00f59.png

5.Towards Real-Time Multi-Object Tracking(JDE)

作者:Zhongdao Wang,Liang Zheng,Yixuan Liu,Shengjin Wang
备注信息:MOT16 74.8 MOTA(private), 22FPS!! ECCV2020
论文链接:arxiv.org/pdf/1909.1260
代码链接:github.com/Zhongdao/Tow

JDE这篇跟这次的主题不是很相符,但是考虑到这也是近期比较热门的实时多目标跟踪算法,我们也一起讲。它的框架出发点是为了增加特征的复用性,基于检测算法(作者采用的是YOLOv3),在原本的分类和回归分支上增加了一个表观特征提取的分支。

a91985a7a544126f71109ba9c2da443e.png

文中作者重点介绍了多任务网络框架的训练方式,首先分析了三种Loss:

228d8abda1a35cf7a90c4bada05030cf.png

对于triplet loss,这个在表观模型的metric learning任务中很常见,作者采用了batch hard模式,并提出了triplet loss的上界,推导很简单,关键在于多的那个1。为了更好地跟交叉熵损失函数进行比较,作者将上界进行了平滑。那么区别就在于g,g表示的正负样本的权重。在交叉熵损失函数中,所有的负样本都会参与计算,然而在triplet loss中,负样本是采样出来的,所以:

f177acb4db4e5a4139d64c5420d63b67.png

作者通过实验也论证了上面的结论,所以在metric learning中作者采用了交叉熵损失函数。最后关于各个任务的损失函数的权重,作者提出了一种自适应平衡的加权方式:

f3dd799caaec19e69d5f5233d1ce760d.png

其中的s是一种度量不同任务下个体损失的不确定性因子,详细的原理可参见CVPR2018的《 Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》关于方差不确定性对于多任务权重的影响分析。

效果和速度都很诱人~

4c670cc9b91c4caf6580833bb30e9c42.png

6.Refinements in Motion and Appearance for Online Multi-Object Tracking(MIFT)

作者:Piao Huang, Shoudong Han, Jun Zhao, Donghaisheng Liu, HongweiWang, En Yu, and Alex ChiChung Kot
备注信息:MOT15~17: 60.1, 60.4, 48.1 MOTA(public)
论文链接:arxiv.org/abs/2003.0717
代码链接:github.com/nightmaredim

这篇也是我们团队基于Tracktor++框架做的一个框架,主要关注的是运动模型、表观模型和数据关联部分的改进,这里暂时不细讲。代码会慢慢开源,暂时没有完全开源。

3bb83ef9d5db565f9dfd7423c3ebb057.png

其中对于运动模型部分,我们将Kalman和ECC模型集成在一起,而不是将Kalman和ECC模型独立执行,实验证明融合的版本比分开的提升了1.4 MOTA。

7f358cc7386c7de75d108ddd25444afc.png

对于表观模型,我们考虑到特征对齐的因素,做了一点小改进,结合可视度预测设计了多任务的表观模型:

2b3da219dcd3f76fd5e967eaac5804df.png

并在观测框和跟踪轨迹特征比对的时候,考虑了跟踪轨迹历史信息,来进行自适应加权:

67698a39631fc98de1b6fdf6f688dccb.png

通过上面的分析,我们可以知道的是,数据关联部分的特征相似度计算,不仅要进行n:m的Kalman更新过程(为了求马氏距离),还要进行m:(nxk)的表观特征比对,这个过程很耗时。所以我们利用3-D integral image快速将空间区域分配,使得特征相似度计算过程的复杂度降至O(m+n)。

f1832ea39936933aef6310ab096d45d4.png

方法很巧妙,就是将每个观测框利用one-hot编码映射到特征图,这种方式比基于iou的要快很多:

d92b2ec8e800a029d44077bc70f108bb.png

我后期又做了一些实验,效果比论文中的更好一些,MOT15~17: 48.1、60.4、60.1 MOTA(public)

259b2fa16d2dbe0192045e342e20b20c.png

7.Tracking Objects as Points(CenterTrack)

作者:Xingyi Zhou(CenterNet的作者), Vladlen Koltun, and Philipp Krähenbühl
备注信息:同时实现了2D/3D多目标跟踪,包含人和车辆,MOT17:61.4(public)、67.3(private) MOTA, 22FPS!!! KITTI:89.4MOTA ECCV2020
论文链接:arxiv.org/abs/2004.0117
代码链接:github.com/xingyizhou/C

CenterTrack是CenterNet作者基于Tracktor++这类跟踪机制,通过将Faster RCNN换成CenterNet实现的一种多目标跟踪框架,因此跟踪框也就变成了跟踪中心点。

1c075797d95841de8ca5d14a180cca17.png

通过上图我们可以大致分析出算法框架,除了对相邻两帧利用CenterNet进行检测之外,还利用了上文中提到的D&T框架的策略,预测同时存在于两帧中目标的相对位移,由此进行跟踪预测。对于提供的观测框,作者通过将这些观测框的中心点映射到一张单通道的heatmap上,然后利用高斯模糊的方式将点的附近区域也考虑进去。

因此CenterTrack相对于CenterNet的不同之处在于,输入维度增加了(两幅图像和一张观测位置heatmap),输出变成了两张图像的目标中心位置、大小和相对偏移。

对于测试环节的数据关联部分,作者直接通过中心点的距离来判断是否匹配,是一种贪婪的方式,并非匈牙利算法那种全局的数据关联优化。在训练过程中,作者并非只用相邻帧进行训练,允许跨3帧。

CenterTrack在MOT、KITTI和nuScenes等数据集上的2D/3D多行人/车辆跟踪任务上均取得了SOTA的成绩。

db6b0f11fb672a19a2916d90ff5d15e1.png 8acfc748bfcb297c116997473cb62745.png

参考文献

[1] Feichtenhofer C, Pinz A, Zisserman A. Detect to track and track to detect[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 3038-3046.

[2] Chen L, Ai H, Zhuang Z, et al. Real-time multiple people tracking with deeply learned candidate selection and person re-identification[C]. in: 2018 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2018. 1-6.

[3] Bergmann P, Meinhardt T, Leal-Taixe L. Tracking without bells and whistles[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 941-951.

[4] Multiple Object Tracking by Flowing and Fusing

[5] Towards Real-Time Multi-Object Tracking

[6] Refinements in Motion and Appearance for Online Multi-Object Tracking

[7] Tracking Objects as Points

更多细节可参考论文原文,更多精彩内容请关注迈微AI研习社,每天晚上七点不见不散!

 THE END 

投稿或寻求报道微信:MaiweiE_com

GitHub中文开源项目《计算机视觉实战演练:算法与应用》,“免费”“全面“”前沿”,以实战为主,编写详细的文档、可在线运行的notebook和源代码。

726cc75b3c8691d50e790612aa0d967f.png

  • 项目地址 https://github.com/Charmve/computer-vision-in-action

  • 项目主页 https://charmve.github.io/L0CV-web/

推荐阅读

(更多“抠图”最新成果)

 If you like what I do, maybe consider buying me a  coffee/tea or  cake please 

迈微AI研习社

微信号: MaiweiE_com   CSDN、知乎: @Charmve

主页: github.com/Charmve   GitHub: @Charmve

投稿: [email protected]

如果觉得有用,就请点赞转发吧!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Charmve/article/details/122505323

智能推荐

python全栈开发—函数再战—实现模块化设计_全栈开发与数学-程序员宅基地

文章浏览阅读256次。函数再战—熟练基础,精通技能,触类旁通之所以又整理了一遍函数,主要是因为当我进行后续学习的时候,发现函数比想象的要NB的多,于是又厚着脸皮又来了一遍,嗯,果然很NB。建议在学习的过程中遇到了难题,记得回头复习复习,也许正是那些你忽略的内容,给未来的你营造出自己是SB的难题。内容概括:函数基本语法及特性函数与局部变量返回值嵌套函数递归匿名函数函数式编程介绍高阶函数内置函数..._全栈开发与数学

在vs开发环境中用opencv读取图片,Debug模式下成功,release模式下失败的可能原因_visual studio的debug模式可以include opencv release模式不行-程序员宅基地

文章浏览阅读921次。1 检查一下release模式下的链接器的输入,其依赖的lib名称最后一个字母是没有"d",d代表debug如图:2 检查一下路径,看是否因为带中文的路径导致编码错误..._visual studio的debug模式可以include opencv release模式不行

教你一步一步使用Excel获取API接口的金融数据_excel的api key-程序员宅基地

文章浏览阅读5.6k次,点赞7次,收藏26次。在用EXCEL做量化分析的时候,经常需要通过一些金融数据平台的API接口,获取各种数据。最常用的公共API接口有Yahoo Finance,Google Finance,新浪财经,搜狐财经等。这些都不需要注册,就可以直接使用。获取方式相对简单,但数据种类不够丰富,通常只包括交易数据和财务数据。另外一些免费的金融数据平台,如国外的Quandl和国内的Tushare也都提供了API接口,数据种类更..._excel的api key

ThinkPHP去除url中的index.php,绝对管用!-程序员宅基地

文章浏览阅读1.6k次。例如你的原路径是 http://localhost/test/index.php/index/add那么现在的地址是 http://localhost/test/index/add如何去掉index.php呢?1.httpd.conf配置文件中加载了mod_rewrite.so模块 //在APACHE里面去配置#LoadModule rewrite_module modu

Qt核心机制与原理_qt原理-程序员宅基地

文章浏览阅读3.8k次,点赞5次,收藏39次。★了解Qt和C++的关系★掌握Qt的信号/槽机制的原理和使用方法★了解Qt的元对象系统★掌握Qt的架构★理解Qt的事件模型,掌握其使用的时机信号与槽、元对象系统、事件模型是Qt机制的核心,如果您想要掌握Qt编程,就需要对它们有比较深入的了解。本章重点介绍了信号与槽的基本概念和用法、元对象系统、Qt的事件模型,以及它们在实际使用过程中应注意的一些问题。Qt对标准C++的扩展标准C++对象模型为面向对象编程提供了有效的实时支持,但是它的静态特性在一些领域中表现的不够灵活。事实上,GUI应用程序_qt原理

CC2640R2F BLE5.0 TI-RTOS概述_ti rtos 总中断-程序员宅基地

文章浏览阅读8.2k次,点赞3次,收藏25次。TI-RTOS概述TI-RTOS是CC2640R2F设备上蓝牙低能耗项目的运行环境。TI-RTOS内核是传统SYS/BIOS内核的定制版本,可作为具有驱动程序,同步和调度工具的实时抢占式多线程操作系统。线程模块TI-RTOS内核管理线程执行的四个不同的任务级别,如图21所示。线程模块列表如下图所示,按照优先级降序排列。硬件中断软件中断任务后台空闲功能的空闲任务_ti rtos 总中断

随便推点

爬虫框架 - feapder_feapder 网盘-程序员宅基地

文章浏览阅读1.0k次。1. 前言众所周知,Python 最流行的爬虫框架是 Scrapy,它主要用于爬取网站结构性数据今天推荐一款更加简单、轻量级,且功能强大的爬虫框架:feapder项目地址:https://github.com/Boris-code/feapder2. 介绍及安装和 Scrapy 类似,feapder 支持轻量级爬虫、分布式爬虫、批次爬虫、爬虫报警机制等功能内置的 3 种爬虫如下: AirSpider 轻量级爬虫,适合简单场景、数据量少的爬虫 Spider._feapder 网盘

《数据结构与算法分析:Java语言描述》.pdf-程序员宅基地

文章浏览阅读6k次,点赞2次,收藏6次。关注“Java后端技术全栈”回复“面试”获取全套大厂面试资料程序=数据结构+算法这好比是软件工程师的“武林秘籍”。数据结构指的是数据与数据之间的逻辑关系;算法指的是解决特定问题的步骤和方..._数据结构与算法分析java语言描述pdf

PyTorch——自注意力(self-attention)机制实现(代码详解)_自注意力机制代码-程序员宅基地

文章浏览阅读8w次,点赞111次,收藏691次。参考链接https://www.bilibili.com/video/BV1JE411g7XF?p=54https://arxiv.org/abs/1706.03762https://blog.csdn.net/qq_36653505/article/details/83375160简述自注意力机制(self-attention)self-attention可以视为一个特征提取层,给定输入特征a1,a2,⋅⋅⋅ana^{1},a^{2},\cdot \cdot \cdot a^{n}a1,a2_自注意力机制代码

在Vue中应用cornerstone并且实时更新缩放比例等数据_浏览器缩放倍数变化时 更新数据 vue-程序员宅基地

文章浏览阅读1.6k次。在Vue中应用cornerstone并且跟随dicom实时更新缩放比例等数据最近需要在cornerstone的显示界面中显示一些数据,比如缩放比例以及渲染时间等,但是这些是需要根据鼠标事件进行实时更新的,想想肯定是有这个接口的,于是便试了一下。1、获取到当前视窗的对象获取到视窗这个对象因为它里面肯定会有许多属性可以直接被使用,刚好我们的缩放比例就是里面的scale,还有一些属性可以直接取用。..._浏览器缩放倍数变化时 更新数据 vue

C语言中常用的函数_c语言常用函数-程序员宅基地

文章浏览阅读3.1w次,点赞135次,收藏1k次。C语言中常用的函数1、putchar()函数2、getchar()函数3、pow( a , b )函数4、sqrt( a )函数5、fabs(a)函数6、puts(字符数组)函数——输出字符串的函数7、gets(字符数组)——输入字符串的函数8、strcat(a , b)函数——字符串连接函数9、strcpy函数——字符串复制函数10、strncpy函数——字符串复制函数11、strcmp函数——字符串比较函数12、strlen函数——测量字符串长度的函数13、strlwr函数——转换为小写的函数14、_c语言常用函数

webpack打包时如何修改文件名_webpack打包文件名称设置-程序员宅基地

文章浏览阅读5k次。webpack打包时如何修改文件名在使用webpack进行项目打包的时候,我们可通过以下方式对不同类型的资源,进行文件名或文件路径的修改_webpack打包文件名称设置

推荐文章

热门文章

相关标签