全景分割论文阅读:MaX-Deeplab:End-to-End Panoptic Segmentation with Mask Transformers_max-deeplab: end-to-end panoptic segmentation with-程序员宅基地

技术标签: 计算机视觉  图像分割系列  深度学习  

标题:Max-DeepLab:使用掩模Transformer进行端到端全景分割
作者:Huiyu Wang,Yukun Zhu,Hartwig Adam,Alan Yuille,Liang-Chieh Chen
机构:Johns Hopkins University ,Google Research
论文地址https://arxiv.org/abs/2012.00759
项目地址:暂未开源代码

摘要

文章方法很大程度上简化了依赖于子任务和手动设计的组件(例如,bbox检测,NMS,thing-stuff合并)的现有方式。
相比之下,本文的MaX-DeepLab可通过Mask Transformers直接预测带有类别标签的Mask,并通过二分法匹配以全景质量启发的损失(panoptic quality inspired loss via bipartite matching. )进行训练。
网络具体设计是Mask Transformers采用双路径架构,除了CNN路径外,还引入了全局memory路径,从而允许与任何CNN层直接通信。
结果:在COCO数据集上,相比之前的的box-free策略的方式,提升了7.1%PQ。此外,MaX-DeepLab就可以在COCO test-dev上达到最新的51.3%PQ。

  • mask transformer是怎么设计的?原理是怎样的?
  • 优化指标loss是怎么设计的?
  • 网络架构是怎么样的?
  • 所谓的全局memory路径指的是?
  • 效果为什么会好?

介绍

之前的方式: 将全景分割任务分成子任务分支,采用多种分开设计的模型。这些方法在单独的分支效果都还可以,但是处理复杂的全景分割任务时,效果就不那么好了。
在这里插入图片描述
在这里插入图片描述
总结起来,之前的方式两类:基于box的,和box free的。box free 的主要以上图b、c为例,缺陷在于难以处理高度不规则的目标和挨得过近的目标。

本文方法:受DETR的启发,我们的模型通过一个Mask Transformer直接预测了一组不重叠的mask及其对应的语义标签。 输出masks和labels使用全景质量(PQ)样式的目标进行了优化。我们将两个类别标记的mask之间的相似性度量定义为它们的mask相似度与class类别相似度的乘积。然后训练模型的目标是最大化groud truth mask和预测的mask的相似性(通过二分法匹配)。

总结Contribution

  • MaX-DeepLab是第一个用于全景分割的端到端模型,无需像对象中心或盒子那样经过手工编码的先验即可直接推断蒙版和类。
  • 我们提出了一个训练目标,即通过预测蒙版和地面真相蒙版之间的PQ样式二分匹配来优化PQ样式的损失函数。
  • 我们的双路径转换器使CNN可以在任何层上读写全局memory,从而提供了一种将transformer与CNN结合的新方法。
  • MaX-DeepLab缩小了基于box的方法与box-free的方法之间的差距,并在不使测试时间增加的情况下在COCO上达到了最高水准。

相关工作

  • Transformer
  • box-based Panoptic segmentation
  • box-free Panoptic segmentation

本文方法

表示形式
将每个像素点label的形式表示为:(mi,ci)。mi属于{0,1},ci则属于某一语义类别。这样,就能将所有的thing和stuff一致性表示,并且相互分离。(mi=0/1表示前后景,也就是thing和sutff)。这样就不用有合并thing和stuff的步骤了。
问题:不同instance 对象怎么确定的?

推理阶段
ci就是网络输出的类别概率,通过一个max操作就能取得概率最大的类别作为预测类别。像素赋予maskID。

PQ loss

  • 优化指标loss是怎么设计的?
    首先,我们在类标记的地面真相掩膜(ground truth mask)和预测掩膜(predict mask)之间定义了PQ风格的相似性度量。 接下来,我们展示如何使用此度量将预测掩码与每个地面真理掩码匹配,最后如何使用相同度量来优化模型
    Mask similarity metric:
    在这里插入图片描述
    其中ˆpj(ci)∈[0,1]是预测正确类别(识别质量)的概率,而Dice(mi,ˆmj)∈[0,1]是预测的掩码ˆmj与地面之间的Dice系数 。 0<=sim<=1。

Dice系数是,根据Lee Raymond Dice [1]命名,是一种集合相似度变量函数,通常是计算两个样本的相似度(值范围为[0,1])。参考https://www.aiuai.cn/aifarm1159.html

Mask matching

采用bipartite matching来实现预测和label的的匹配。文章采用的匈牙利算法。取前N个最好的匹配结果作为计算loss 的匹配positive mask。
作者这里提到:

But in our case, assigning multi- ple predicted masks to one ground truth mask is problematic too, because multiple masks cannot possibly be optimized to fit a single ground truth mask at the same time

那为什么还是这么做的呢?直觉上,应该就分配一个匹配度最高的不是吗??

loss的具体形式
上面已经提过了,优化目标转化为最大化预测mask和label的相似度度量(匹配上的mask)。
在这里插入图片描述
即:
在这里插入图片描述
但是作者在实际用的时候,通过应用梯度的乘积规则,然后将概率^p更改为对数概率log ˆp,将Opos PQ重写为两个常见的损​​失项。因为 从pˆ到logˆp的变化与常见的交叉熵损失一致,并在实践中更好地缩放梯度以进行优化。
在这里插入图片描述
最后,作者还考虑那些negative (unmatched) masks的损失,作为正则项,最终的损失函数如下:
在这里插入图片描述

看到这里其实整篇文章端对端的设计思路很清晰了。

网络结构设计

  • 网络架构是怎么样的?
    在这里插入图片描述
    网络由两个路径构成:CNN路径(Pixel Path-输入图像)、Memory路径(size N,前一次的预测结果??)。中间结构如图所示,有许多个卷积和Dual-Path Transformer模块堆叠而成。最后分别接上采样层和2个全连接层(接softmax)得到预测mask和类别。最后双线性插值上采样到原始分辨率。

具体详细结构

在这里插入图片描述
在这里插入图片描述

额外的(辅助)损失函数
文章提到,除了上面说的PQstyle相似性损失,加入附加损失是对训练有帮助的。
包括:

  • 实例判别损失:帮助实例特征聚类
    首先对groud truth mask降采样到1/4大小,进行特征编码,然后对编码的特征进行实例判别。
    在这里插入图片描述

  • 像素mask-ID交叉熵损失:分类每个像素到对应的N个mask

  • 语义分割损失:加入了语义分割头(同Panoptic-Deeplab论文中)

Ablation 实验

这部分主要是对:1、不同尺度的输入大小对结果的影响;2、Dual-path transformer结构设计中attention模块的选择设计以及Dual-path transformer模块的深度选取;3、不同损失函数的效果
做了一些实验选取了最优搭配。

在这里插入图片描述

结果

结果就是很diao!
有一个问题:
mask-ID prediction结果不是特别高,实验大概有10%的错误率。像素mask-ID交叉熵损失是否有改进空间?

其实看着结构很清楚,但是里面的内容还有很多疑问:

  • 什么是Transformer?里面的attention机制又是什么?
    有一篇比较好的讲解:https://jalammar.github.io/illustrated-transformer/
  • 文中双路transformer用的几种attention机制有什么不同和特点?
  • 上面的Memory路径的输入是什么?
    是之前的预测结果:mask和class??但是文中写的memory path输入大小是N×d_in。不太懂。。。有看懂的兄弟姐妹评论告诉我一下。
    DETR那篇论文中的Memory看代码是Encoder的输出。那这里的呢
  • 不同的实例是怎么确定的?
  • 能取得好的结果的深层次原因是什么?

回头再看吧


更新

又看了一遍论文,论文的mask生成和语义类别是类似于SOLO的方法。但是论文里面讲得很模糊…应该是预测的N个(常数)不同mask放在不同的通道维度上,对应的语义类别分支也是N维(C个类别),然后一一对应。
所以这样的话,不同的对象(stuffs和things)是自然而然的分离的,id当然可以直接以mask所在的第i通道作为mask内的所有像素的id。
在这里插入图片描述
这个公式。没有看太懂,有看懂的兄弟姐妹评论告诉我一下。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43572595/article/details/112506634

智能推荐

【史上最易懂】马尔科夫链-蒙特卡洛方法:基于马尔科夫链的采样方法,从概率分布中随机抽取样本,从而得到分布的近似_马尔科夫链期望怎么求-程序员宅基地

文章浏览阅读1.3k次,点赞40次,收藏19次。虽然你不能直接计算每个房间的人数,但通过马尔科夫链的蒙特卡洛方法,你可以从任意状态(房间)开始采样,并最终收敛到目标分布(人数分布)。然后,根据一个规则(假设转移概率是基于房间的人数,人数较多的房间具有较高的转移概率),你随机选择一个相邻的房间作为下一个状态。比如在巨大城堡,里面有很多房间,找到每个房间里的人数分布情况(每个房间被访问的次数),但是你不能一次进入所有的房间并计数。但是,当你重复这个过程很多次时,你会发现你更有可能停留在人数更多的房间,而在人数较少的房间停留的次数较少。_马尔科夫链期望怎么求

linux以root登陆命令,su命令和sudo命令,以及限制root用户登录-程序员宅基地

文章浏览阅读3.9k次。一、su命令su命令用于切换当前用户身份到其他用户身份,变更时须输入所要变更的用户帐号与密码。命令su的格式为:su [-] username1、后面可以跟 ‘-‘ 也可以不跟,普通用户su不加username时就是切换到root用户,当然root用户同样可以su到普通用户。 ‘-‘ 这个字符的作用是,加上后会初始化当前用户的各种环境变量。下面看下加‘-’和不加‘-’的区别:root用户切换到普通..._限制su root登陆

精通VC与Matlab联合编程(六)_精通vc和matlab联合编程 六-程序员宅基地

文章浏览阅读1.2k次。精通VC与Matlab联合编程(六)作者:邓科下载源代码浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程  Matlab C/C++函数库是Matlab扩展功能重要的组成部分,包含了大量的用C/C++语言重新编写的Matlab函数,主要包括初等数学函数、线形代数函数、矩阵操作函数、数值计算函数_精通vc和matlab联合编程 六

Asp.Net MVC2中扩展ModelMetadata的DescriptionAttribute。-程序员宅基地

文章浏览阅读128次。在MVC2中默认并没有实现DescriptionAttribute(虽然可以找到这个属性,通过阅读MVC源码,发现并没有实现方法),这很不方便,特别是我们使用EditorForModel的时候,我们需要对字段进行简要的介绍,下面来扩展这个属性。新建类 DescriptionMetadataProvider然后重写DataAnnotationsModelMetadataPro..._asp.net mvc 模型description

领域模型架构 eShopOnWeb项目分析 上-程序员宅基地

文章浏览阅读1.3k次。一.概述  本篇继续探讨web应用架构,讲基于DDD风格下最初的领域模型架构,不同于DDD风格下CQRS架构,二者架构主要区别是领域层的变化。 架构的演变是从领域模型到C..._eshoponweb

Springboot中使用kafka_springboot kafka-程序员宅基地

文章浏览阅读2.6w次,点赞23次,收藏85次。首先说明,本人之前没用过zookeeper、kafka等,尚硅谷十几个小时的教程实在没有耐心看,现在我也不知道分区、副本之类的概念。用kafka只是听说他比RabbitMQ快,我也是昨天晚上刚使用,下文中若有讲错的地方或者我的理解与它的本质有偏差的地方请包涵。此文背景的环境是windows,linux流程也差不多。 官网下载kafka,选择Binary downloads Apache Kafka 解压在D盘下或者什么地方,注意不要放在桌面等绝对路径太长的地方 打开conf_springboot kafka

随便推点

VS2008+水晶报表 发布后可能无法打印的解决办法_水晶报表 不能打印-程序员宅基地

文章浏览阅读1k次。编好水晶报表代码,用的是ActiveX模式,在本机运行,第一次运行提示安装ActiveX控件,安装后,一切正常,能正常打印,但发布到网站那边运行,可能是一闪而过,连提示安装ActiveX控件也没有,甚至相关的功能图标都不能正常显示,再点"打印图标"也是没反应解决方法是: 1.先下载"PrintControl.cab" http://support.businessobjects.c_水晶报表 不能打印

一. UC/OS-Ⅱ简介_ucos-程序员宅基地

文章浏览阅读1.3k次。绝大部分UC/OS-II的源码是用移植性很强的ANSI C写的。也就是说某产品可以只使用很少几个UC/OS-II调用,而另一个产品则使用了几乎所有UC/OS-II的功能,这样可以减少产品中的UC/OS-II所需的存储器空间(RAM和ROM)。UC/OS-II是为嵌入式应用而设计的,这就意味着,只要用户有固化手段(C编译、连接、下载和固化), UC/OS-II可以嵌入到用户的产品中成为产品的一部分。1998年uC/OS-II,目前的版本uC/OS -II V2.61,2.72。1.UC/OS-Ⅱ简介。_ucos

python自动化运维要学什么,python自动化运维项目_运维学python该学些什么-程序员宅基地

文章浏览阅读614次,点赞22次,收藏11次。大家好,本文将围绕python自动化运维需要掌握的技能展开说明,python自动化运维从入门到精通是一个很多人都想弄明白的事情,想搞清楚python自动化运维快速入门 pdf需要先了解以下几个事情。这篇文章主要介绍了一个有趣的事情,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。_运维学python该学些什么

解决IISASP调用XmlHTTP出现msxml3.dll (0x80070005) 拒绝访问的错误-程序员宅基地

文章浏览阅读524次。2019独角兽企业重金招聘Python工程师标准>>> ..._hotfix for msxml 4.0 service pack 2 - kb832414

python和易语言的脚本哪门更实用?_易语言还是python适合辅助-程序员宅基地

文章浏览阅读546次。python和易语言的脚本哪门更实用?_易语言还是python适合辅助

redis watch使用场景_详解redis中的锁以及使用场景-程序员宅基地

文章浏览阅读134次。详解redis中的锁以及使用场景,指令,事务,分布式,命令,时间详解redis中的锁以及使用场景易采站长站,站长之家为您整理了详解redis中的锁以及使用场景的相关内容。分布式锁什么是分布式锁?分布式锁是控制分布式系统之间同步访问共享资源的一种方式。为什么要使用分布式锁?​ 为了保证共享资源的数据一致性。什么场景下使用分布式锁?​ 数据重要且要保证一致性如何实现分布式锁?主要介绍使用redis来实..._redis setnx watch

推荐文章

热门文章

相关标签