近期,小样本语义分割研究备受关注并取得了显著进展。先前的方法主要依赖于分类任务的元学习框架以实现泛化能力,然而这种训练方式往往导致模型对已见类别存在偏见,未能达到理想的类别无关性。最新的研究中,一种名为基学习与元学习的方法被提出,以识别基础类别目标并有效地区分背景部分。然而,该方法在强调对背景特征的识别时,忽略了前景特征的增强。因此,我们对该方法进行了进一步改进。我们引入了一种自引导原型学习的方法,通过生成辅助原型并用它生成激活特征图,从而增强原型特征,有效促进模型对前景特征的识别。在PASCAL-5i数据集上的实验结果表明,我们提出的方法在1-shot和5-shot情况下的mIoU分别达到了68.01和71.12,证明了该方法能够有效提升小样本语义分割的精确度。 Recently, the research on few-shot semantic segmentation frameworks has gained significant attention and made notable progress. Previous methods mainly relied on meta-learning frameworks of classification tasks to achieve generalization, but this training approach often resulted in biases towards seen classes and failed to achieve ideal class-agnosticism. In the latest research, a method based on meta-learner was proposed to identify base class objects and effectively differentiate background regions. However, this method overlooked the enhancement of foreground features while emphasizing the recognition of background features. Therefore, we further improved this method. We introduced a self-guided approach that enhanced prototype features by generating auxiliary prototypes and using them to generate activation feature maps, thus effectively promoting the recognition of foreground features. Experimental results on the PASCAL-5i dataset showed that our proposed method achieved mIoU of 68.01 and 71.12 in 1-shot and 5-shot scenarios, respectively, demonstrating the effectiveness of the method in improving the accuracy of few-shot semantic segmentation.
近期,小样本语义分割研究备受关注并取得了显著进展。先前的方法主要依赖于分类任务的元学习框架以实现泛化能力,然而这种训练方式往往导致模型对已见类别存在偏见,未能达到理想的类别无关性。最新的研究中,一种名为基学习与元学习的方法被提出,以识别基础类别目标并有效地区分背景部分。然而,该方法在强调对背景特征的识别时,忽略了前景特征的增强。因此,我们对该方法进行了进一步改进。我们引入了一种自引导原型学习的方法,通过生成辅助原型并用它生成激活特征图,从而增强原型特征,有效促进模型对前景特征的识别。在PASCAL-5i数据集上的实验结果表明,我们提出的方法在1-shot和5-shot情况下的mIoU分别达到了68.01和71.12,证明了该方法能够有效提升小样本语义分割的精确度。
小样本语义分割,原型学习,特征增强
—An Improved Segmentation Method of Base Learning and Meta Learning
Han Chen
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui
Received: Apr. 26th, 2024; accepted: May 24th, 2024; published: May 31st, 2024
Recently, the research on few-shot semantic segmentation frameworks has gained significant attention and made notable progress. Previous methods mainly relied on meta-learning frameworks of classification tasks to achieve generalization, but this training approach often resulted in biases towards seen classes and failed to achieve ideal class-agnosticism. In the latest research, a method based on meta-learner was proposed to identify base class objects and effectively differentiate background regions. However, this method overlooked the enhancement of foreground features while emphasizing the recognition of background features. Therefore, we further improved this method. We introduced a self-guided approach that enhanced prototype features by generating auxiliary prototypes and using them to generate activation feature maps, thus effectively promoting the recognition of foreground features. Experimental results on the PASCAL-5i dataset showed that our proposed method achieved mIoU of 68.01 and 71.12 in 1-shot and 5-shot scenarios, respectively, demonstrating the effectiveness of the method in improving the accuracy of few-shot semantic segmentation.
Keywords:Few-Shot Semantic Segmentation, Prototypes, Feature Enhancement
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
语义分割作为计算机视觉的基本任务之一,广泛应用于医学图像识别、自动驾驶、地质勘探等领域 [
受小样本分类任务的推动,大多数小样本语义分割任务采取了元学习来实现模型的泛化。这些方法在基础数据集中采样一系列学习任务,模拟包含新类别的小样本场景来进行训练。然而这样训练的结果往往并不够充分的。当在基础数据集上进行元训练时,使用丰富的注释样本不可避免地引入了对已知类别的偏见从而妨碍了模型对新类别的学习。所以一些研究人员尝试调整包含足够训练样本的基础数据集的使用 [
为此,我们在BAM方法中引入一种原型特征增强的方法,使模型对目标类别可以有更强的分辨能力。该方法利用基学习器完成对查询集背景中基类区域有效识别,同时原型特征增强策略进一步加强了对原有原型中学习不充分的部分,这使得模型同时对待分割图像的前景和背景完成了特征增强。具体的,我们给出一种自引导的方式,利用支持集生成辅助原型,再通过辅助原型引导查询集生成激活特征图,最终使用基学习器和元学器得到的结果进行有效集成得到更好的分割结果。该方法在Pascal数据集上取得了较为明显的效果。
计算机视觉领域多年来一直致力于使网络具备对新类别的泛化能力。目前在小样本学习领域中,大多数方法都遵循 [
为了解决稀疏注释数据集上的泛化问题,将小样本学习方法应用于语义分割领域。度量学习是小样本学习方法之一,在小样本分割语义任务中得到了广泛应用,例如使用原型向量学习知识。一些小样本语义分割方法 [
小样本语义分割是一个新兴的研究方向,它结合了语义分割和小样本学习的思想。其主要目标是通过使用少量带标签的未知类别来训练网络,使其能够对该类别的图像进行准确的分割。在这个任务仍然需要训练集和测试集对模型进行训练和评估,但是这个任务的训练集与测试集设定与别的深度学习任务中的设定有一定的区别。
具体而言,我们将训练集称为 D t r a i n ,测试集称为 D t e s t 分别用于训练和测试模型。但是训练集中作为分割目标的类别 C t r a i n 和测试集中作为分割目标的类别 C t e s t 是完全不同的,并且没有交集,即 C t r a i n ∩ C t e s t = ∅ 。除此以外,在小样本语义分割最初的工作OSLSM [
此外,我们将训练集和测试集的支持集与查询集分别记为 S t r a i n 和 Q t r a i n 以及 S t e s t 和 Q t e s t 。在训练阶段,我们使用 ( I q , M q , I s , M s ) 来训练模型。一旦模型训练完成,在测试阶段,我们不需要对网络进行微调,而是从测试集中随机采样 ( I q , I s , M s ) ,输入模型并获得查询集的预测结果。
在本节中,我们将详细介绍如何在BAM中实现原型特征增强。简而言之,我们利用自引导的方式对支持集进行分割,在对分割正确和分割错误的部分进行特征聚合得到表达信息更完整的辅助原型。最后利用辅助原型结合基学习器与元学习器对查询集进行分割,得到更加精细的分割结果。
当前小样本分割的泛化性能严重依赖元学习,即使进行了微调过程,其能力也不达标。具体来说,训练的小样本语义模型由于数据分布不平衡会从而对基类产生偏见。在这个领域中,很少有研究明确研究泛化性能下降的问题,而是专注于设计两个分支之间的高容量交互模块。然而Lang [
图1. 基学习与元学习结合的小样本语义分割示意图
如图2所示,该方法结合基学习与元学习方法,在此之上利用自引导机制生成辅助原型,从而感知原本模型中可能会忽略掉的区域,利用辅助原型激活查询集的不同区域生成激活特征图,最后将激活特征图与拓展维度的原型和原本查询集特征聚合,得到增强后特征,利用增强后的特征引导查询集分割。如此一来该方法不仅增强了前景特征,还通过基类学习器增强了模型对背景的感知。
图2. 提出的方法
原型学习是小样本分割一种重要的方法,这类方法利用原型网络的思想,首先将支持集图像输入骨干网络中得到支持集图像的高维特征,再结合支持集图像的掩膜进行全局平均池化得到原型。该原型表示通过支持集图像计算得到的该目标类在高维空间中的特征中心。同样的,将查询集图像也送入同样权重的骨干网络得到查询集在高维空间的特征表达。最后利用无参度量工具如余弦函数或欧式距离公式衡量高维特征与原型之间的距离完成对图像像素点的分类,得到最终的预测图。然而这样得到的原型往往会损失不少有用的信息。为此,引入自引导模块可以更加有效利用支持集信息,提供更加全面的信息引导查询集进行分割。
按照在问题设定中的定义,支持集图像被设定为 I s ,我们选择基于ResNet50 [
F s = C o n c a t ( [ F s 2 , F s 3 ] ) (1)
之后,为了利用支持集的掩膜对所得特征进行处理生成待分割类别的原型,我们需要将掩膜下采样到和特征 F s 一样的大小。有:
M s = D o w n S a m p l e ( M ) (2)
其中 M 代表支持集原始的掩膜。 M s 代表对原始掩膜下采样后得到的与特征 F s 高度和宽度大小一致的掩膜。完成上述处理,我们遵循之前工作的操作利用掩膜全局平均池化生成初始原型 [
v s = ∑ i = 1 h w F s ( i ) ⋅ [ Μ s ( i ) = 1 ] ∑ i = 1 h w [ Μ s ( i ) = 1 ] (3)
这里的i表示特征图中空间位置的索引。h和w分别是特征图的高度和宽度。 [ • ] 是艾弗森括号。它代表中括号中的内置条件如果成立那么这个表达式的值取1,如果不成立这个表达式的值取0。在这里 M s 表示一个二进制掩膜, M s ( i ) = 1 表示在第i个位置上的这个像素点是属于待分割的目标类别。
然而,通过这种方式所求得到的原型往往是对待分割类别信息的粗略表达,在掩膜全局平均池化这一过程中,一些可以有效指导查询集图像分割的信息会被忽略掉,没有在接下来引导分割的任务中保存下来。这样即使使用与查询集图片完全一样的支持集图片引导分割也会损失一定的分割细节。为此我们设置了一种自引导方式,使用之前计算得到的初始原型 v s 首先对支持集进行引导分割。首先参考 [
F v = C o n c a t ( [ F v , V s ] ) (4)
通过这样一个融合了初始原型的特征,我们可以顺利对支持集图像进行分割,这样一个代表支持集图像的概率图可以通过解码器被求出来,对此有:
P s = s o f t max ( D e c o d e r ( F v ) ) (5)
这里的 P s 是对支持集图片预测的概率图,其中 P s ∈ R 2 × h × w , D e c o d e r ( • ) 表示解码器,这个解码器与后续对查询集分割的解码器共享权重。共享权重的解码器解码器的具体细节内容会在4.4节介绍。 s o f t max 是一个归一化函数。接下来利用支持集的概率特征图利用一个求最大值的函数完成对支持集预测掩膜的生成。
对此有:
M ^ s = argmax ( P s ) (6)
这里的 M ^ s 依然是一个二进制的掩膜,在这个掩膜当中如果该位置值为0则代表这里被预测为支持集图像的背景,如果值为1则代表这个像素点被预测为目标类。通过对支持集预测的掩膜和支持集掩膜的真实值进一步处理,我们可以生成用来完成原型特征增强的两个辅助原型。
v p r o = ∑ i = 1 h w F s ( i ) ⋅ [ Μ s ( i ) = 1 ] [ M ^ s ( i ) = 1 ] ∑ i = 1 h w [ Μ s ( i ) = 1 ] [ M ^ s ( i ) = 1 ] (7)
v a u x = ∑ i = 1 h w F s ( i ) ⋅ [ Μ s ( i ) = 1 ] [ M ^ s ( i ) ≠ 1 ] ∑ i = 1 h w [ Μ s ( i ) = 1 ] [ M ^ s ( i ) ≠ 1 ] (8)
通过公式7和公式8可以计算得到用来实现原型特征增强的辅助原型,在公式7中 [ Μ s ( i ) = 1 ] [ M ^ s ( i ) = 1 ] 表示使用初始原型 v s 作为引导分割支持集时正确预测的前景掩码,它代表在这些位置支持集待分割的目标被精确地分割出来。而公式8中 [ Μ s ( i ) = 1 ] [ M ^ s ( i ) ≠ 1 ] 表示初始原型 v s 引导没有被分割出来的部分,即缺失的前景掩膜。从公式7可以看到 v p r o 可以有效聚合模型预测正确的信息,而 v a u x 可以聚合之前分割中被遗忘的细节信息。通过这样的操作,之前初始原型中利用支持集图像得到泛化性信息被保留,而在初始原型中被忽略的细节公式8重新搜集。因此得到的辅助原型可以更加充分表达目标类的主体与细节信息,从而在接下来的步骤中更加有效地引导查询集进行分割。
遵循大多数小样本分割任务 [
x s = F s 4 ⊙ M s t m p (9)
其中 x s 代表支持集前景特征, M s t m p 代表变化后尺寸的支持集掩膜。之后对所得前景特征与查询集特征进行余弦相似度计算得到:
cos ( F t m p , F q 4 ) = F t m p ⊤ F q 4 ‖ F t m p ⊤ ‖ ‖ F q 4 ‖ (10)
c q = max ( cos ( F t m p , F q 4 ) ) (11)
C Q = [ c 1 , c 2 , ⋯ , c h w ] (12)
之后将 C Q 形状变变为三维得到 Y Q ,其中 ε 被设定为 10 − 7 。
Y Q = Y Q − min ( Y Q ) max ( Y Q ) − min ( Y Q ) + ε (13)
在激活注意力图的第一步首先进行特征匹配操作,密集特征匹配是小样本语义分割中的常见方法,它通常将查询集特征图 F q 与全局特征向量在所有空间位置上进行比较实现特征匹配。具体而言我们分别在每个空间位置评估它们与查询特征的余弦相似性。由于在之前的步骤中得到了两个全新的原型,因此要将该操作拓展为多原型设置。值得注意的是,这里的查询集特征与求我们将两个原型按照通道维度进行拼接。具体的有:
F q = C o n c a t ( [ v p r o , v a u x ] ) (14)
F q = C o n c a t ( [ F q 2 , F q 3 ] ) (15)
A l = F p r o F q ‖ F p r o ‖ ‖ F q ‖ (16)
A l 是一个双通道的激活特征图,每一个通道与之前求得的辅助原型相对应。如此一来,两个辅助原型感兴趣的不同区域都可以在查询集中被激活。
最终增强的特征包含生成的辅助原型、激活特征图、查询集特征和伪掩膜。为了使这些特征融合在一起,我们首先将得到的辅助原型拓展到和查询集特征图相同的尺寸,然后用一种简单的通道拼接的方式将不同特征连接起来,最后通过一层卷积层完成对通道维度的压缩,一方面压缩通道可以降低模型的参数量提高模型的效率和推理速度,另一方面可以使特征更好的聚合在一起,形成一个有效的增强特征。这里的 E x p a n d ( • ) 表示对特征图拓展尺寸大小。
F v p r o = E x p a n d ( v p r o ) (17)
F v a u x = E x p a n d ( v a u x ) (18)
F e n h = C o n c a t ( [ F v p r o , F v a u x , A l , F q , Y Q ] ) (19)
该方法的解码器与BAM [
图3. 解码器结构示意图
为了保证 v p r o 可以从支持特征图中学到大部分有用的信息,我们使用交叉熵损失函数对预测结果进行约束。在公式20到公式23中 P s , P q , P r e s u l t 与 M s , M q 分别代表模型输出的掩码概率图和对应的真实值。
l m e t a s = 1 n e ∑ i = 1 n e B C E ( P s , M s ) (20)
类似的有对查询集预测结果进行训练
l m e t a q = 1 n e ∑ i = 1 n e B C E ( P q , M q ) (21)
上面的公式表示的是利用交叉熵损失函数对查询集分割结果与真实值的差异做评估。其中 n e 表示训练时的批次数量。最后对模型在第二阶段输出的结果在训练阶段利用 l f i n a l 进行约束。最终我们将几个损失函数相加得到在元学习阶段的损失函数:
l f i n a l = 1 n e ∑ i = 1 n e B C E ( P r e s u l t , M q ) (22)
l = l f i n a l + l m e t a s + l m e t a q (23)
同样的,有在基学习阶段的损失函数,其中 n 表示训练时的批次数量。
l b a s e = 1 n ∑ i = 1 n B C E ( P b a s e , M b a s e ) (24)
标准小样本分割是在PASCAL-5i [
遵循之前的小样本语义分割方法 [
为了与现有的方法进行公平比较,我们采用了相同的骨干网络(ResNet50 [
我们将提出的模型与最近的几个小样本分割方法进行比较。在表1中显示了在ResNet50骨干网络下PASCAL-5i数据集上的结果。从表格中可以看出,在1-shot和5-shot场景相比基线网络BAM [
骨干网络 ResNet50 | 方法 | 1-shot | 5-shot | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
50 | 51 | 52 | 53 | mean | 50 | 51 | 52 | 53 | mean | ||
CANet [
|
52.50 | 65.90 | 51.30 | 51.90 | 55.40 | 55.50 | 67.80 | 51.90 | 53.20 | 57.10 | |
PGNet [
|
56.00 | 66.90 | 50.60 | 50.40 | 56.00 | 57.70 | 68.70 | 52.90 | 54.60 | 58.50 | |
CRNet [
|
- | - | - | - | 55.70 | - | - | - | - | 58.80 | |
PPNet [
|
48.58 | 60.58 | 55.71 | 46.47 | 52.84 | 58.85 | 68.28 | 66.77 | 57.98 | 62.97 | |
PFENet [
|
61.70 | 69.50 | 55.40 | 56.30 | 60.80 | 63.10 | 70.70 | 55.80 | 57.90 | 61.90 | |
SCL_1 [
|
56.80 | 67.30 | 53.50 | 52.50 | 57.50 | 59.50 | 68.50 | 54.90 | 53.70 | 59.20 | |
SCL_2 [
|
63.00 | 70.00 | 56.50 | 57.70 | 61.80 | 64.50 | 70.90 | 57.30 | 58.70 | 62.90 | |
HSNet [
|
64.30 | 70.70 | 60.30 | 60.50 | 63.90 | 70.30 | 73.20 | 67.40 | 67.10 | 69.50 | |
DCP [
|
63.81 | 70.54 | 61.16 | 55.69 | 62.80 | 67.19 | 73.15 | 66.39 | 64.48 | 67.80 | |
BAM [
|
68.97 | 73.59 | 67.55 | 61.13 | 67.81 | 70.59 | 75.05 | 70.79 | 67.20 | 70.91 | |
Ours | 69.22 | 73.77 | 67.88 | 61.79 | 68.02 | 71.05 | 74.90 | 71.12 | 67.41 | 71.12 |
表1. PASCAL-5i数据集上mIoU指标性能对比
v s | v p r o | v a u x | Activation Map | m I o U |
---|---|---|---|---|
√ | 67.81 | |||
√ | √ | 67.84 | ||
√ | √ | √ | 68.02 |
表2. PASCAL-5i数据集上消融实验性能对比
我们在PASCAL-5i上进行了消融实验,消融实验结果如表2所示。对最后强化特征中仅保留了原始原型、辅助原型,辅助原型和激活特征图(Activation Map)的三种情况进行了消融实验,可以发现仅仅依靠辅助原型对模型性能提升并不大,但是和激活特征图配合使用会让模型性能有一定的提升。
图4. 可视化结果展示
本小节将对模型在BAM上运行的结果和我们提出的方法上运行的结果进行比较,具体情况如图4所示,第(a)列是支持集图像,第(b)列是BAM方法的分割结果,第(c)列是本文提出的方法分割结果,第(d)列是查询集图像的标签,其中支持集目标对象以蓝色蒙版呈现,其余图像中的目标对象以品红色蒙版展现。可以看出我们的方法在细节上的分割比BAM做的更加出色。
在本文中,我们在BAM方法的基础上提出一个原型特征增强的方法。我们的方法充分利用了支持集的信息,通过自引导的方式构建了辅助原型和激活特征图,完成了原型特征增强。这种方法弥补了BAM对前景特征细节关注不够的问题,我们在PASCAL-5i数据集上进行实验,验证了方法的有效性。在未来,可以尝试更细致的方式完成对前景特征的充分提取,以此提高小样本语义分割的精确性。
陈 涵. 基于自引导原型增强的小样本语义分割方法——一种改进的基学习与元学习分割方法A Few-Shot Semantic Segmentation Method Based on Self Guided Prototype Enhancement—An Improved Segmentation Method of Base Learning and Meta Learning[J]. 计算机科学与应用, 2024, 14(05): 172-183. https://doi.org/10.12677/csa.2024.145126
https://doi.org/10.1109/TITS.2020.2980426
https://doi.org/10.1109/CVPR46437.2021.00125
https://doi.org/10.1109/TPAMI.2016.2644615
https://doi.org/10.1109/CVPR.2016.344
https://doi.org/10.1109/LGRS.2018.2795531
https://doi.org/10.1109/CVPR.2017.189
https://doi.org/10.1007/978-3-319-24574-4_28
https://doi.org/10.48550/arXiv.1709.03410
https://doi.org/10.1007/s10462-021-10004-4
https://doi.org/10.1109/CVPR46437.2021.00450
https://doi.org/10.1109/CVPR52688.2022.00789
https://doi.org/10.1109/CVPR.2019.00536
https://doi.org/10.1109/TPAMI.2020.3013717
https://doi.org/10.1109/TCYB.2020.2992433
https://doi.org/10.1109/CVPR46437.2021.00821
https://doi.org/10.1109/CVPR.2019.00009
https://doi.org/10.1109/CVPR.2018.00131
https://doi.org/10.1609/aaai.v33i01.33013379
https://doi.org/10.1109/CVPR.2019.00888
https://doi.org/10.1109/ICCV48922.2021.00686
https://doi.org/10.1109/ICCV.2019.00968
https://doi.org/10.24963/ijcai.2022/143
https://doi.org/10.1109/CVPR.2016.90
https://doi.org/10.1109/TPAMI.2017.2699184
https://doi.org/10.48550/arXiv.1207.0580
https://doi.org/10.1007/s11263-009-0275-4
https://doi.org/10.1109/ICCV.2011.6126343
https://doi.org/10.1109/CVPR42600.2020.00422
https://doi.org/10.1007/978-3-030-58545-7_9