目前,基于深度学习的无监督行人重识别正在通过改进聚类方法来提高生成伪标签的准确性和鲁棒性。然而,行人的固有物理特征,如肢体和身体,尚未充分利用。此外,遮挡和姿势导致了在行人图像中准确匹配和识别局部区域的困难,而行人服装颜色引起的噪声干扰也对行人重识别准确性产生了重要影响。为了解决这些问题,本文提出了一种判别性特征挖掘网络(DFMN),通过引入Transformer注意力机制来突出显示行人的有效物理特征;为了深入挖掘不同样本之间的细粒度局部特征,本文采用了基于最短路径的部分对齐分割机制;同时,针对行人服装颜色引起的冗余信息,本文融合了一个alpha通道,可以有效消除噪声干扰。实验结果表明,本文所提出的方法在Market1501数据集和MSMT17数据集上的map指标上分别实现了4.0%和6.4%的提升。 At present, Unsupervised Person Re-Identification based on deep learning promotes the accuracy and robustness of generating pseudo labels mainly by improving the clustering method. However, for inherent physical features of pedestrians, such as limbs, and bodies, which are not fully utilized, occlusion, posture pose difficulties in accurately matching and recognizing local areas in pedestrian images ,and noise interference caused by pedestrian clothing color have essential impact on person re-identification accuracy. In this paper, we propose a Discriminative Feature Minning Network (DFMN) by introducing a Transformer attention mechanism to highlight the pedestrians’ effective physical features. To deeply mining the fine-grained local features among different samples, a part-aligned segmentation mechanism based on the shortest path is used. At the same time, as for the redundant information resulting from the color of pedestrian clothing, we incorporate an alpha channel, which can effectively eliminate noise interference. The experimental results show that the proposed method has achieved improvements of 4.0% and 6.4% on the Market1501 dataset and the MSMT17 dataset for the map metric.
目前,基于深度学习的无监督行人重识别正在通过改进聚类方法来提高生成伪标签的准确性和鲁棒性。然而,行人的固有物理特征,如肢体和身体,尚未充分利用。此外,遮挡和姿势导致了在行人图像中准确匹配和识别局部区域的困难,而行人服装颜色引起的噪声干扰也对行人重识别准确性产生了重要影响。为了解决这些问题,本文提出了一种判别性特征挖掘网络(DFMN),通过引入Transformer注意力机制来突出显示行人的有效物理特征;为了深入挖掘不同样本之间的细粒度局部特征,本文采用了基于最短路径的部分对齐分割机制;同时,针对行人服装颜色引起的冗余信息,本文融合了一个alpha通道,可以有效消除噪声干扰。实验结果表明,本文所提出的方法在Market1501数据集和MSMT17数据集上的map指标上分别实现了4.0%和6.4%的提升。
特征挖掘,无监督学习,伪标签,聚类
Kun Xu, Xiaohong Wang, Xu Zhao, Shihao Xu
College of Communication and Art Design, University of Shanghai for Science and Technology, Shanghai
Received: Mar. 28th, 2024; accepted: May. 2nd, 2024; published: May. 8th, 2024
At present, Unsupervised Person Re-Identification based on deep learning promotes the accuracy and robustness of generating pseudo labels mainly by improving the clustering method. However, for inherent physical features of pedestrians, such as limbs, and bodies, which are not fully utilized, occlusion, posture pose difficulties in accurately matching and recognizing local areas in pedestrian images ,and noise interference caused by pedestrian clothing color have essential impact on person re-identification accuracy. In this paper, we propose a Discriminative Feature Minning Network (DFMN) by introducing a Transformer attention mechanism to highlight the pedestrians’ effective physical features. To deeply mining the fine-grained local features among different samples, a part-aligned segmentation mechanism based on the shortest path is used. At the same time, as for the redundant information resulting from the color of pedestrian clothing, we incorporate an alpha channel, which can effectively eliminate noise interference. The experimental results show that the proposed method has achieved improvements of 4.0% and 6.4% on the Market1501 dataset and the MSMT17 dataset for the map metric.
Keywords:Feature Mining, Unsupervised Learning, Pseudo Labels, Clusters
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
大部分行人重识别模型都使用深度学习和标记数据进行训练。然而,随着实际监控需求增加和标记成本上升,无监督行人重识别成为研究的重点。这种方法通过聚类生成伪标签,不需要标记数据。
一种方法是无监督领域自适应(UDA)行人重识别 [
目前最先进的无监督学习(USL)方法 [
本文的主要贡献如下:
1) 针对行人的固有物理特征挖掘不充分。本文通过加入Transformer将行人的固有物理特征作为全局信息源,放大和强调其在识别过程中的重要性。
2) 针对个体的遮挡和姿势变化可能导致局部特征丢失。本文通过使用部件分割对齐机制来解决这些不稳定和频繁丢失的局部信息。
3) 针对行人服装颜色的干扰信息。因此本文加入alpha通道来剔除颜色干扰。
目前,无监督行人重识别方法通常采用ResNet50 [
首先,从整体视角分析和定义图像中的全局特征。作为常见的全局特征,行人姿势特征可以直观地从行人图像中感知,有助于区分不同行人的姿势,尽管遮挡会带来一定限制。Transformer模型 [
另一种方法涉及提取个体的动态特征,例如行走姿势、手臂摆动、头部和肩部运动。然而,这些动态特征的提取和处理更加复杂。例如,姿势不变嵌入(PIE) [
在图像内容的部分被环境干扰遮挡的情况下,全局特征的利用和分析会极大地影响实际结果。与全局特征相比,局部特征提供了图像中对象的细粒度描述,涉及对图像特定区域的特征提取。获取局部特征的标准方法包括基于块、基于分割和基于网格的方法。CHO [
作为图像中表面特征的另一个直观体现,行人服装的颜色特征从行人图像中可感知。然而,由颜色导致的干扰噪声也存在于行人图像中。当不同身份的行人穿着相同颜色的衣服时,可能会出现误判。因此,抑制这种干扰信息并仅强调行人姿势和外观的主要特征至关重要。
图1. 行人强区分性判别特征挖掘算法框架图
本文提出了一个详细的网络结构,用于基于强特征挖掘的无监督行人再识别,如图1所示。该网络架构的这一部分主要包括五个不同的组件,其中①涉及通过alpha变换从训练图像中提取α通道。组件②包括利用ResNet50对行人图像进行浅层特征提取,而组件③将这些浅层特征组合起来进行深度特征挖掘,并将其映射到统一的特征空间。在组件④中,获取的全局特征被分类到α通道和可见光中,然后进行归一化。通过水平最大池化(HMAX) [
为了突出特征图中的关键信息,减少无关细节,并从行人图像中提取更具区分性的全局特征,该组件采用了基于Transformer的全局特征卷积模块,如图2所示。
图2. 组件③:基于Transformer的全局特征卷积模块
通过组件①提取行人图像进行α通道提取后,本文利用网络中的组件②和③来挖掘更具有区分性的行人图像的全局特征。经过实验证明,带有堆叠的BN和ReLU [
T 0 = [ F ( f r g b 1 ) ; ⋯ ; F ( f r g b N ) ] + [ F ( f α 1 ) ; ⋯ ; F ( f α N ) ] + ρ (1)
其中 T 0 表示输入序列嵌入, ρ ∈ R ( N + 1 ) × D 表示位置嵌入。F是一个线性投影,将图像分块映射到维度为D的空间。此外,Transformer层用于学习特征表示。基于CNN的方法存在的有限感受视野问题得到解决,因为所有的Transformer层都具有全局感受视野,此外,没有下采样操作,因此详细信息得以保留。
本文使用滑动窗口来生成具有重叠像素的补丁。将步长表示为S,补丁的大小表示为P,那么两个相邻补丁重叠的区域形状为 ( P − S ) × P 。具有分辨率H × W的输入图像将被分割为N个补丁,如公式所示:
N = N H × N W = ‖ H + P − S S ‖ × ‖ W + P − S S ‖ (2)
其中 ‖ ‖ 表示向下取整函数,S设置为小于P的值, N H 和 N W 分别表示高度和宽度方向上的分割补丁的数量。S越小,图像被分割成的补丁数量就越多。直观地说,更多的补丁通常会带来更好的性能,但会增加计算量。本文可以得到RGB行人全局特征 f r g b g l o 和α行人全局特征 f α g l o 通过以下表示:
f r g b g l o = N × ∑ i = 1 N F ( f r g b ) (3)
f α g l o = N × ∑ i = 1 N F ( f α ) (4)
本文通过构建全局特征模块的三元损失来优化组件②和③,如下所示:
L T = log ( 1 + e ‖ f r g b g l o − f α g l o ‖ e ‖ f r g b g l o − f α g l o ‖ + e ‖ f α g l o − f r g b g l o ‖ ) (5)
在获得全局特征之后,RGB图像的全局特征为 f r g b g l o α图像的全局特征为 f α g l o 。局部对齐机制是基于人体结构特征的行人再识别中广泛使用的方法。它涉及将特征图分解成几个部分,提取它们,然后利用最短路径计算来找到更多匹配的局部特征。局部对齐机制可以更好地处理平移、旋转、缩放等几何变化。因此,在DFMN的组件④中,本文使用基于最短路径模块的部分分割对齐机制来挖掘局部特征,如图3所示。
图3. 组件④:基于最短路径的部分分割对齐机制
以RGB的特征图为例,本文对这些特征进行了HMAX池化,包括水平分割。共设定了M个水平部分,对于每个部分,提取了一个局部特征图,确保每个局部特征图对应其相应的水平段。然后,本文定义行人局部特征表示的存在为 f r g b l o c = ( f r g b 1 , f r g b 2 , ⋯ , f r g b m ) , f α l o c = { f α 1 , f α 2 , ⋯ , f α m } 。M是水平分割块的数量。
为了计算两幅图像的局部特征之间的距离,本文动态地从上到下匹配局部部分,找到具有最小总距离的局部特征。本文通过计算相似度来计算两个行人局部特征之间的距离,公式如下:
d r g b m , n = ‖ f r g b m − f r g b n ‖ − 1 ‖ f r g b m + f r g b n ‖ + 1 (6)
d α m , n = ‖ f α m − f α n ‖ − 1 ‖ f α m + f α n ‖ + 1 (7)
上述公式表示第一幅图像的第m个垂直部分与第二幅图像的第n个垂直部分之间的距离,和分别表示两幅图像中局部特征的索引。计算绝对距离的平方。对于图像的每个分段部分,本文计算与另一图像的每个分段的局部距离。基于这些距离,形成一个6 × 6的距离矩阵。接下来,本文使用动态规划算法在矩阵中找到距离和最小路径,并定义距离和计算公式如下:
S m , n = min ( d m , n + w ( m , n ) ) (8)
在上述的公式中,表示这个矩阵的最短路径的总距离。 w ( m , n ) 表示从水平部分m到n的权重。
为了提高具有高背景相似性的行人图像的区分性,本文利用部分级别的距离约束来辅助局部特征学习,优化了组件④中的局部特征的损失,如公式所示:
L M P A = ∑ i = 1 P ∑ b = 1 K ∑ j = 2 E ( [ Z G ( f i , j k b ) − f i , j k p ] 2 + [ f i , j k n − Z G ( f i , j k b ) ] 2 ) (9)
在上述公式中, Z G ( · ) 表示零梯度函数,即在计算梯度时将变量视为常数, f i , j k b 表示α/RGB局部特征的原始样本,表示RGB/α通道中距离原始样本最远的正样本, f i , j k n 表示RGB/α通道中距离原始样本最近的负样本,P表示行人的数量,K表示同一行人的图像数量,E表示行人特征图的长度。
本文使用DFMN模型在α通道和RGB下提取全局和局部特征,然后通过串联将这些特征融合起来,得到融合特征,然后将这些融合特征发送到DBSCAN聚类算法,从组件⑤生成伪标签。图4显示了这个过程的流程图。
图4. 组件⑤:特征融合和聚类
本文将融合的特征向量定义为 f T = { f T 1 , f T 2 , ⋯ , f T i } ,那么F的信息内容如公式所示:
I ( f T i ) = − log Q ( F = f T i ) (10)
其中Q代表取某个值的概率 f T i ,公式中的信息度量受限于在随机变量取特定值时处理信息度量的能力。在文中,熵被用来描述整个概率分布下的平均信息度量
为了减少类内变异性,本研究缩短了同一类别样本之间的距离,从而增加它们的相似性并将它们更接近样本中心,以更好地匹配查询图像的特征。损失函数定义如公式所示:
L C = 1 2 N ∑ i = 1 N | f T i − c | 2 2 (11)
其中,类中心c指的是给定类别内所有样本的平均特征。这是通过将每个样本的特征通过高性能网络传递到特征层来实现的。因此,本文的DFMN网络的总损失如公式所示:
L D F M N = L T + L M P A + L C (12)
本文研究在两个大规模行人重识别数据集Market1501和MSMT17上评估所提出的方法。这些数据集在实际的行人重识别中被广泛使用,输入图像的尺寸为224 × 224。采用SGD优化器对re-ID模型进行训练,迭代次数为5e−e。DBSCAN聚类方法用于伪标签分配,所有实验使用相同的参数设置。两个样本之间的最大距离d设置为0.6,核心点中的最小邻居数设置为4。
该实验首先将本文提出的方法与当前最先进的无监督学习(USL)方法进行比较,这是本文工作的主要焦点。如表1和表2所示,本文的方法在所有现有的无监督方法中表现出优越的性能,从而证明了其有效性。具体来说,使用相同的流程和DBSCAN聚类方法,本文提出的方法在Market-1501和MSMT17上的平均准确率(mAP)都超过了当前最先进的USL方法。
方法 | Market1501 | |||
---|---|---|---|---|
mAP | Rank-1 | Rank-5 | Rank-10 | |
Buc [
|
38.3 | 66.2 | 79.6 | 84.5 |
SSL [
|
37.8 | 71.7 | 83.8 | 87.4 |
MMCL [
|
45.5 | 80.3 | 89.4 | 92.3 |
HCT [
|
56.4 | 80.0 | 91.6 | 95.2 |
SPCL [
|
73.1 | 88.1 | 95.1 | 97.0 |
ICE [
|
78.9 | 91.7 | 97.1 | 97.7 |
GSL [
|
79.2 | 92.3 | 96.6 | 97.8 |
CCL [
|
83.0 | 92.9 | 96.7 | 97.9 |
PPRL [
|
84.4 | 94.3 | 97.8 | 98.6 |
DFMN | 88.4 | 94.6 | 97.9 | 98.7 |
表1. 在Market1501数据集上与最先进方法的比较(无监督学习方法)
方法 | MSMT17 | |||
---|---|---|---|---|
mAP | Rank-1 | Rank-5 | Rank-10 | |
MMCL [
|
11.2 | 35.4 | 44.8 | 49.8 |
TAUDL [
|
12.5 | 28.4 | - | - |
UTAL [
|
13.1 | 31.4 | - | - |
UGA [
|
21.7 | 49.5 | - | - |
SPCL [
|
19.1 | 42.3 | 55.6 | 61.2 |
ICE [
|
22.7 | 48.4 | 61.1 | 67.0 |
GSL [
|
24.6 | 56.2 | 67.3 | 71.6 |
CCL [
|
31.2 | 61.5 | 71.8 | 76.7 |
PPRL [
|
42.2 | 73.3 | 83.5 | 86.5 |
DFMN | 48.6 | 74.1 | 84.4 | 87.3 |
表2. 在MSMT17数据集上与最先进方法的比较(无监督学习方法)
本文提出的方法展现了良好的结果。通过可视化和比较聚类结果与先前方法的结果,本文观察到本文的方法通过提取更具辨别力的特征增强了后续聚类步骤的稳健性,如图5所示。
图5. 本文的方法(右)展现出比未改进的方法(左)更大的稳健性,通过对聚类结果进行可视化分析和比较
通过利用聚类技术,基于具有区分性的行人特征生成更为稳健的伪标签,本文提出的方法显著提高了重新识别的准确性。通过将行人样本匹配结果与未改进方法进行比较,图6展示了本文方法的有效性。
图6. 在Market1501数据集上,本文的方法与CCL方法之间的前5个检索图像比较。绿色框表示正确结果,红色框表示错误结果
本研究在Market1501数据集上进行了组件组合消融实验,分别对四个方面进行了校准:①、②、③和④。实验结果记录在表3中。结果显示,Transformer注意机制对网络特征学习产生积极影响,可以有效提高准确性。此外,alpha通道被证明可以消除行人服装颜色的干扰信息,突出身体姿势的有效信息。
组件 | Market1501 | |||
---|---|---|---|---|
mAP | Rank-1 | Rank-5 | Rank-10 | |
① + ② + ⑤ | 82.7 | 92.7 | 96.3 | 97.6 |
② + ③ + ⑤ | 86.0 | 94.7 | 97.6 | 98.4 |
② + ④ + ⑤ | 83.5 | 93.2 | 96.9 | 97.3 |
① + ② + ③ + ⑤ | 83.2 | 92.8 | 96.8 | 97.1 |
② + ③ + ④ + ⑤ | 87.2 | 93.5 | 97.2 | 98.0 |
① + ② + ③ + ④ + ⑤ | 88.5 | 94.4 | 98.1 | 98.8 |
表3. Market1501数据集上的消融实验结果
从表3可以看出本文提出的网络框架专注于全局特征挖掘和局部特征挖掘模块,这显著提高了重新识别的准确性。组件③和④对DMFN的影响更加显著。
为验证本文提出的基于块分割的局部特征对齐方法的有效性,本文使用Market1501数据集进行了测试实验。采用对齐模块机制对全局特征进行分块并提取局部特征,重点关注局部特征维度和水平分割块数的影响。首先,本文在将块数设置为6的情况下,验证了局部特征维度变化对准确性的影响,得到了如表4所示的实验结果。
维度 | Market1501 | |||
---|---|---|---|---|
mAP | Rank-1 | Rank-5 | Rank-10 | |
128 | 84.6 | 92.5 | 96.3 | 97.6 |
256 | 84.2 | 91.3 | 96.1 | 97.8 |
512 | 83.5 | 91.4 | 96.9 | 97.3 |
1024 | 84.5 | 92.6 | 96.8 | 97.1 |
表4. 局部特征维度变化对准确性的影响
从表4可以看出,在一定数量的切片情况下,随着维度的增加,准确度mAP值逐渐下降,然后在达到最大值之前达到最大维度。而排名值显示出一定的波动。总体而言,局部特征维度的准确性取决于切块的数量。
切块数量 | Market1501 | |||
---|---|---|---|---|
mAP | Rank-1 | Rank-5 | Rank-10 | |
0 | 82.7 | 92.7 | 96.3 | 97.6 |
2 | 83.2 | 92.8 | 97.7 | 98.5 |
3 | 83.5 | 93.2 | 96.9 | 97.3 |
4 | 83.2 | 93.3 | 96.8 | 97.1 |
5 | 83.6 | 93.3 | 96.7 | 97.9 |
6 | 87.2 | 93.5 | 97.2 | 98.0 |
7 | 85.5 | 93.2 | 97.0 | 97.6 |
8 | 84.8 | 93.0 | 96.9 | 97.4 |
9 | 83.6 | 92.8 | 97.7 | 98.1 |
表5. 局部特征切块数实验
在前述步骤中,在保持相同数量的分割块的情况下,评估了不同维度特征对准确性的影响。在随后的实验中,本节特别选择了特定的特征维度,以研究分割块数对测试结果的影响。在Market1501数据集上进行测试时获得的实验数据记录在表5中。根据表5显示,随着分块数的增加,rank1和mAP值均呈正比增加。然而,超过一定阈值后,随着分块数的继续增加,准确性会降低。当分块数设定为6时,达到最佳准确性。
本文针对行人图像测试数据集中由于行人固有物理特征挖掘不充分,遮挡问题以及姿态不同而导致的局部特征信息丢失,以及行人衣服颜色带来的干扰信息这些因素所造成的低识别精度问题,从而提出了一种解决方案。本文的方法基于抑制颜色干扰信息,突出行人全局特征,并利用局部特征辅助判别这三个模块来解决这些问题。
首先,本文使用Alpha通道提取解决服装颜色干扰问题。然后,通过在主网络中嵌入Transformer来突出行人的固有物理全局特征,提高获取的全局特征鲁棒性。随后,本文使用最短路径部件分割对齐机制,利用全局特征进行水平分割以获取局部特征并约束行人组件。此外,本文采用全局和局部特征的联合学习,最后融合获得的特征并应用到机器学习聚类算法生成伪标签。实验结果的客观定量分析表明,本文提出的算法在各种性能评价指标上优于最新算法,从而验证了本文算法的出色性能。
徐 锟,王晓红,赵 徐,徐世豪. 基于强区分性特征挖掘的无监督行人重识别Unsupervised Person Re-Identification Based on Discriminative Feature Mining[J]. 建模与仿真, 2024, 13(03): 2011-2022. https://doi.org/10.12677/mos.2024.133186
https://doi.org/10.1109/CVPR.2018.00110
https://doi.org/10.1007/978-3-030-01261-8_11
https://doi.org/10.1109/CVPR.2019.00069
https://doi.org/10.1109/CVPR.2018.00016
https://doi.org/10.1109/ICCV.2019.00841
https://doi.org/10.1109/CVPR.2018.00393
https://doi.org/10.1145/3243316
https://doi.org/10.1109/ICCV.2019.00621
https://doi.org/10.1609/aaai.v33i01.33018738
https://doi.org/10.1109/CVPR42600.2020.01099
https://doi.org/10.1073/pnas.0706851105
https://doi.org/10.1109/TPAMI.2022.3152247
https://doi.org/10.1145/3505244
https://doi.org/10.1109/TIP.2019.2910414
https://doi.org/10.1109/ICCV48922.2021.01469
https://doi.org/10.1109/ICCV48922.2021.00841
https://doi.org/10.1109/CVPR52688.2022.00716
https://doi.org/10.1109/CVPR.2019.00225
https://doi.org/10.1016/j.neunet.2017.12.005
https://doi.org/10.1609/aaai.v36i3.20150
https://doi.org/10.1007/s11356-020-11554-w
https://doi.org/10.1109/CVPR42600.2020.00345
https://doi.org/10.1109/CVPR42600.2020.01367
https://doi.org/10.1109/TIP.2022.3224325
https://doi.org/10.1007/978-3-031-26351-4_20
https://doi.org/10.1007/978-3-030-01225-0_45
https://doi.org/10.1109/TPAMI.2019.2903058