大多数当前的无监督域自适应(UDA)技术从域级别或类级别学习域不变的特征表示。基于域级别的主流方法是对抗学习,对抗学习通常不考虑目标数据的固有判别信息。基于类别级别的UDA方法通常是为目标域样本生成伪标签,由于这些伪标签通常噪声太大,这不可避免地会影响UDA性能;其次,现有方法没有明确地强制区分不同类别的特征。为了解决以上问题,我们提出了基于Swin Transformer的无监督域自适应(SwinUDA)。首先,对于域对齐,将Swin Transformer与对抗性自适应相结合,提高模型对噪声输入的鲁棒性,其次,对于类别对齐,使用正交投影损失(OPL)直接在特征空间中实施约束。此外,正交投影损失对标签噪声干扰的影响更有鲁棒性。最后,引入了互信息最大化损失(IML)来保留目标域的可区分特征。本文提出的SwinUDA模型可以同时学习可迁移和可区分的特征。在Office-Home、Office-31和VisDA-2017三个公开数据集上进行实验,SwinUDA都展现了最佳的性能。 Most current unsupervised domain adaptation (UDA) techniques learn domain invariant feature representations from the domain-level or class-level. Adversarial learning is the dominating strat-egy based on the domain-level. It tries to align the global feature distributions of the two domains without considering the target data’s innate discriminative information. Class-level-based ap-proaches typically generate pseudo-labels for data in the target domain. These pseudo-labels im-pact UDA’s performance because they are generally overly noisy. In addition, existing methods do not explicitly enforce a good separation of different classes of features. To solve the above problems, we propose the Unsupervised Domain Adaptation Using Swin Transformer (SwinUDA). First, for domain alignment, the Swin Transformer is combined with adversarial adaptation to improve the robustness of the model to noisy inputs. The experimental results show that using the transformer as a feature extractor has higher transferability. Second, constraints are directly enforced in the feature space for class alignment using Orthogonal Projection Loss (OPL). Samples from the same class (whether from the source or target domain) are pulled closer, while samples from different classes are pushed away. In addition, the orthogonal projection loss is more robust to the influence of label noise interference. To preserve the discriminative information of the target domain, a mu-tual information maximization loss (IML) is introduced to protect the discriminating features of the target domain. The SwinUDA model proposed in this paper can simultaneously learn transferable and differentiable features. Experiments were performed on the three public datasets Office-Home, Office-31, and VisDA-2017. SwinUDA showed the best performance.
大多数当前的无监督域自适应(UDA)技术从域级别或类级别学习域不变的特征表示。基于域级别的主流方法是对抗学习,对抗学习通常不考虑目标数据的固有判别信息。基于类别级别的UDA方法通常是为目标域样本生成伪标签,由于这些伪标签通常噪声太大,这不可避免地会影响UDA性能;其次,现有方法没有明确地强制区分不同类别的特征。为了解决以上问题,我们提出了基于Swin Transformer的无监督域自适应(SwinUDA)。首先,对于域对齐,将Swin Transformer与对抗性自适应相结合,提高模型对噪声输入的鲁棒性,其次,对于类别对齐,使用正交投影损失(OPL)直接在特征空间中实施约束。此外,正交投影损失对标签噪声干扰的影响更有鲁棒性。最后,引入了互信息最大化损失(IML)来保留目标域的可区分特征。本文提出的SwinUDA模型可以同时学习可迁移和可区分的特征。在Office-Home、Office-31和VisDA-2017三个公开数据集上进行实验,SwinUDA都展现了最佳的性能。
对抗学习,无监督域适应,图像分类,类别对齐,伪标签生成
Bowen Fan, Zhijie Xu*
School of Science, Beijing University of Civil Engineering and Architecture, Beijing
Received: Apr. 12th, 2023; accepted: May 24th, 2023; published: May 31st, 2023
Most current unsupervised domain adaptation (UDA) techniques learn domain invariant feature representations from the domain-level or class-level. Adversarial learning is the dominating strategy based on the domain-level. It tries to align the global feature distributions of the two domains without considering the target data’s innate discriminative information. Class-level-based approaches typically generate pseudo-labels for data in the target domain. These pseudo-labels impact UDA’s performance because they are generally overly noisy. In addition, existing methods do not explicitly enforce a good separation of different classes of features. To solve the above problems, we propose the Unsupervised Domain Adaptation Using Swin Transformer (SwinUDA). First, for domain alignment, the Swin Transformer is combined with adversarial adaptation to improve the robustness of the model to noisy inputs. The experimental results show that using the transformer as a feature extractor has higher transferability. Second, constraints are directly enforced in the feature space for class alignment using Orthogonal Projection Loss (OPL). Samples from the same class (whether from the source or target domain) are pulled closer, while samples from different classes are pushed away. In addition, the orthogonal projection loss is more robust to the influence of label noise interference. To preserve the discriminative information of the target domain, a mutual information maximization loss (IML) is introduced to protect the discriminating features of the target domain. The SwinUDA model proposed in this paper can simultaneously learn transferable and differentiable features. Experiments were performed on the three public datasets Office-Home, Office-31, and VisDA-2017. SwinUDA showed the best performance.
Keywords:Adversarial Learning, Unsupervised Domain Adaptation, Image Classification, Class Alignment, Pseudo-Label Generation
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
深度神经网络在许多计算机视觉任务中取得了令人印象深刻的性能。然而,这些方法成功通常依赖于大量标记的数据,而获取这些数据非常的耗时并且获取成本高昂,此外,由于计算机视觉中光照、背景、天气条件等因素的影响,也经常会出现训练数据和测试数据之间的特征分布不匹配。因此推动了无监督域适应(UDA)的研究,UDA任务旨在存在域偏移的情况下,将知识从标记的源域转移到不同的未标记目标域。
大多数当前的方法 [
总之,域级对齐可以对齐源域和目标域的全局特征分布,以学习可迁移特征。而类别级对齐可以学习有区别的目标特征。理想的方法是结合这两种方法的优点,同时强制不同类别的特征分离。为了实现这一目标,我们提出了一种新的UDA解决方案,即SwinUDA (基于Swin Transformer的无监督域自适应)。首先,通过将Swin Transformer与简单的对抗性域适应相结合,以对齐源域和目标域的全局特征分布。实验结果表明,Swin Transformer具有很强的可迁移性。为了更好地区分不同类别的样本,我们同时考虑类别级的对齐。引入了正交投影损失(OPL),并使用伪标签辅助计算该损失。OPL可以强制将相同的类特征很好地聚类,将不同的类特征很好地分离。为了保持目标域的内在结构,引入了互信息最大化损失(IML),以保留更多的目标域信息,并进一步提高模型性能。
图1. (最好用彩色观看)将我们的方法与早期的研究进行对比。左图:仅使用源域中的数据进行训练,直接应用于目标域。中间:全局对齐两个域的数据分布,而不考虑类信息。右图:我们提出的方法考虑了类级别的域对齐,减少了条件分布的差异
本文的主要贡献是:1) 我们提出的SwinUDA,是第一次将Swin Transformer作为无监督跨域图像分类的主干网络,为了保护目标域的内在结构,我们引入互信息最大化损失,以减轻对抗域适应中的目标域区分破坏。2) 为了使同类特征接近,不同类特征分离,我们引入OPL损失,同时学习可迁移特征和可区分特征。3) 在Office Home、Office-31和VisDA-2017三个公开数据集上的实验表明,我们的OPST都展现了最佳的性能,其中,Office Home为87.17%,office-31为94.6%,VisDA-2017为88.46%。
无监督域适应的目标是处理来自 X × Y 的有标记的源域数据 D S = { ( x i s , y i s ) } i = 1 n s 和来自 X 的未标记的目标域数据 D T = { ( x i t ) } i = 1 n t 之间的域偏移问题,其中 X 是输入空间, Y 是标签空间, n s 和 n t 分别为源域和
目标域的样本数量。假设它们假设特征空间、标签空间与条件概率分布都相同,即 X s = Y t = ℝ d , Y s = Y t = { y 1 , y 2 , ⋯ , y C } , P ( y s | x s ) = P ( y t | x t ) 。但这两个域的边缘分布不同,即 P ( x s ) ≠ P ( x t ) 。UDA的任务是利用有标签的源域数据学习一个分类器 h = g ∘ f 来预测目标域数据 D T 的标签 y t ∈ Y t ,其中 f ( ⋅ ; θ f ) : X → Z 表示特征提取器,
目前,transformer在计算机视觉领域的应用面临两个局限:第一,视觉目标大,视觉transformer在不同场景下的性能较差;第二,当图像分辨率高时,transformer的计算量大。为了解决上述两个问题,Swin transformer [
Swin transformer模型如图2所示。首先,根据 4 × 4 个相邻像素将输入图像划分为一个patch,并通过patch划分将每个patch在通道方向上展平。其次,堆叠4个stage来构建不同大小的特征图,用于注意力计算。每个stage代表一个层次。第一个stage通过线性嵌入改变特征维度,最后三个stage通过patch merging进行下采样并重复堆叠Swin transformer block。多层感知机、窗口多头自注意层、滑动窗口多头自注意力层和标准化层构成了Swin transformer块的大部分,如图2右侧所示。其中,自注意力层是transformer的关键组件,其计算方法如下式所示:
A t t e n t i o n ( Q , K , V ) = s o f t max ( Q K T / d ) V (1)
其中Q,K,V分别为query、key、value,d为查询维度。Transformer中的注意力机制对噪声输入具有鲁棒性,可以更好地提取信息全局特征。
图2. Swin Transformer网络架构
提出的网络结构如图3所示。它由三部分组成:特征提取器(SwinT)、标签分类器(Label Classifier)和领域判别器(Domain Discriminator)。对于每个源域和目标域图像,通过一系列transformer blocks提取特征。域判别器判断输入图像是源样本还是目标样本。域判别器的训练目标是将输入尽量分到正确的域,而特征提取器所提取的特征目的是使域判别器不能正确的判断出信息来自哪一个域。以这种对抗性的方式训练域鉴别器和特征提取器以进行域对齐。标签分类器获得类标记并输出标签预测,通过计算目标样本的互信息最大化损失(IML)来减轻对抗性学习中目标样本的结构损坏。同时,正交投影损失(OPL)可以使样本在特征空间中实施正交约束,实现类内特征聚类和类间特征分离。
图3. 网络架构
遵循典型的对抗性自适应方法来实现领域自适应。旨在利用有标签的源域数据 D S = { ( x i s , y i s ) } i = 1 n s 学习一个分类器 h = g ∘ f 来预测目标域数据 D T = { ( x i t ) } i = 1 n t 的标签 y t ∈ Y t 。其中 f ( ⋅ ; θ f ) : X → Z 表示特征提取
器,本章使用Swin Transformer作为特征提取器f,
其中, L c 是源域数据的标准交叉熵损失, L d 是域对抗损失,定义为:
L d ( θ g , θ d ) = E x ∼ D s [ log d ( g ( x ) ) ] + E x ∼ D t [ log d ( 1 − g ( x ) ) ] (3)
对于UDA中的域对齐问题,在对齐两域的全局分布的同时,还要尽可能的减轻目标域内在结构的破坏,因此要考虑一个问题,理想的目标输出是什么样子?我们认为完美的目标输出应该满足以下几点:1) 决策边界位于低密度区域,也称为聚类假设 [
H ( x t ) = − ∑ p ( x i t ) log p ( x i t ) (4)
经过分析发现,标准的交叉熵计算方法无法准确评估样本伪标签在决策边界处的不确定性。而互信息最大化损失可以避免将所有目标样本分配给同一类,这满足了理想的目标输出。互信息最大化损失被证明比先前领域自适应工作中常用的信息熵最小化更有效 [
为此,采用互信息最大化损失:
L M I = I ( p ( x t ) ; x t ) = H ( [ p ¯ ( x t ) ] ) − 1 n t ∑ i = 1 n t H ( p ( x i t ) ) = − ∑ c = 1 C p ¯ ( x c t ) log ( p ¯ ( x c t ) ) + 1 n t ∑ i = 1 n t ∑ c = 1 C p ( x i c t ) log ( p ( x i c t ) ) (5)
其中, p ( x i t ) = s o f t max ( g ( f ( x i t ) ) ) , p ¯ ( x t ) = E x t [ p ( x t ) ] 表示整个目标样本的平均输出嵌入, E x t [ p ( x t ) ] = 1 n t ∑ i = 1 n t p ( x t ) 表示目标样本的期望。最小化第二项可以导致目标预测接近一个热编码,而最大化第一项可以防止所有目标数据被放在同一类中。使用互信息最大化损失鼓励模型学习均匀分布的紧密的目标特征以便保留关于目标数据的更多判别信息。
目标是在全局对齐期间执行更好的域自适应并确保准确的类级对齐,同时在不同类的特征远离时保持同一类的特征接近。因此,在特征空间中实现了正交约束。给定来自数据集D的标记样本 { x i , y i } , F i = g ( x i ) 是网络提取的特征,通过聚类 F i ,使得不同类别的特征应尽可能正交,同一类的特征应尽可能相接近。因此,我们通过引入正交投影损失(OPL) [
L O P = ( 1 − s ) + | d | (6)
其中:
s = ∑ i = 1 n ∑ j = 1 n C S ( f i , f j ) , y i = y j (7)
d = ∑ i = 1 n ∑ k = 1 n C S ( f i , f k ) , y i ≠ y k (8)
其中 C S ( ⋅ , ⋅ ) 表示两个向量的余弦相似函数, | ⋅ | 是取其绝对值,要注意的是公式(7)和公式(8)中的余弦相似函数涉及特征归一化:
C S ( x i , x j ) = x i ⋅ x j ‖ x i ‖ 2 ⋅ ‖ x j ‖ 2 (9)
公式(7)和公式(8)定义了两个类差异,s测量类内特征差异,d测量类间特征差异。通过使s接近1,d接近0来最小化公式(6),以实现最小化类内特征差异和最大化类间特征间距,无论样本来自哪个域。由于OPL的计算需要获得目标样本的标签,因此这里我们使用一种简单有效的方法来获得带伪标签的目标样本。我们根据分类器的预测概率来选择目标样本,让 { p c ( x i t ) | c = 1 C } 表示分类器的softmax层的输出,其中 p c ( x i t ) 表示样本 x i t 属于第c类的概率,C是类别总数。
然后可以得到目标样本的伪标签 y i t = arg max c p c ( x i t ) ,称 p y i t ( x i t ) 为分类置信度得分。通过选择分类置信度得分高于阈值 τ 的目标样本,获得一个带有伪标签的目标样本集 D ˜ T = { ( x i t , y ˜ i t ) } i = 1 n ′ t ,可以由标记的源域样本集 D S = { ( x i s , y i s ) } i = 1 n s 和带伪标签的目标域样本集 D T = { ( x i t , y ˜ i t ) } i = 1 n s 得到有标签的样本集 D = { ( x i , y i ) } i = 1 n ,其中 n = n s + n ′ t 。
简单地最大化类边界可能会导致类之间的负相关性,从而导致过分地关注分离良好的类,不好区分的困难样本被忽视。而正交投影损失倾向于确保不同类特征之间的独立性,以成功地分离类特定特征。尽管目标域的伪标签估计可能有噪声,但正交投影损失在一定程度上对噪声有鲁棒性,能够减少伪标记的错误影响。
因此训练总目标为:
L c ( x s , y s ) + L d ( x s , x t ) + α L I M ( p t , x t ) + β L O P ( x s , x t ) (10)
其中 α 和 β 是超参数。
一个bottleneck模块(Linear → BatchNorm1d → ReLU → Dropout(0.5))和标签预测器(Linear → ReLU → Dropout(0.5) → Linear)组成分类器头部。除了具有单个输出之外,域判别器还与标签预测器共享相同的网络结构。在训练过程中,首先将图像大小调整为256 × 256,然后随机水平翻转,然后随机裁剪并调整图像大小至254 × 254,唯一的变化是,在VisDA-2017 [
比较的方法包括基于CNN的方法ALDA [
将对抗性适应的Swin Transformer作为基准模型(Baseline),与基于CNN的域适应技术相比,优点表现在三个方面:首先,注意力权重和图像内容依赖于内容进行交互,这些交互可以被认为是空间变化的卷积。其次,通过滑动窗口机制实现了长程依赖建模。最后,它结合了CNN和transformer的优势,展现了卓越的潜力。如表1、表2和表3所示,基准模型的绝对精度可以实现与现有技术的基于CNN的方法相当的性能。与目前性能最好的SHOT相比,它在Office-Home数据集 [
Domains | ALDA [
|
TADA [
|
SHOT [
|
CDTrans* [
|
TVT* [
|
SSRT [
|
Baseline | SwinUDA |
---|---|---|---|---|---|---|---|---|
Ar → Cl | 53.7 | 53.1 | 57.1 | 68.8 | 74.89 | 75.17 | 73.91 | 77.80 |
Ar → Pr | 70.1 | 72.3 | 78.1 | 85.0 | 86.82 | 88.98 | 86.66 | 91.19 |
Ar → Rw | 76.4 | 77.2 | 81.5 | 86.9 | 89.47 | 91.09 | 88.80 | 91.85 |
Cl → Ar | 60.2 | 59.1 | 68.0 | 81.5 | 82.78 | 85.13 | 81.54 | 86.81 |
Cl → Pr | 72.6 | 71.2 | 78.2 | 87.1 | 87.95 | 88.29 | 84.59 | 90.52 |
Cl → Rw | 71.5 | 72.1 | 78.1 | 87.3 | 88.27 | 89.95 | 85.88 | 91.05 |
Pr → Ar | 56.8 | 59.7 | 67.4 | 79.6 | 79.81 | 85.04 | 81.62 | 86.61 |
Pr → Cl | 51.9 | 53.1 | 54.9 | 63.3 | 71.94 | 74.23 | 73.10 | 78.21 |
Pr → Rw | 77.1 | 78.4 | 82.2 | 88.2 | 90.13 | 91.26 | 89.76 | 93.25 |
Rw → Ar | 70.2 | 72.4 | 73.3 | 82.0 | 85.46 | 85.70 | 85.37 | 86.81 |
Rw → Cl | 56.3 | 60.0 | 58.8 | 66.0 | 74.62 | 78.58 | 75.53 | 78.03 |
Rw → Pr | 82.1 | 82.9 | 84.3 | 90.6 | 90.56 | 91.78 | 91.20 | 93.85 |
Avg | 66.6 | 67.6 | 71.8 | 80.5 | 83.56 | 85.43 | 83.16 | 87.17 |
表1. Office-Home数据集的精度(%)。CDTrans*使用DeiT基础骨干网。TVT*使用ViT基本骨干网
我们在中等规模的Office-Home数据集上进行了对比实验,其结果如表1所示,提出的方法大大优于基于CNN的顶级无监督域适应技术SHOT (87.17% vs. 71.8%)。可以观察到:当基于CNN的无监督域适应方法TADA仅考虑域对齐时,模型的性能相对较差。相比之下,SHOT的类级对齐模型显示了显著的改进,证明了类级对齐对领域自适应至关重要。并且与基于CNN的无监督域适应方法相比,基于transformer的无监督域适应方法有了进一步的改进。与SHOT相比,考虑类级对齐的CDtrans方法有了显著的改进(从80.5%提高到71.8%),这表明transformer在特征提取方面是强大的。此外,提出的方法使用Swin Transformer进行特征提取,考虑域级别和类级别的对齐,并产生最佳结果。同时,在具有显著的域偏移的Ar → Rw和Cr → Rw任务方面的表现优于SHOT,表明SwinUDA在从具有挑战性的域移动到简单域时具有出色的鲁棒性和泛化能力。
Method | A → W | D → W | W → D | A → D | D → A | W → A | Avg |
---|---|---|---|---|---|---|---|
TADA [
|
94.3 | 98.7 | 99.8 | 91.6 | 72.9 | 73.0 | 88.4 |
SHOT [
|
90.1 | 98.4 | 99.9 | 94.0 | 74.7 | 74.3 | 88.6 |
ALDA [
|
95.6 | 97.7 | 100.0 | 94.0 | 72.2 | 72.5 | 88.7 |
CDTrans* [
|
96.7 | 99 | 100.0 | 97.0 | 81.1 | 81.9 | 92.6 |
TVT* [
|
96.4 | 99.4 | 100.0 | 96.4 | 84.9 | 86.1 | 93.8 |
SSRT [
|
97.7 | 99.2 | 100.0 | 98.6 | 83.5 | 82.2 | 93.5 |
Baseline | 98.4 | 99.3 | 100.0 | 98.2 | 85.5 | 85.3 | 94.4 |
SwinUDA | 99.1 | 99.3 | 100.0 | 984 | 85.8 | 85.0 | 94.6 |
表2. Office-31数据集的精度(%)
为了进一步验证模型的有效性,我们在Office-31数据集上进行了对比实验,其结果如表2所示。提出的SwinUDA总体上优于所有对比的方法,并将最先进的结果平均从93.5%提高到94.6%。尤其是在具有挑战性的转移任务(如A → W和A → D),SwinUDA也显示出显著的改善。与类级对齐方法ALDA和SHOT、域对齐方法TADA、、基于注意力机制的方法TADA相比,所提出的方法优于它们的性能可以表明SwinUDA的每个组件的有效性。上述结果证明,IML的使用可以减轻对目标域内在结构的破坏,而OPL的伪标签辅助计算的使用进一步加强了类内特征的聚类和类间特征之间的分离。实验表明可以在域对齐的同时加强类别对齐,从而提供更好的性能。
Classes | MCD [
|
ALDA [
|
CaCo [
|
SHOT [
|
STAR [
|
TVT* [
|
Baseline | SwinUDA |
---|---|---|---|---|---|---|---|---|
plane | 87.0 | 93.8 | 90.4 | 95.0 | 94.3 | 92.92 | 99.15 | 98.88 |
bcycl | 60.9 | 74.1 | 80.7 | 84.0 | 88.5 | 85.58 | 80.37 | 89.50 |
bus | 83.7 | 82.4 | 78.8 | 84.6 | 80.1 | 77.51 | 86.31 | 87.38 |
car | 64.0 | 69.4 | 57.0 | 73.0 | 57.3 | 60.48 | 55.84 | 68.09 |
horse | 88.9 | 90.6 | 88.9 | 91.6 | 93.1 | 93.60 | 98.19 | 98.64 |
knife | 79.6 | 87.2 | 87.0 | 91.8 | 94.9 | 98.17 | 97.98 | 99.18 |
mcycl | 84.7 | 89.0 | 81.3 | 85.9 | 80.7 | 89.35 | 94.93 | 95.68 |
person | 76.9 | 67.6 | 79.4 | 78.4 | 80.3 | 76.40 | 70.93 | 81.08 |
plant | 88.6 | 93.4 | 88.7 | 94.4 | 91.5 | 93.56 | 86.33 | 89.65 |
sktbrd | 40.3 | 76.1 | 88.1 | 84.7 | 89.1 | 92.02 | 96.54 | 97.81 |
train | 83.0 | 87.7 | 86.8 | 87.0 | 86.3 | 91.69 | 96.20 | 96.95 |
truck | 25.8 | 22.2 | 63.9 | 42.2 | 58.2 | 55.73 | 44.30 | 58.70 |
Avg | 71.9 | 77.8 | 80.9 | 82.7 | 82.9 | 83.92 | 83.92 | 88.46 |
表3. VisDA-2017数据集的精度(%)
为了证明模型具有广泛应用性,使用具有挑战性的VisDA-2017数据集,因为152397幅合成图像和55388幅真实图像之间存在显著的域偏移,示例图像如图4所示。评估了从合成图像到真实图像作为源域到目标域的方法。
图4. VisDA-2017数据集的示例图像
大规模VisDA-2017数据集的结果如表3所示,实验结果表明,与依赖伪标签的ALDA和SHOT相比,提出的方法实现了更高的平均精度和进一步的改进。仔细观察结果,对于该数据集中的“人”,基线非常低,这表明基准模型在这一类别中的分类能力较差,这也说明了提出的方法的两个组件OPL和IML的有效性。相比之下,提出的方法对标签噪声具有一定的鲁棒性,这大大提高了实验结果。
为了了解IML和OPL两个组件的作用,进行的消融研究如表4所示。对于Baseline,IML持续提高分类精度,这表明捕获可转移和判别特征的重要性。引入OPL进一步提高了性能,证明了类内特征聚类的必要性。提出方法为真实的VisDA-2017数据集带来了大规模合成数据的最大改进。我们怀疑VisDA-2017中存在较大的域间隙是主要原因,因为简单地将两个域与较大的域偏移对齐会导致混乱的分布式特征空间。然而,IML可以解决这一挑战,它可以保留有区别的信息。同时OPL从类别级角度出发从特征空间进行约束,可以更好地聚类相似特征。可以观察到,IML和OPL是互补的,当移除任何一个组件时,性能都会下降。
Method | Office-Home | Office-31 | VisDA-2017 | Avg |
---|---|---|---|---|
Baseline | 83.2 | 93.6 | 83.9 | 86.9 |
+IML (wo OPL) | 85.9 | 94.4 | 84.0 | 88.1 |
+OPL (wo IML) | 85.6 | 94.2 | 82.2 | 87.3 |
SwinUDA (ours) | 87.2 | 94.6 | 88.5 | 90.1 |
表4. 各模块的消融研究
图5. Office-31数据集中的Pr → Cl任务的t-SNE,其中红色和蓝色点分别表示源(合成渲染)和目标(真实图像)域
本文提出了一种新的无监督域适应解决方案,即基于Swin Transformer的无监督域自适应(SwinUDA)。将Swin Transformer与简单的对抗性域自适应相结合进行域对齐,结果表明Swin Transformer具有强大的可迁移性。还考虑类级对齐,引入正交投影损失,并使用伪标签来计算该损失。这可以强制相同类特征的良好聚类和不同类特征的分离,导致来自相同类别的样本(无论来自源域或目标域)被拉近,而来自不同类别的样本被推开。为了保留目标域的内在结构,引入了互信息最大化损失来保留更多的目标域信息,并进一步提高模型性能。所提出的方法在进行域对齐的同时保证了精确了类别对齐。大量实验表明,提出的方法优于现有方法。
北京市自然科学基金(No. 8202013);2022年北京建筑大学研究生创新项目(NO. PG2022145)。
范博文,徐志洁. 基于Swin Transformer的无监督域自适应图像分类Unsupervised Domain Adaptation Image Classification Based on Swin Transformer[J]. 建模与仿真, 2023, 12(03): 3051-3062. https://doi.org/10.12677/MOS.2023.123281
https://doi.org/10.1109/CVPR.2017.316
https://doi.org/10.1109/CVPR42600.2020.01247
https://doi.org/10.1109/CVPR.2019.00517
https://doi.org/10.1109/WACV45572.2020.9093579
https://doi.org/10.1109/CVPR42600.2020.00875
https://doi.org/10.1109/ICCV.2019.00814
https://doi.org/10.1109/ICCV48922.2021.01211
https://arxiv.org/abs/1710.06924
https://doi.org/10.1609/aaai.v34i04.5757
https://doi.org/10.1609/aaai.v33i01.33015345
https://doi.org/10.1109/CVPR.2018.00392
https://doi.org/10.1109/CVPR52688.2022.00127
https://doi.org/10.1109/CVPR42600.2020.00913
https://doi.org/10.1109/WACV56688.2023.00059
https://doi.org/10.1109/CVPR52688.2022.00705
https://doi.org/10.1109/CVPR.2017.572
https://doi.org/10.1007/978-3-642-15561-1_16