图像修复是一种利用现有图像信息,对其缺失或损坏部分进行重构的技术。针对当前图像修复方法中存在的结构逻辑不一致性和纹理细节模糊问题,本文基于视觉信息处理原理对修复网络进行设计。在本文中,图像的结构信息首先被解析并传递至处理单元,随后细致的纹理信息被补充,以此逐步构建出对物体的完整视觉认知。通过系统性地编码图像的结构、纹理以及感知特性,构建了多源特征增益的图像修复网络。该网络通过串联ViT (Vision Transformer)和Unet网络,逐级处理全分辨率图像的结构和纹理。为了提升全局关键特征的编码能力,设计了基于通道和稀疏双自注意力的ViT对结构特征进行整合增强,提高图像语义修复能力。采用Unet结构对多源特征进行多尺度融合,并进一步完善修复的细节。此外,还引入了感知风格编码来提高修复效果的感知相似度。通过在Places-365和CelebA-HQ数据集上进行定性实验和常用评价指标的验证,说明了本文方法的优越性。 Image inpainting is a technique that utilizes existing image information to effectively reconstruct its missing or damaged parts. In light of the issues of structural inconsistency and blurred texture de-tails present in current image restoration methods, this paper designs a restoration network based on the principles of visual information processing. In our model, the structural information of an image is initially analyzed and transmitted to the processing unit, followed by the supplementa-tion of detailed texture information, thereby gradually building a complete visual perception of the object. By systematically encoding the structure, texture, and perceptual characteristics of the im-age, an image inpainting network with multi-source feature encoding has been developed. The network employs a concatenation of Vision Transformer (ViT) and Unet networks to progressively process the structure and texture of images at full resolution. The ViT, designed based on channel and sparse dual self-attention mechanisms, integrates and amplifies features to augment the global key feature encoding capability, improving the semantic restoration capacity of the encoder. The Unet structure enables multiscale fusion of multisource features and further refinement of image inpainting details. Additionally, perceptual style encoding is introduced to heighten the perceptual similitude of the restoration effect. Qualitative experiments conducted on the Places-365 and Cele-bA-HQ datasets, along with validation using common evaluation metrics, underscore the supe-riority of the proposed method.
图像修复是一种利用现有图像信息,对其缺失或损坏部分进行重构的技术。针对当前图像修复方法中存在的结构逻辑不一致性和纹理细节模糊问题,本文基于视觉信息处理原理对修复网络进行设计。在本文中,图像的结构信息首先被解析并传递至处理单元,随后细致的纹理信息被补充,以此逐步构建出对物体的完整视觉认知。通过系统性地编码图像的结构、纹理以及感知特性,构建了多源特征增益的图像修复网络。该网络通过串联ViT (Vision Transformer)和Unet网络,逐级处理全分辨率图像的结构和纹理。为了提升全局关键特征的编码能力,设计了基于通道和稀疏双自注意力的ViT对结构特征进行整合增强,提高图像语义修复能力。采用Unet结构对多源特征进行多尺度融合,并进一步完善修复的细节。此外,还引入了感知风格编码来提高修复效果的感知相似度。通过在Places-365和CelebA-HQ数据集上进行定性实验和常用评价指标的验证,说明了本文方法的优越性。
图像修复,Vision Transformer,Unet,通道注意力,感知风格
Xiaohong Wang, Shihao Xu, Xu Zhao, Kun Xu
College of Communication and Art Design, University of Shanghai for Science and Technology, Shanghai
Received: Dec. 27th, 2023; accepted: Mar. 8th, 2024; published: Mar. 15th, 2024
Image inpainting is a technique that utilizes existing image information to effectively reconstruct its missing or damaged parts. In light of the issues of structural inconsistency and blurred texture de-tails present in current image restoration methods, this paper designs a restoration network based on the principles of visual information processing. In our model, the structural information of an image is initially analyzed and transmitted to the processing unit, followed by the supplementation of detailed texture information, thereby gradually building a complete visual perception of the object. By systematically encoding the structure, texture, and perceptual characteristics of the image, an image inpainting network with multi-source feature encoding has been developed. The network employs a concatenation of Vision Transformer (ViT) and Unet networks to progressively process the structure and texture of images at full resolution. The ViT, designed based on channel and sparse dual self-attention mechanisms, integrates and amplifies features to augment the global key feature encoding capability, improving the semantic restoration capacity of the encoder. The Unet structure enables multiscale fusion of multisource features and further refinement of image inpainting details. Additionally, perceptual style encoding is introduced to heighten the perceptual similitude of the restoration effect. Qualitative experiments conducted on the Places-365 and Cele-bA-HQ datasets, along with validation using common evaluation metrics, underscore the superiority of the proposed method.
Keywords:Image Inpainting, Vision Transformer, Unet, Channel Attention, Perceptual Style
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
图像修复任务旨在通过特定方法对图像中损坏的区域进行重建,使修复后的图像尽可能接近现实图像。由于其广泛的应用价值,图像修复技术已在日常生活中得到普遍应用。例如,街景现实图像的重建 [
复杂内容图像是指具有多种结构、纹理和形状的图像。随着卷积神经网络(Convolutional Neural Network, CNN)的发展,基于深度学习的方法在图像修复领域取得了显著的进展。这些方法将图像修复视为一个基于条件的图像生成问题,利用CNN的编解码器结构作为生成模型,通过在大规模的数据集上进行训练,将学习到的知识填充到目标区域 [
随着深度学习的发展,自然语言处理领域流行的自注意力机制Transformer被应用到了视觉任务中。与CNN不同,注意力操作符的权重会根据输入动态调整,能够通过显式地与全局特征交互,更好地捕捉长距离的依赖关系。Dosovitskiy [
目前的图像修复网络可以大致分为三类:单生成器网络、多生成器网络和渐进式网络。单生成器网络 [
针对上述问题,本文通过采用多生成器和渐进式网络的思想,通过多个网络分别提取不同属性的特征,提出了一种基于多源特征增益编码的图像修复网络。本文的主要贡献如下:
• 以视觉捕捉原理为出发点,构建了一个网络框架,依次对结构和纹理信息进行编码,并运用通道注意力(Efficient Channel Attention, ECA)的UNet网络对结构、纹理、感知等多源特征进行融合。
• 设计了通道和稀疏双自注意力ViT (Channel Sparse Dual Attention Vision Transformer, CSDA),通过双重注意力机制遮蔽无效信息,使网络能够自适应地学习复杂图像重建的全局依赖关系,从而获得更准确的结构信息。
• 在Unet网络中,通过在不同深度层加入ECA通道注意力,实现对不同特征的渐进融合,使网络能够更有针对性地关注需要修复的区域,从而增强特征的表达。
本文提出的网络框架如图1所示,由两个核心模块组成:基于通道稀疏双注意力机制的ViT模块,它能够自适应地学习复杂图像重建的全局依赖关系;基于ECA [
图1描述了网络的总体结构以及核心的网络模块。在这个网络中,输入图像IM带有掩码,并通过一个经过视觉捕获设计的修复网络进行处理,经过多源特征的融合后,最终得到修复图像。具体来说,输入一个带有掩码的图像IM(IM∈R,H × W × 3),其中H × W表示特征图的空间分辨率,利用3 × 3卷积将特征图进行下采样的同时把其扩展到一个更高维的特征空间。然后,特征图将通过“浅–深–浅”设计的ViT Block,其中每个Block中由多个CSDA组成,各级编码器网络都具有不同的通道数和分辨率。为了增加模型训练的稳定性,增加了跳跃连接来跨越连续的中间特征。为了将不同编码器得到的特征进行增益融合,本文采用多尺度逐级特征融合,由一组对称的“5 + 5”Unet编码器–解码器组成,随着编码器像素信息逐级缩小,特征信息逐级加深,在编码器中引入ECA进行特征逐级融合,这种的方式可以学习图像不同尺度的特征信息,进而重建出合理的图像纹理和结构。
图1. 多源特征增益编码网络框架
图2. 通道稀疏双注意力Transformer模块的注意力部分
旨在提升图像全局结构修复的编码能力,因此设计了一种通道稀疏的双自注意力机制,以替换ViT中常用的多头自注意力机制。如图2所示,该过程首先采用1 × 1卷积对通道级上下文进行编码,随后通过3 × 3深度卷积生成查询(Q)、键(K)和值(V)。这一步骤能够计算出Q与K之间所有像素对的注意力值P,从而有效地增强了图像修复编码的精确性和效率。
P = Q K T d (1)
其中, d = C / k 为头部尺寸,k为头部编号。在稀疏自注意方面,对P进行了一个简单而有效的掩蔽函数M来选择top-k,对每一行的相似度矩阵进行分析。对于小于阈值的其他元素,用0替换它们。这一步可以进一步过滤掉嘈杂的信息,并加训练过程:
M ( P , k ) i j = { P i j P i j > 阈 值 0 P i j < 阈 值 (2)
其中,阈值是行的第k个最大值。最后,将Channel Attention和Sparse Attention的加权和矩阵乘以 V 得到CSDA的最终输出:
A t t e n t i o n = S o f t m a x ( P ) + s o f t m a x ( M ( P , k ) ) (3)
在每个CSDA中,给定在第(k − 1)块Xk−1处的输入特征,CSDA的编码过程可以如公式(4) (5)所示:
X ′ k = X k − 1 + C S D A ( L N ( X k − 1 ) ) (4)
X k = X ′ k + F N ( L N ( X ′ k ) ) (5)
其中, X ′ k 和 X k 表示CSDA和前馈网络(Feed forward Network, FN)的输出,LN是指图层的归一化。在完成CSDA全局特征编码后,将全局特征、感知风格通过多源特征融合模块进行分层融合后得到修复结果。
图3. ECA特征融合模块
为了对特征进行增益编码,在编码器中加入了特征融合模块,把通过CSDA特征编码模块和感知风格编码得到的 β 0 , β 1 , β 2 , β 3 (见图1)逐级融合进特征网络。其中特征融合模块中引入了ECA,如图3所示,将输入特征图通过平均池化(Average Pooling)获得聚合特征 [ C , 1 , 1 ] ,之后通过执行卷积核大小为k的一维卷积来生成通道权重,最终将权重作用于原特征图。其中k通过通道维度C的映射自适应确定,公式(6)所示:
k = | ( log C + 1 ) 2 | o d d (6)
k表示卷积核大小,C表示通道数,odd表示k只能取奇数。在融合过程中引入注意力机制可以在保持较高的计算效率同时帮助修复网络区分输入特征中的重要信息和噪声或缺失部分。通过学习到的注意力权重分布,网络能够更加集中地关注需要修复的区域,提高修复结果的准确性和质量。
感知风格编码模块由10层网络构成,如图4所示,该模块由3层下采样、3层卷积、2个AdaIN [
图4. 感知风格编码模块
如上图4所示,首先在特征空间中对图像IM和感知风格特征W进行编码,将两个特征送入AdaIN层,AdaIN层将图片特征映射的均值和方差与感知风格特征映射的平均和方差对齐,产生目标特征映射t,公式表示为:
t = A d a I N ( f ( c ) , f ( s ) ) (7)
特征t在网络空间中向后传递,最终得到感知风格特征 β 0 ,其中AdaIN的公式表示为:
A d a I N ( x , y ) = σ ( y ) ( x − μ ( x ) σ ( x ) ) + σ ( y ) (8)
接收内容输入x和样式输入y,并简单地对齐x的通道均值和方差以匹配y的均值和方差。AdaIN通过传递特征统计量,特别是信道均值和方差,在特征空间中进行风格传递。
本文的损失函数由三部分组成:1) 对抗损失;2) 重构损失 [
L = L a d v + ω 1 L p e r + ω 2 L r e c (9)
本文引入了感知损失是基于生成图像和目标图像之间的CNN特征差分定义,与传统的均方误差损失函数相比,感知损失更注重图像的感知质量,更符合人眼对图像质量的感受。令 φ 来表示损失网络, C j 表示网络的第j层, C j H j W j 表示第j层的特征图的大小,定义为:
L P e r = 1 C j H j W j ‖ φ j ( y ) − φ j ( y ˙ ) ‖ 2 2 (10)
经过实验对比,其中损失项的平衡参数 ω 1 = 1 , ω 2 = 1000 时,模型收敛效果最佳。
本文使用两个常用图像修复公共数据集:Places-365 [
本文提出的网络基于pytorch 1.9框架实现,训练和测试系统均采用Nvidia GeForce GTX 3090Ti 24G GPU。该网络使用256 × 256图像进行训练,使用Adam优化器 [
图5. Places-365数据集不规则掩码修复比较
图6. CelebaA-HQ数据集不规则掩码修复比较
图7. Places-365数据集规则掩码修复细节比较
FID↓ | SSIM↑ | PSNR↑ | |||||||
---|---|---|---|---|---|---|---|---|---|
遮挡范围 | 20%~30% | 30%~40% | 40%~50% | 20%~30% | 30%~40% | 40%~50% | 20%~30% | 30%~40% | 40%~50% |
CA [
|
18.57 | 31.12 | 45.72 | 0.86 | 0.81 | 0.71 | 25.02 | 23.20 | 21.45 |
EC [
|
15.22 | 21.13 | 37.61 | 0.86 | 0.82 | 0.76 | 27.21 | 24.26 | 21.43 |
Deep Fill [
|
11.32 | 19.56 | 24.56 | 0.89 | 0.85 | 0.77 | 29.71 | 25.33 | 23.79 |
CTSDG [
|
9.47 | 17.65 | 22.61 | 0.89 | 0.83 | 0.76 | 27.79 | 24.76 | 21.03 |
ZITS [
|
10.21 | 17.94 | 19.52 | 0.92 | 0.87 | 0.85 | 29.53 | 27.48 | 24.54 |
MAT [
|
9.20 | 15.01 | 17.39 | 0.93 | 0.88 | 0.82 | 33.74 | 28.42 | 25.78 |
本文 | 8.90 | 14.51 | 16.92 | 0.93 | 0.90 | 0.85 | 35.24 | 29.13 | 26.21 |
表1. 在Places-365数据集上不规则掩码修复对比
FID↓ | SSIM↑ | PSNR↑ | |||||||
---|---|---|---|---|---|---|---|---|---|
遮挡范围 | 20%~30% | 30%~40% | 40%~50% | 20%~30% | 30%~40% | 40%~50% | 20%~30% | 30%~40% | 40%~50% |
CA [
|
10.45 | 15.42 | 20.74 | 0.86 | 0.84 | 0.81 | 27.76 | 25.59 | 23.56 |
EC [
|
8.65 | 13.56 | 19.17 | 0.86 | 0.85 | 0.81 | 28.45 | 25.98 | 23.31 |
Deep Fill [
|
4.53 | 7.32 | 10.32 | 0.91 | 0.86 | 0.83 | 30.19 | 28.71 | 25.54 |
CTSDG [
|
4.32 | 6.56 | 10.02 | 0.93 | 0.91 | 0.85 | 31.19 | 29.93 | 25.78 |
MAT [
|
2.43 | 4.03 | 4.63 | 0.95 | 0.91 | 0.90 | 35.54 | 32.03 | 28.56 |
本文 | 2.01 | 3.45 | 4.76 | 0.94 | 0.93 | 0.88 | 37.03 | 34.92 | 29.65 |
表2. 在CelebA-HQ数据集上不规则掩码修复对比
为了客观展现修复结果,本文在对比方法时使用相同的输入数据。图5展示了通过EC [
如图5所示,EC是通过预测边缘信息来指导修复过程,对具有稀疏损坏的图像生成的修复结果往往具有合理的语义结构,但是不能对损坏图像进行合理的像素级别的修复。Deepfill利用可以更新Mask的门控卷积进行特征提取修复,但由于缺乏全局结构信息导致图中修复产生了杂乱无章的修复结果。CTSDG利用结构和纹理相互指导的修复方法,可以看到图中已经拥有了丰富的纹理信息,但结构信息未能合理编码,结构修复的方面产生了一些错误。ZITS、MAT的修复结果相对传统方法的结构更加完整,但在多个尺度的特征融合时仍存在不足,导致产生一些明显的不合理图像和伪影。本文方法在Places-365数据集上较好的完成了结构和纹理的修复,在视觉上未产生明显的不合理部分。此外,本文在人脸数据集CelebA-HQ的修复中也取得了良好的表现,得益于CSDA网络的无效信息自适应遮蔽,即使在不规则的修复区域,也能较完整地捕捉图像的语义信息进行修复。与其他修复方法相比,本文展现出更好的细节修复效果。
本文从前文的方法中选择了CTSDG、ZITS、MAT (年份最新的3种方法)进行比较,并展示了修复细节。从图7中的表现可以看出,本文提出的修复方法能够有效地补充纹理信息和结构信息,由于图7第二排图的电梯结构有效信息已经完全被遮挡,所以修复的结果无法同原图完全相同,但本文修复后的图像未产生伪影和错误结构,且该图在视觉上看起来更加合理,在复杂图像的修复上展现出了优异的性能。
本文在测试集中为每张图像设计了不同尺寸的损坏区域,即不同比例的掩码面积,并应用了六种不同的图像修复方法以获得修复效果。为了量化评估图像的失真或噪声水平,本研究采用了PSNR (峰值信噪比)作为标准;而为了衡量原始图像与修复结果之间的结构相似度,采用了SSIM (结构相似性指数)。此外,鉴于感知损失与风格损失在网络中的重要性,本文采用FID [
模型 | Params (M) | FID↓ | SSIM↑ |
---|---|---|---|
MTA + FN | 55.31 | 21.56 | 0.84 |
MDTA + FN | 57.31 | 21.34 | 0.84 |
MDTA + GDFN | 58.16 | 21.45 | 0.85 |
CSDA + GDFN | 60.12 | 20.78 | 0.89 |
CSDA + FN | 58.20 | 20.71 | 0.89 |
表3. Transformer内部多种自注意力的评价指标对比
模型 | FID↓ | SSIM↑ | PSNR↑ |
---|---|---|---|
Unet | 21.43 | 0.85 | 25.98 |
Unet + CSDA | 15.78 | 0.86 | 27.39 |
ECA-Unet + CSDA | 14.98 | 0.88 | 29.01 |
本文方法 | 14.51 | 0.90 | 29.13 |
表4. 不同模块下的评价指标对比
为了证明本文CSDA模块对修复结果的影响,本节对CSDA模型进行了消融实验,对比本文方法的以下变体 [
为了深入探讨多源特征编码的有效性,本文设计了以下实验:首先移除了编码全局结构的CSDA;接着剔了UNet特征融合过程中的ECA模块;最后比较了去除提升多样性感知风格模块后的效果。通过
图8. 感知风格编码模块消融实验对比效果
这些实验设置,表4中的数据清晰地揭示了模型性能的显著降低,从而验证了本文方法中结合多源特征的重要性。这一点在ViT和UNet的串联机制中表现尤为明显。此外,移除感知风格编码后,测试结果在所有评价指标上均显示性能下降,尤其是在FID和PSNR指标上。这一现象表明图像在保真度方面有所损失,说明感知风格编码在图像重建中提供了关键的潜在空间。图8展示了几个可视化示例,其中A、B示例未应用感知风格编码模块,而C、D则展示了本研究方法的输出效果。相比之下,本文方法不仅在视觉效果上更为出色,还展现了更高的多样性。
实验研究结果展现了本文提出的多源特征增益编码的图像修复网络在复杂图像修复领域的优秀性能。复杂图像通常包含丰富的纹理、结构和空间关系特征,本文通过串联结构–纹理特征编码策略,有效融合了全局和局部信息,从而增强了修复能力。本文在Place365和CelebA-HQ两个数据集上进行了实验,将稀疏注意力和通道注意力机制引入Transformer能够更加有效地关注结构信息,在定量和定性的实验评估中均表现出显著提升。此外,感知风格编码的引入使得图像修复结果更加多样化,在多尺度下融合多种特征可以实现特征间的有效适配。与传统图像修复方法相比,本文方法不仅能生成更高精度和清晰度的图像,还在处理各种范围和形状的掩码修复任务中展现了适应性。综上所述,本文提出的图像修复网络模型在实际应用场景中具有广泛的应用潜力和前景。
王晓红,徐世豪,赵 徐,徐 锟. 多源特征增益编码的图像修复网络Image Inpainting Networks with Multi-Source Feature Encoding[J]. 建模与仿真, 2024, 13(02): 1183-1194. https://doi.org/10.12677/MOS.2024.132111
https://doi.org/10.1109/TVCG.2021.3067768
https://doi.org/10.1109/ICRA.2019.8794417
https://doi.org/10.1109/TCSVT.2020.2967754
https://doi.org/10.1109/ASYU56188.2022.9925541
https://doi.org/10.1109/IMCEC55388.2022.10020135
https://doi.org/10.1016/j.patcog.2022.109046
https://doi.org/10.1109/CVPR.2018.00577
https://doi.org/10.1109/TIP.2005.854466
https://doi.org/10.1016/j.cviu.2020.103155
https://doi.org/10.1007/978-3-319-24574-4_28
https://doi.org/10.1007/978-3-030-01264-9_1
https://doi.org/10.1007/978-3-030-01252-6_6
https://doi.org/10.1109/ICCV.2019.00457
https://doi.org/10.1109/CVPR52688.2022.01107
https://doi.org/10.1109/ICCV48922.2021.00465
https://doi.org/10.1109/CVPR52688.2022.01049
https://doi.org/10.1016/j.imavis.2006.01.015
https://doi.org/10.1007/978-3-030-01216-8_1
https://doi.org/10.1109/TIP.2022.3152624
https://doi.org/10.1109/ICCV48922.2021.01387
https://doi.org/10.1109/ICCV48922.2021.01429
https://doi.org/10.1109/CVPR42600.2020.00813
https://doi.org/10.1109/ICCVW.2019.00408
https://doi.org/10.1109/CVPR42600.2020.01155
https://doi.org/10.1109/ICCV.2017.167
https://doi.org/10.1109/TCI.2016.2644865
https://doi.org/10.1007/978-3-319-46475-6_43
https://doi.org/10.1109/TPAMI.2017.2723009
https://doi.org/10.1109/ICCV.2015.425
https://doi.org/10.1109/CVPR52688.2022.00564