基于多模态特征融合的图像编辑模型

期刊菜单

基于多模态特征融合的图像编辑模型
Image Editing Model Based on Multi-Model Feature Fusion

DOI: 10.12677/csa.2024.146153, PDF, HTML, XML,
作者: 杜佳俊, 兰红：江西理工大学信息工程学院，江西赣州
关键词: 图像编辑；扩散模型；特征融合；交叉注意力机制；Image Editing； Diffusion Model； Feature Fusion； Cross Attention Mechanism

摘要: 为了实现更可控的编辑效果，目前基于条件导向的图像编辑工作大部分都是设置了一定的文本条件引导。然而文本和图像是两种不同的模态，因此如何从不同模态的数据中有效地检索和融合不同模态的信息是图像编辑中一个很大的挑战。针对图像和文本之间的信息无法很好的深度交互的问题，提出了一种基于多模态特征融合的MFF图像编辑模型。首先利用多模态模型BLIP对编辑文本进行适应性优化，以便指导生成模型偏向生成更符合语义的图像，然后对源文本嵌入和Unet网络参数进行联合训练，再采用交叉注意力机制在U-Net网络中增强视觉感知能力来融合图文特征，最后将融合的特征经过预先训练的图文生成扩散模型得到与文本描述相关的编辑图像。在COCO数据集上的定量实验结果表明，相比于其他基线模型最好的实验结果，MFF模型在MS-SSIM度量指标提高了12.5%、在LPIPS指标上降低了26.2%，表明模型在实现图像和文本之间的特征融合方面更加有效。

Abstract: To achieve more controllable editing effects, most current condition-guided image editing works rely on text-based conditions. However, text and images represent two different modalities, making it a significant challenge to effectively retrieve and integrate information from different modalities in image editing. To address the issue of limited deep interaction between image and text information, a Multi-Modal Feature Fusion (MFF) image editing model is proposed. First, an adaptive optimization of the editing text is performed using the multi-modal model BLIP to guide the generation model towards producing images that better align with the semantics. Subsequently, joint training of the source text embeddings and U-Net network parameters is conducted, and a cross-modal attention mechanism is employed within the U-Net network to enhance visual perception capabilities for fusing visual and textual features. Finally, the fused features are passed through a pre-trained image-text generation diffusion model to obtain edited images related to the text description. Quantitative experimental results on the COCO dataset show that, compared to other baseline models, the MFF model achieved a 12.5% improvement in the MS-SSIM metric and a 26.2% reduction in the LPIPS metric, indicating its greater effectiveness in feature fusion between images and text.

文章引用：杜佳俊, 兰红. 基于多模态特征融合的图像编辑模型[J]. 计算机科学与应用, 2024, 14(6): 164-176. https://doi.org/10.12677/csa.2024.146153

1. 引言

近年来，随着深度学习的快速发展，越来越多的研究工作利用多种模态融合得到的信息来提升对数据的处理能力。在计算机视觉中，通过将其他模态和图像模态融合起来，可以实现更精准的图像处理。图像编辑在计算机视觉中是一个基础的研究问题，是指修改一张图片中的内容或者样式，无论是在学术上还是工业上，都是具有价值的，并有着丰富的应用场景。因此，近期来图像编辑相关的工作不断涌现。然而，大多数方法要么局限于特定的编辑类型(例如：对象覆盖，样式转移)，要么适用于综合生成的图像，要么需要多个输入公共对象的图像。

为了解决上述问题，越来越多的研究者利用简单的自然语言文本提示描述来控制图像编辑，使图像编辑变得特别令人印象深刻，因为这与人类通信很好地一致。根据模型骨架的不同，现有的文本引导的图像编辑模型可划分为基于GAN (Generative Adversarial Networks)模型的方法和基于扩散模型的方法。在基于GAN模型的基础上，现有的图像编辑方法通过语义分割来寻找编辑区域，提出了EditGAN [1]、SemanticStyleGAN [2]、StyleGAN3 [3]方法。然而，传统的GAN并不可控，上述的方法虽然改善了这一点，但是存在很难实现对编辑图像细粒度控制的问题，且只能应用于人脸数据集中，无法泛化到其他的数据集，这限制了模型训练在其他数据集的有效性和泛化性，在数据量少的情况下还容易出现过拟合问题。由于基于GAN模型的方法建模能力有限，且训练收敛存在问题，而扩散模型解决了这一问题，因此很多基于扩散模型的方法被提出。在基于扩散模型的基础上，现有的图像编辑方法通过条件引导来实现图像编辑，提出了Paint By Example [4]、Glide [5]、Imagic [6]等方法，这些方法相比于之前基于GAN模型的方法来说，生成的内容更加多样性，并具有高保真度。但是这些方法也存在一些问题，比如扩散模型需要的计算资源十分庞大，还有这些方法中，每一张图像都需要提供一段自然语言描述或一个样本和一个含有编辑区域的遮罩，这使得还需要手工标注编辑区域。

在文本引导的图像编辑中，从不同模态的数据中有效地检索和融合不同模态的信息仍然是一个很大的挑战。由于文本和图像是两个不同的模态，所以如果要将两者信息进行融合，就需要解决模态之间信息对齐的问题。文本引导的图像编辑是基于输入的文本描述以及图像的结构层面进行编辑，通过输入文本的描述，对应的图像区域相应改变，从而生成更符合用户需求的图像。由于图像编辑模型很难准确地根据文本描述定位到编辑区域，且跨模态编辑图像是十分困难的，因此如何在编辑过程中直接有效的定位到编辑区域是一个挑战。

针对以上问题，主要挑战有三个方面：一是如何将语义上的特征映射到图像结构上，这要求模型不仅需要充分理解包含在图像中的结构信息，还需要理解文本信息中的语义信息；二是如何结合文本的语义信息得到更为准确的编辑效果；三是如何提升训练效率以及节省计算资源。因此，本文提出了一种基于多模态特征融合的图像编辑模型MFF (Image Editing Model Based On Multi-scale Feature Fusion, MFF)。通过预训练CLIP [7]的文本编码器以及图像编码器对文本特征和图像特征的抽取，MFF模型将图像和文本的信息分解为细粒度的语义单元，充分融合文本的语义信息和图像的局部信息。再联合训练源文本嵌入和Unet网络参数，增强模型学习能力以及重建质量。再利用交叉注意力机制建立这两种模态之间的关系，增强视觉感知能力，从而增加了文本与图像对应区域的联系。本文主要贡献如下：

a) 提出了一种基于多模态特征融合的图像编辑模型MFF，利用图像和文本特征融合可以更加有效的控制编辑区域内容的生成，以及生成符合编辑区域与文本描述有关的图像，并没有破坏非编辑区域的内容。

b) 构建了一种深度感知的图文信息融合网络，利用了交叉注意力机制增强图像和文本之间的感知能力，有助于模型可以通过文本定位到图像中的编辑区域。

c) 提出了一种对多模态模型BLIP提取的源文本嵌入和预先训练的扩散模型Stable Diffusion的Unet网络参数联合训练的微调策略，有助于帮助模型提升图像重建质量，以及生成更加多样的结果，而且降低了训练效率以及计算资源。

d) 在LAION [8]数据集上训练模型，再在COCO [9]数据集上，通过定量定性实验和消融实验验证了本文所提模型的有效性。

2. 相关工作

基于文本引导的图像编辑相关的工作主要包括基于GAN模型的方法和基于扩散模型的方法。基于GAN模型的方法是经典的主流方法，大多数做图像编辑任务的工作都是基于GAN模型提出的，而基于扩散模型的方法是近两年来在图像编辑和生成方面较为新颖的方法。

2.1. 基于GAN模型的图像编辑

近年来，文本引导的图像编辑受到越来越多的关注。为提升文本和图像融合的有效性，有学者通过利用语义分割来增强视觉感知能力，如SemanticStyleGAN [2]通过在潜在空间中基于语义分割掩码来构建图像编辑区域和文本之间的融合网络，从而控制编辑图像的属性。虽然在人脸数据集上取得了不错的实验效果，但是很难泛化到其他的数据集中，或者说在其他数据集中效果很差。EditGAN [1]引入了图像嵌入W+空间来使得图像嵌入具有语义，以此将图像及其语义分割进行联合分布，从而实现图像编辑任务。这些通过利用语义分割的工作都存在一些问题，比如语义理解有偏差、不能精细控制图像的生成和效率较差等。

为了降低训练效率，有许多学者开始利用预训练的GAN生成器和文本编码器来根据文本提示渐进地编辑图像，更加优化到预先想好的效果。比如，Nam等人[10]提出了基于文本自适应鉴别器的TAGAN模型，它是根据描述视觉属性的文本，利用其语义修改图像中的物体属性。为了解决GAN生成模型中堆叠式结构的缺陷，以及提升文本与图像融合的有效性，一种更加简单且有效的深度融合生成式网络DF-GAN [11]被提出，它是基于一个新的深度文本–图像融合模块将文本和视觉特征之间进行充分的融合。为了能够有效的控制生成图像的属性，Karras等人[12]提出了StyleGAN生成模型，通过添加可通用的映射网络学习特征解耦，实现了逼真的图像生成效果。之后为了解决StyleGAN模型[11]出现的水滴问题，提出了StyleGAN2 [13]，提升了模型生成图像的质量，而且该模型不仅可以生成逼真的图像，还可以编辑物体细节部分。由于CLIP [7]强大的图文能力，Patashnik等人[14]构建了一个基于StyleGAN [13]和CLIP [4]的StyleCLIP模型。然而，虽然这些方法在效果上让人感到惊讶，但由于这些基于GAN的方法建模能力有限，因此在编辑复杂场景或者各种对象的图像时存在很大的困难。

2.2. 基于扩散模型的图像编辑

近年来，随着大规模生成模型的不断发展，基于扩散模型的方法[15]-[19]迅速兴起和发展，并且已经可以合成高质量和多样化图像的强大能力。为了能够更简单的编辑图像，很多工作都是通过条件引导扩散模型的图像编辑。例如，为了更加精确的控制图像编辑，基于样本引导的Paint By Example [4]被提出，通过自监督训练来对源图像进行解耦并与样本重新组织来实现图像编辑。这类工作是通过样本提供更多的语义信息，再通过掩码框来定位编辑区域，虽然达到了局部可控生成的效果，但是忽视了细粒度信息。为了解决图像边缘出现模糊或失真问题，SketchFFusion [20]引入了草图引导作为图像编辑的条件，在增强了条件引导的能力之外，还显著减少了扩散模型本身的训练时间和计算资源。然而这存在的问题是只能利用二进制的草图作为输入，而不能使用彩色草图。SDEDit [21]将中间噪声添加到图像(可能通过用户提供的画笔笔划增强)，然后使用基于所需编辑的扩散过程对其进行降噪，该过程仅限于全局编辑。这些通过条件引导的图像编辑都是需要通过人工标注的条件来完成图像编辑的，这提升了图像编辑的复杂度。还有一部分研究是将现实中的一些概念引入到图像生成中，比如Textual Inversion [22]和DreamBooth [23]在给定3~5个主题图像和目标文本的情况下合成给定主题的新颖视图(而不是编辑单个图像)，其中DreamBooth需要额外生成的图像来微调模型。这些方法都是基于扩散模型的基础上加以改进，从而实现了高保真度且可控的图像编辑。虽然同样可以生成逼真的效果，但是并不能实现图像编辑效果。

为了解决需要通过人工标注的问题，Liu等人[24]用文本和图像指导扩散过程，合成与给定图像相似的图像，并与给定文本对齐。通过借助预先训练的扩散模型，Kim等人[25]引入了一种新的DiffusionCLIP模型，该模型通过反转扩散模型来执行文本驱动的图像操作。Hertz等人[26]通过操纵交叉注意力层来改变文本到图像的扩散过程，对生成的图像提供更细粒度的控制，并且可以在DDIM [16]反演提供有意义的注意力图的情况下编辑真实的图像。这些工作需要的计算资源是十分庞大的，因此许多工作开始通过对预训练的大规模文本到图像生成模型进行微调来适应图像编辑任务，如SINE [27]提出了一种新的基于预训练模型的指导方法，通过将训练单张图片得到的知识蒸馏网络联合预训练的扩散模型来创造内容，该方法降低了训练效率和减少了计算资源的耗费。因此本文也采用了预训练扩散模型作为基本骨架，但对模型的设计进行了改进。

3. 图像编辑模型结构

3.1. 模型整体结构和模块

为了建立图像信息和文本信息之间的联系，本文设计了一种基于多模态特征融合的图像编辑模型MFF。

该模型先通过多模态模型BLIP [28]对源图像进行视觉语言生成，得到符合图像语义的文本，作为源文本嵌入，然后将源文本嵌入和预训练模型Stable Diffusion中的Unet网络参数进行联合训练，最后利用交叉注意力机制来增强视觉感知能力，模型的总体框架结构如图1所示。

Figure 1. Overall framework structure of MFF

图1. MFF总体框架结构

本文将基于图像和文本特征融合的图像编辑任务定义为：首先用户给定一张原始的待编辑图像I和一段自然语言描述T，然后模型自动根据文本描述编辑所对应的图像区域，最后通过某种方式将两种模态的信息进行对齐融合，并保留非编辑区域的内容。

模型分为两个阶段进行如图1所示：1) 基于多模态模型BLIP生成源文本并与预训练模型Diffusion Model中UNet网络参数进行联合训练。2) 基于源文本和目标文本的插值方法优化编辑对象。

3.2. 利用多模态模型生成源文本

为了模型能够更好地遵循文本提示引导编辑图像，本文利用了BLIP模型规范输入文本。MFF中使用的预训练BLIP模型的核心组件主要包括两个部分：视觉编码器、文本解码器。预训练BLIP模型的编码器参数是冻结的，因此无需训练，节省资源，生成文本的主要过程如图2所示。

Figure 2. BLIP generate source text process

图2. BLIP生成源文本过程

1) 视觉编码器的目的是为源图像提取视觉表示，得到视觉特征,其中C、H、W分别表示通道数、高度和宽度。

2) 将视觉编码器提取的视觉特征输入到文本编码器中，得到与图像相对应的语言描述，这段语言描述是模型预测的结果。具体来说，是通过交叉注意力与视觉特征进行交互，并递归地预测下一个单词。

3.3. 基于交叉注意力机制增强模型视觉感知能力

文本和图像是两种模态特征，因此如何将它们融合在一起对于生成效果至关重要。在融合这两种模态之前，需要建立两种模态之间的对应关系。为了让图像特征和条件文本特征更加有效的融合起来，在图文信息融合层中构建了一种深度感知的图文信息融合网络，图文信息融合网络如图3所示。

Figure 3. Image and text information fusion network

图3. 图文信息融合网络

两种模态之间的融合是在U形网络中进行的，基础的U形网络中的注意力机制并不是交叉注意力，因此不能很好的将图像特征和文本特征进行融合，因此本文所提出来的深度感知的图文信息融合网络是利用了交叉注意力机制来增强视觉感知能力。构建的融合网络是在编码器和解码器之间加入了用于关注文本条件嵌入的交叉注意力，并且为了防止网络在下采样过程中丢失重要信息，在编码器的下采样和解码器的上采样之间添加了连接。在融合期间，交叉注意力机制为每个文本标记与对应的图像区域产生空间注意力图，产生空间注意力图的步骤有三步：

第一步：设噪声图像的中间空间特征为 $ϕ ({\overset{⌢}{z}}_{t})$ ，将噪声图像的中间空间特征 $ϕ ({\overset{⌢}{z}}_{t})$ 投影到一个查询矩阵Q中，并且条件文本嵌入 $c_{θ} (y)$ 被投影到键矩阵K和值矩阵V，因此注意力映射M如公式(1)所定义，其中得到的 $M_{i, j}$ 是指在像素i上的第j个文本标记值的权重，d是Q和K的维度。

$M = S o f t \max (\frac{Q K^{T}}{\sqrt{d}})$ (1)

第二步：然后定义注意力映射输出为 $\overset{⌢}{ϕ} ({\overset{⌢}{z}}_{t}) = M V$ ，主要是用于更新噪声图像的中间空间特征 $ϕ ({\overset{⌢}{z}}_{t})$ ，从而产生更为精确的图像特征。

第三步：最后通过多次图文信息融合网络将图像特征和条件文本特征进行融合之后，得到最终的图像特征 ${\overset{⌢}{z}}_{t}$ ，并将其输入到图像生成层中。

3.4. 联合训练源文本嵌入和UNet网络参数

在给定目标提示和图像的情况下，文本引导的图像编辑方法根据目标文本对图像进行编辑，这不仅是要求编辑目标成功改变，而且要求非编辑区域保持不变。由于扩散模型可以合成高质量和多样化图像的强大能力，并且预训练的扩散模型能够更好、更节省资源地实现训练，因此本文采取了微调Diffusion Model模型以便记住图像概念并重建图像。

值得注意的是，通过给定的文本提示，通常DDIM反转不能精确地重建原始图像，有时候甚至造成明显的外观偏移。因此，为了能够更好地理解文本提示以便实现更高质量的图像重建任务，本文提出了一种联合训练源文本嵌入和UNet网络参数的微调策略，微调过程如图4所示，分为三阶段进行：

Figure 4. Joint training source text embedding and UNet network parameters

图4. 联合训练源文本嵌入和UNet网络参数

1) 源文本通过CLIP文本编码器得到源文本特征，编辑图像通过CLIP图像编码器得到视觉特征。

2) 文本特征和视觉特征作为参数输入进预训练好的Diffusion Model中，并冻结除UNet网络编码器和解码器之外的权重参数。

3) 为了确保模型能够更好地集成文本信息，采用了渐进微调策略，逐渐减少文本嵌入层的学习率，并在初始化时将文本嵌入层的学习率设置为较高的值，而UNet网络中编码器层和解码器层设置为较低的学习率，例如文本嵌入学习率设置为10⁻³、UNet网络中编码器层和解码器层的学习率设置为10⁻⁵。

为了获得稳定的重建质量，本文使用了均方误差损失，因此训练损失如式(2)所示。

$L = Ε_{z_{t}, ε_{t}, t, e_{s r c}} {‖ ε_{t} - ε_{θ, e_{s r c}} (z_{t}, t, e_{s r c}) ‖}_{2}^{2}$ (2)

3.5. 基于源文本和目标文本的插值方法

为了实现期望的编辑效果，即保留非编辑区域信息、修改编辑区域信息，本文采用了一种在源文本嵌入和目标文本嵌入之间线性插值的方法，如式(3)所示，其中，第一项保证了目标文本中语义内容对应的有效可编辑性，而第二项保证了原始图像的良好重建，且或时，分别代表基于文本提示引导生成的编辑图像和重建的原始图像。

$e = η \cdot e_{t g t} + (1 - η) \cdot e_{s r c}$ (3)

同时，利用文本插值方法也能尽量避免模型出现过拟合的情况，增加训练数据的多样性，从而提高图像生成模型的性能。

然后，将 $e$ 作为条件，使用微调模型生成目标图像，生成过程如图1(b)所示。

4. 实验分析与讨论

本节首先介绍实验环境、用于训练与测试的数据集以及评价指标，然后对比一些图像编辑的基线方法，最后研究预训练模型的引入和深度感知的图文融合网络对模型效果的影响。

4.1. 实验环境

本文所有实验均通过深度学习框架Pytorch实现。在实验中，本文采用了预训练的Stable Diffusion v1.5模型，并在显存为24G的NVIDIA GeForce RTX3090Ti GPU上训练。在训练期间，将预训练模型的原始vae、encoder组件的超参数冻结，并采用了Adam作为优化器，基本学习率设置为0.001。还有，为了统一训练，将所有图像调整为512 × 512的尺寸，实验环境如表1所示。

Table 1. Experimental environment data

表1. 实验环境数据

名称	值
COCO数据集	训练集数量	测试集数量
	32,000	8000
深度学习框架	Pytorch
骨架模型	Stable Diffusion v1.5
优化器	Adam
基本学习率	0.001
图片输入尺寸	512*512
显卡信息	NVIDIA GeForce RTX3090Ti GPU 24G
评价指标	MS-SSIM和LPIPS

4.2. 数据集及评价指标

1) 数据集：实验模型在LAION [8]数据集上进行训练的，该数据集是最大规模的图文数据集，对生成模型进行训练评估，可以获取较好的生成效果。在实验所使用到的Stable Diffusion [29]模型使用该数据集可生成高分辨率图像，从而可以做图像编辑、修复等。实验使用的是COCO [9]图文对数据集测试与分析，其中包含40000对图文对，分别有源图像和对应文本描述，表1总结了使用到的实验数据。

2) 评价指标：由于本文的MFF模型可以根据文本描述产生多样的和高质量的图像编辑内容，因此选取评价指标主要看是否可以评估多样化图像以及是否可以度量编辑图像的对应区域与文本描述语义上、结构上一致。本文选举了两种评价指标和一种用户评价指标，两种评价指标分别是MS-SSIM (Multi-Scale Structural Similarity) [30]和LPIPS (Learned Perceptual Image Patch Similarity) [31]，而用户评价指标是为了评估生成图像的真实性和准确性。MS-SSIM称作多尺度结构相似性指数，是用来衡量样本图像和生成图像之间结构的相似度的，分数越大代表两个图像失真越小，即结构保持得越好，这有助于分析图像–文本之间的相似度以及其他区域是否出现编辑变化。而LPIPS，称图像相似性度量标准，也称感知损失，用于测量两张图像之间的差别，分数越小代表生成图像的质量越好，表明通过文明描述重建得到的图像更加清晰。用户通过判断图像是否与给定文本连贯(准确率)和是否逼真(真实感)，在1~5分值之间进行打分，将分值进行平均，从而得到用户评价指标。

4.3. 定量实验

在文本到图像的生成方法中，大多数方法都能够由文本驱动图像编辑成用户所需的，然而文本中包含的一些属性或者背景结构会发生改变，导致生成的图像缺少细节。在这一部分中，本文将提出的方法和一些典型的基于文本的图像编辑模型在COCO数据集上进行比较，并通过MS-SSIM和LPIPS两个定量指标度量实验性能，如表2所示，展示了与Paint by Example、SDEdit、TAGAN、DF-GAN基线模型的对比实验结果。

Table 2. Comparative experimental results of quantitative and qualitative experiments

表2. 定量定性实验对比实验结果

方法	MS-SSIM	LPIPS	准确率(%)	真实感(%)
Paint by Example [4]	0.62	0.34	64.3	62.7
SDEdit [21]	0.64	0.39	68.3	66.3
TAGAN [10]	0.56	0.42	53.7	55.8
DF-GAN [11]	0.59	0.33	64.4	60.6
MFF (our)	0.72	0.31	71.8	69.6

从表2可以看出，可以得到以下结论：

1) 与四个基线模型相比，本文所提出的MFF模型实现了更好的MS-SSIM、LPIPS、真实性和准确性，这表明模型对图像的结构保持的更好，并且修改内容与给定的文本描述更加一致。

2) 在结构一致性(MS-SSIM)方面，本文模型与Paint by Example、SDEdit、TAGAN、DF-GAN基线模型相比，分别提高了0.10、0.08、0.16、0.13，这表明本文模型能够更加保护非编辑区域的内容，这很大原因是由于Paint by Example、SDEdit、TAGAN、DF-GAN等基线模型并没有关注到修改区域，会导致难以充分理解文本和图像信息，使得文本描述的引导达不到预期的结果，而MFF模型采用了深度感知的图文信息融合网络，将条件文本特征注入到图像编辑区域的解耦特征中，因此本文模型MFF实现了更为精确的图像编辑。

3) 在生成图像的质量(LPIPS)方面，MFF模型都低于基线模型，这表明本文模型不仅能够有效的编辑图像，还可以保持良好的图像质量，这得益于MFF模型是基于预先训练好的Stable Diffusion模型进行构建的，而Stable Diffusion是基于大规模图文信息LAION-5B数据集训练的，因此具有强大的生成能力。

4) 通过用户评价的对比，进一步的表明本文模型编辑之后的图像与条件输入文本更加准确以及更加逼真，同时不会影响原始图像中与文本描述无关的区域。

4.4. 定性实验

验证图像编辑的任务是否成功，除了通过客观的评价指标来度量编辑效果，还需要通过直观的视觉来评价各个模型的性能，各个模型在COCO数据集上的实验对比结果如图5所示。

从图5可以看出，给定源图像和编辑文本，基线模型和本文模型都有一定的效果。直观上，从图5的视觉结果中来看，可以得到以下结论：

1) 本文模型能够生成与给定文本描述匹配的复杂纹理细节，同时不会污染原始图像中的与文本描述无关区域。

2) 相比较于Paint by Example和TAGAN模型，在图5第二行中，Paint by Example和TAGAN模型虽然在将苹果换成橘子的应用上生成了更逼真的橘子图像，但是改变了其他区域的内容(比如背景、盘)，而且其他模型与文本描述匹配没有达到完全的一致，出现了偏差，尤其是在SDEdit模型中语义严重丢失，三个橘子变成了两个橘子。

3) 在图5第三行中，Paint by Example和本文模型在将马转换成斑马的应用上生成效果上相似，其他的都出现了偏差，可以直观的看出SDEdit和TAGAN不仅变换了背景而且动作也有改变。由此可见，本模型在背景一致性和语义一致性两个方面上，都达到了较好的编辑效果，实现了比基线更符合语义的细节特征。

Figure 5. Comparative experimental results of various baseline models

图5. 各个基线模型的对比实验效果

4.5. 消融实验

为了验证深度感知的融合网络对生成的图像结构一致性以及引入预先训练的Stable Diffusion模型对模型生成图像质量和效率的有效性，本文进行了一系列的消融实验。消融实验分析了各个组件对模型性能的效果，并分析了不同组件对实验效果不同的原因，结果对比如表3和图6所示。

Table 3. Comparative experimental results of ablation experiments

表3. 消融实验对比实验结果

方法	MS-SSIM	LPIPS	准确率(%)	真实感(%)	效率/小时
Stable Diffusion	0.22	0.80	5.96	70.38	10.1
StyleGan + DAFN	0.68	0.46	67.31	53.62	72.4
MFF (our)	0.72	0.31	71.8	69.6	21.3

在表3中，“Stable Diffusion”表示去除本文构建的深度感知的融合网络，直接将条件文本模型和图像特征编码进行融合；“StyleGan + DAFN”表示将预先训练的Stable Diffusion模型替换成了StyleGAN模型，DAFN表示深度感知的融合网络。

从表3中可以看出，一方面，当不使用本文所提出的深度感知的图文信息融合网络时，图像结构一致性大幅度降低，MS-SSIM降低了0.5，说明文本描述与编辑区域没有正确联系在一起。另一方面，当替换预先训练的生成模型时，训练的时长相比于本模型多了接近两天的时间，虽然在结构一致性上相差不大，但是在生成质量上却有着一些差距，说明通过引入预先训练的Stable Diffusion模型可以大幅度降低计算资源并且生成质量较好的图像。

从图6可以看出，本文所提出的基于图像和文本特征融合的图像编辑模型MFF能够更加有效的维持非编辑区域的内容和细节，仅仅只修改与文本描述相对应的区域，并保持语义一致。在图6第一行中，Stable Diffusion仅仅是依靠文本描述随机生成了一只柯基坐在草地上的图像，而没有保持非编辑区域的特征，这是由于其他模型的文本描述并没有精确对应图像编辑区域。而且，没有使用预训练的图文生成模型虽然在图像结构上、语义上保持一致，但是在图像生成质量以及训练效率上低于本文模型。

Figure 6. Comparison of ablation experiment results

图6. 消融实验结果对比

5. 结语

针对图像编辑中的图像和文本模态特征无法有效融合的问题，本文提出了一种基于多模态特征融合的图像编辑模型MFF。为了获取图文信息之间的深度交互信息，MFF模型先利用文本优化算法获取编辑文本，再利用CLIP模型强大的图文能力抽取文本图像特征，之后借助于交叉注意力机制增强视觉感知能力来融合图文特征，最后将融合的特征经过预先训练的图文生成模型得到多样的编辑效果。在COCO数据集上的实验结果证明了模型的有效性，可以通过文本描述来编辑对应图像区域，同时保留非编辑区域的内容。与其他的图像编辑基线模型相比，MFF生成的图像不仅质量好，而且更加真实，语义更加准确。

参考文献

[1]	Ling H, Kreis K, Li D, et al. (2021) Editgan: High-Precision Semantic Image Editing. Advances in Neural Information Processing Systems, 34, 16331-16345.
[2]	Shi, Y., Yang, X., Wan, Y. and Shen, X. (2022). Semanticstylegan: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 11244-11254. https://doi.org/10.1109/cvpr52688.2022.01097
[3]	Alaluf, Y., Patashnik, O., Wu, Z., et al. (2023) Third Time’s the Charm? Image and Video Editing with StyleGAN3. In: Karlinsky, L., Michaeli, T. and Nishino, K., Eds., Computer Vision—ECCV 2022 Workshops, Springer, 204-220.
[4]	Yang, B., Gu, S., Zhang, B., Zhang, T., Chen, X., Sun, X., et al. (2023). Paint by Example: Exemplar-Based Image Editing with Diffusion Models. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 18381-18391. https://doi.org/10.1109/cvpr52729.2023.01763
[5]	Nichol, A., Dhariwal, P., Ramesh, A., et al. (2021) Glide: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. arXiv: 2112.10741.
[6]	Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., et al. (2023). Imagic: Text-Based Real Image Editing with Diffusion Models. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 6007-6017. https://doi.org/10.1109/cvpr52729.2023.00582
[7]	Radford, A., Kim, J.W., Hallacy, C., et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. arXiv: 2103.00020.
[8]	Schuhmann, C., Beaumont, R., Vencu, R., et al. (2022) Laion-5b: An Open Large-Scale Dataset for Training Next generation Image-Text Models. Advances in Neural Information Processing Systems, 35, 25278-25294.
[9]	Lin, T.Y., Maire, M., Belongie, S., et al. (2014) Microsoft Coco: Common Objects in Context. In: Fleet, D., Pajdla, T., Schiele, B. and Tuytelaars, T., Eds., Computer Vision—ECCV 2014, Springer, 740-755. https://doi.org/10.1007/978-3-319-10602-1_48
[10]	Nam, S., Kim, Y. and Kim, S.J. (2018) Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language. arXiv: 1810.11919.
[11]	Tao, M., Tang, H., Wu, F., Jing, X., Bao, B. and Xu, C. (2022). DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 16494-16504. https://doi.org/10.1109/cvpr52688.2022.01602
[12]	Karras, T., Laine, S. and Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 4396-4405. https://doi.org/10.1109/cvpr.2019.00453
[13]	Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J. and Aila, T. (2020). Analyzing and Improving the Image Quality of StyleGAN. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 8107-8116. https://doi.org/10.1109/cvpr42600.2020.00813
[14]	Patashnik, O., Wu, Z., Shechtman, E., Cohen-Or, D. and Lischinski, D. (2021). StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 2065-2074. https://doi.org/10.1109/iccv48922.2021.00209
[15]	Ho, J., Jain, A. and Abbeel, P. (2020) Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems, 33, 6840-6851.
[16]	Nichol, A.Q. and Dhariwal, P. (2021) Improved Denoising Diffusion Probabilistic Models. arXiv: 2102.09672.
[17]	Lugmayr, A., Danelljan, M., Romero, A., Yu, F., Timofte, R. and Van Gool, L. (2022). Repaint: Inpainting Using Denoising Diffusion Probabilistic Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 11451-11461. https://doi.org/10.1109/cvpr52688.2022.01117
[18]	Dhariwal, P. and Nichol, A. (2021) Diffusion Models Beat Gans on Image Synthesis. Advances in Neural Information Processing Systems, 34, 8780-8794.
[19]	Couairon, G., Verbeek, J., Schwenk, H., et al. (2022) DiffEdit: Diffusion-Based Semantic Image Editing with Mask Guidance. arXiv: 2210.1142.
[20]	Mao, W., Han, B. and Wang, Z. (2023). Sketchffusion: Sketch-Guided Image Editing with Diffusion Model. 2023 IEEE International Conference on Image Processing (ICIP), Kuala Lumpur, 8-11 October 2023, 790-794. https://doi.org/10.1109/icip49359.2023.10222365
[21]	Meng, C., Song,Y., Song, J., et al. (2021) SDEdit: Image Synthesis and Editing with Stochastic Differential Equations. arXiv: 2108.01073.
[22]	Gal, R., Alaluf, Y., Atzmon, Y., et al. (2022) An Image Is Worth One Word: Personalizing Text-to-Image Generation Using Textual Inversion. arXiv: 2208.01618.
[23]	Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M. and Aberman, K. (2023). Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 22500-22510. https://doi.org/10.1109/cvpr52729.2023.02155
[24]	Liu, X., Park, D.H., Azadi, S., et al. (2021) More Control for Free! Image Synthesis with Semantic Diffusion Guidance. arXiv: 2112.05744.
[25]	Kim, G., Kwon, T. and Ye, J.C. (2022). Diffusionclip: Text-Guided Diffusion Models for Robust Image Manipulation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 2416-2425. https://doi.org/10.1109/cvpr52688.2022.00246
[26]	Hertz, A., Mokady, R., Tenenbaum, J., et al. (2022) Prompt-to-Prompt Image Editing with Cross Attention Control. arXiv: 2208.01626.
[27]	Zhang, Z., Han, L., Ghosh, A., Metaxas, D. and Ren, J. (2023). SINE: Single Image Editing with Text-To-Image Diffusion Models. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 6027-6037. https://doi.org/10.1109/cvpr52729.2023.00584
[28]	Li, J., Li, D., Xiong, C., et al. (2022) Blip: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation. International Conference on Machine Learning. PMLR, 12888-12900.
[29]	Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B. (2022). High-resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 10674-10685. https://doi.org/10.1109/cvpr52688.2022.01042
[30]	Wang, Z., Simoncelli, E.P. and Bovik, A.C. (2003) Multiscale Structural Similarity for Image Quality Assessment. The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, Pacific Grove, 9-12 November 2003, 1398-1402.
[31]	Zhang, R., Isola, P., Efros, A.A., Shechtman, E. and Wang, O. (2018). The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 586-595. https://doi.org/10.1109/cvpr.2018.00068

为你推荐

友情链接