Image Editing Model Based on Multi-Model Feature Fusion
To achieve more controllable editing effects, most current condition-guided image editing works rely on text-based conditions. However, text and images represent two different modalities, making it a significant challenge to effectively retrieve and integrate information from different modalities in image editing. To address the issue of limited deep interaction between image and text information, a Multi-Modal Feature Fusion (MFF) image editing model is proposed. First, an adaptive optimization of the editing text is performed using the multi-modal model BLIP to guide the generation model towards producing images that better align with the semantics. Subsequently, joint training of the source text embeddings and U-Net network parameters is conducted, and a cross-modal attention mechanism is employed within the U-Net network to enhance visual perception capabilities for fusing visual and textual features. Finally, the fused features are passed through a pre-trained image-text generation diffusion model to obtain edited images related to the text description. Quantitative experimental results on the COCO dataset show that, compared to other baseline models, the MFF model achieved a 12.5% improvement in the MS-SSIM metric and a 26.2% reduction in the LPIPS metric, indicating its greater effectiveness in feature fusion between images and text.
Image Editing
近年来,随着深度学习的快速发展,越来越多的研究工作利用多种模态融合得到的信息来提升对数据的处理能力。在计算机视觉中,通过将其他模态和图像模态融合起来,可以实现更精准的图像处理。图像编辑在计算机视觉中是一个基础的研究问题,是指修改一张图片中的内容或者样式,无论是在学术上还是工业上,都是具有价值的,并有着丰富的应用场景。因此,近期来图像编辑相关的工作不断涌现。然而,大多数方法要么局限于特定的编辑类型(例如:对象覆盖,样式转移),要么适用于综合生成的图像,要么需要多个输入公共对象的图像。
为了解决上述问题,越来越多的研究者利用简单的自然语言文本提示描述来控制图像编辑,使图像编辑变得特别令人印象深刻,因为这与人类通信很好地一致。根据模型骨架的不同,现有的文本引导的图像编辑模型可划分为基于GAN (Generative Adversarial Networks)模型的方法和基于扩散模型的方法。在基于GAN模型的基础上,现有的图像编辑方法通过语义分割来寻找编辑区域,提出了EditGAN
在文本引导的图像编辑中,从不同模态的数据中有效地检索和融合不同模态的信息仍然是一个很大的挑战。由于文本和图像是两个不同的模态,所以如果要将两者信息进行融合,就需要解决模态之间信息对齐的问题。文本引导的图像编辑是基于输入的文本描述以及图像的结构层面进行编辑,通过输入文本的描述,对应的图像区域相应改变,从而生成更符合用户需求的图像。由于图像编辑模型很难准确地根据文本描述定位到编辑区域,且跨模态编辑图像是十分困难的,因此如何在编辑过程中直接有效的定位到编辑区域是一个挑战。
针对以上问题,主要挑战有三个方面:一是如何将语义上的特征映射到图像结构上,这要求模型不仅需要充分理解包含在图像中的结构信息,还需要理解文本信息中的语义信息;二是如何结合文本的语义信息得到更为准确的编辑效果;三是如何提升训练效率以及节省计算资源。因此,本文提出了一种基于多模态特征融合的图像编辑模型MFF (Image Editing Model Based On Multi-scale Feature Fusion, MFF)。通过预训练CLIP
a) 提出了一种基于多模态特征融合的图像编辑模型MFF,利用图像和文本特征融合可以更加有效的控制编辑区域内容的生成,以及生成符合编辑区域与文本描述有关的图像,并没有破坏非编辑区域的内容。
b) 构建了一种深度感知的图文信息融合网络,利用了交叉注意力机制增强图像和文本之间的感知能力,有助于模型可以通过文本定位到图像中的编辑区域。
c) 提出了一种对多模态模型BLIP提取的源文本嵌入和预先训练的扩散模型Stable Diffusion的Unet网络参数联合训练的微调策略,有助于帮助模型提升图像重建质量,以及生成更加多样的结果,而且降低了训练效率以及计算资源。
d) 在LAION
基于文本引导的图像编辑相关的工作主要包括基于GAN模型的方法和基于扩散模型的方法。基于GAN模型的方法是经典的主流方法,大多数做图像编辑任务的工作都是基于GAN模型提出的,而基于扩散模型的方法是近两年来在图像编辑和生成方面较为新颖的方法。
近年来,文本引导的图像编辑受到越来越多的关注。为提升文本和图像融合的有效性,有学者通过利用语义分割来增强视觉感知能力,如SemanticStyleGAN
为了降低训练效率,有许多学者开始利用预训练的GAN生成器和文本编码器来根据文本提示渐进地编辑图像,更加优化到预先想好的效果。比如,Nam等人
近年来,随着大规模生成模型的不断发展,基于扩散模型的方法
为了解决需要通过人工标注的问题,Liu等人
为了建立图像信息和文本信息之间的联系,本文设计了一种基于多模态特征融合的图像编辑模型MFF。
该模型先通过多模态模型BLIP
本文将基于图像和文本特征融合的图像编辑任务定义为:首先用户给定一张原始的待编辑图像I和一段自然语言描述T,然后模型自动根据文本描述编辑所对应的图像区域,最后通过某种方式将两种模态的信息进行对齐融合,并保留非编辑区域的内容。
模型分为两个阶段进行如
为了模型能够更好地遵循文本提示引导编辑图像,本文利用了BLIP模型规范输入文本。MFF中使用的预训练BLIP模型的核心组件主要包括两个部分:视觉编码器、文本解码器。预训练BLIP模型的编码器参数是冻结的,因此无需训练,节省资源,生成文本的主要过程如
1) 视觉编码器的目的是为源图像提取视觉表示,得到视觉特征,其中C、H、W分别表示通道数、高度和宽度。
2) 将视觉编码器提取的视觉特征输入到文本编码器中,得到与图像相对应的语言描述,这段语言描述是模型预测的结果。具体来说,是通过交叉注意力与视觉特征进行交互,并递归地预测下一个单词。
文本和图像是两种模态特征,因此如何将它们融合在一起对于生成效果至关重要。在融合这两种模态之前,需要建立两种模态之间的对应关系。为了让图像特征和条件文本特征更加有效的融合起来,在图文信息融合层中构建了一种深度感知的图文信息融合网络,图文信息融合网络如
两种模态之间的融合是在U形网络中进行的,基础的U形网络中的注意力机制并不是交叉注意力,因此不能很好的将图像特征和文本特征进行融合,因此本文所提出来的深度感知的图文信息融合网络是利用了交叉注意力机制来增强视觉感知能力。构建的融合网络是在编码器和解码器之间加入了用于关注文本条件嵌入的交叉注意力,并且为了防止网络在下采样过程中丢失重要信息,在编码器的下采样和解码器的上采样之间添加了连接。在融合期间,交叉注意力机制为每个文本标记与对应的图像区域产生空间注意力图,产生空间注意力图的步骤有三步:
第一步:设噪声图像的中间空间特征为 ,将噪声图像的中间空间特征 投影到一个查询矩阵Q中,并且条件文本嵌入 被投影到键矩阵K和值矩阵V,因此注意力映射M如公式(1)所定义,其中得到的 是指在像素i上的第j个文本标记值的权重,d是Q和K的维度。
(1)
第二步:然后定义注意力映射输出为 ,主要是用于更新噪声图像的中间空间特征 ,从而产生更为精确的图像特征。
第三步:最后通过多次图文信息融合网络将图像特征和条件文本特征进行融合之后,得到最终的图像特征 ,并将其输入到图像生成层中。
在给定目标提示和图像的情况下,文本引导的图像编辑方法根据目标文本对图像进行编辑,这不仅是要求编辑目标成功改变,而且要求非编辑区域保持不变。由于扩散模型可以合成高质量和多样化图像的强大能力,并且预训练的扩散模型能够更好、更节省资源地实现训练,因此本文采取了微调Diffusion Model模型以便记住图像概念并重建图像。
值得注意的是,通过给定的文本提示,通常DDIM反转不能精确地重建原始图像,有时候甚至造成明显的外观偏移。因此,为了能够更好地理解文本提示以便实现更高质量的图像重建任务,本文提出了一种联合训练源文本嵌入和UNet网络参数的微调策略,微调过程如
1) 源文本通过CLIP文本编码器得到源文本特征,编辑图像通过CLIP图像编码器得到视觉特征。
2) 文本特征和视觉特征作为参数输入进预训练好的Diffusion Model中,并冻结除UNet网络编码器和解码器之外的权重参数。
3) 为了确保模型能够更好地集成文本信息,采用了渐进微调策略,逐渐减少文本嵌入层的学习率,并在初始化时将文本嵌入层的学习率设置为较高的值,而UNet网络中编码器层和解码器层设置为较低的学习率,例如文本嵌入学习率设置为10−3、UNet网络中编码器层和解码器层的学习率设置为10−5。
为了获得稳定的重建质量,本文使用了均方误差损失,因此训练损失如式(2)所示。
(2)
为了实现期望的编辑效果,即保留非编辑区域信息、修改编辑区域信息,本文采用了一种在源文本嵌入和目标文本嵌入之间线性插值的方法,如式(3)所示,其中,第一项保证了目标文本中语义内容对应的有效可编辑性,而第二项保证了原始图像的良好重建,且或时,分别代表基于文本提示引导生成的编辑图像和重建的原始图像。
(3)
同时,利用文本插值方法也能尽量避免模型出现过拟合的情况,增加训练数据的多样性,从而提高图像生成模型的性能。
然后,将
作为条件,使用微调模型生成目标图像,生成过程如
本节首先介绍实验环境、用于训练与测试的数据集以及评价指标,然后对比一些图像编辑的基线方法,最后研究预训练模型的引入和深度感知的图文融合网络对模型效果的影响。
本文所有实验均通过深度学习框架Pytorch实现。在实验中,本文采用了预训练的Stable Diffusion v1.5模型,并在显存为24G的NVIDIA GeForce RTX3090Ti GPU上训练。在训练期间,将预训练模型的原始vae、encoder组件的超参数冻结,并采用了Adam作为优化器,基本学习率设置为0.001。还有,为了统一训练,将所有图像调整为512 × 512的尺寸,实验环境如
名称 |
值 |
|
COCO数据集 |
训练集数量 |
测试集数量 |
32,000 |
8000 |
|
深度学习框架 |
Pytorch |
|
骨架模型 |
Stable Diffusion v1.5 |
|
优化器 |
Adam |
|
基本学习率 |
0.001 |
|
图片输入尺寸 |
512*512 |
|
显卡信息 |
NVIDIA GeForce RTX3090Ti GPU 24G |
|
评价指标 |
MS-SSIM和LPIPS |
1) 数据集:实验模型在LAION
2) 评价指标:由于本文的MFF模型可以根据文本描述产生多样的和高质量的图像编辑内容,因此选取评价指标主要看是否可以评估多样化图像以及是否可以度量编辑图像的对应区域与文本描述语义上、结构上一致。本文选举了两种评价指标和一种用户评价指标,两种评价指标分别是MS-SSIM (Multi-Scale Structural Similarity)
在文本到图像的生成方法中,大多数方法都能够由文本驱动图像编辑成用户所需的,然而文本中包含的一些属性或者背景结构会发生改变,导致生成的图像缺少细节。在这一部分中,本文将提出的方法和一些典型的基于文本的图像编辑模型在COCO数据集上进行比较,并通过MS-SSIM和LPIPS两个定量指标度量实验性能,如
方法 |
MS-SSIM |
LPIPS |
准确率(%) |
真实感(%) |
Paint by Example
|
0.62 |
0.34 |
64.3 |
62.7 |
SDEdit
|
0.64 |
0.39 |
68.3 |
66.3 |
TAGAN
|
0.56 |
0.42 |
53.7 |
55.8 |
DF-GAN
|
0.59 |
0.33 |
64.4 |
60.6 |
MFF (our) |
0.72 |
0.31 |
71.8 |
69.6 |
从
1) 与四个基线模型相比,本文所提出的MFF模型实现了更好的MS-SSIM、LPIPS、真实性和准确性,这表明模型对图像的结构保持的更好,并且修改内容与给定的文本描述更加一致。
2) 在结构一致性(MS-SSIM)方面,本文模型与Paint by Example、SDEdit、TAGAN、DF-GAN基线模型相比,分别提高了0.10、0.08、0.16、0.13,这表明本文模型能够更加保护非编辑区域的内容,这很大原因是由于Paint by Example、SDEdit、TAGAN、DF-GAN等基线模型并没有关注到修改区域,会导致难以充分理解文本和图像信息,使得文本描述的引导达不到预期的结果,而MFF模型采用了深度感知的图文信息融合网络,将条件文本特征注入到图像编辑区域的解耦特征中,因此本文模型MFF实现了更为精确的图像编辑。
3) 在生成图像的质量(LPIPS)方面,MFF模型都低于基线模型,这表明本文模型不仅能够有效的编辑图像,还可以保持良好的图像质量,这得益于MFF模型是基于预先训练好的Stable Diffusion模型进行构建的,而Stable Diffusion是基于大规模图文信息LAION-5B数据集训练的,因此具有强大的生成能力。
4) 通过用户评价的对比,进一步的表明本文模型编辑之后的图像与条件输入文本更加准确以及更加逼真,同时不会影响原始图像中与文本描述无关的区域。
验证图像编辑的任务是否成功,除了通过客观的评价指标来度量编辑效果,还需要通过直观的视觉来评价各个模型的性能,各个模型在COCO数据集上的实验对比结果如
从
1) 本文模型能够生成与给定文本描述匹配的复杂纹理细节,同时不会污染原始图像中的与文本描述无关区域。
2) 相比较于Paint by Example和TAGAN模型,在
3) 在
为了验证深度感知的融合网络对生成的图像结构一致性以及引入预先训练的Stable Diffusion模型对模型生成图像质量和效率的有效性,本文进行了一系列的消融实验。消融实验分析了各个组件对模型性能的效果,并分析了不同组件对实验效果不同的原因,结果对比如
方法 |
MS-SSIM |
LPIPS |
准确率(%) |
真实感(%) |
效率/小时 |
Stable Diffusion |
0.22 |
0.80 |
5.96 |
70.38 |
10.1 |
StyleGan + DAFN |
0.68 |
0.46 |
67.31 |
53.62 |
72.4 |
MFF (our) |
0.72 |
0.31 |
71.8 |
69.6 |
21.3 |
在
从
从
针对图像编辑中的图像和文本模态特征无法有效融合的问题,本文提出了一种基于多模态特征融合的图像编辑模型MFF。为了获取图文信息之间的深度交互信息,MFF模型先利用文本优化算法获取编辑文本,再利用CLIP模型强大的图文能力抽取文本图像特征,之后借助于交叉注意力机制增强视觉感知能力来融合图文特征,最后将融合的特征经过预先训练的图文生成模型得到多样的编辑效果。在COCO数据集上的实验结果证明了模型的有效性,可以通过文本描述来编辑对应图像区域,同时保留非编辑区域的内容。与其他的图像编辑基线模型相比,MFF生成的图像不仅质量好,而且更加真实,语义更加准确。