Transformer-Based Video Frame Interpolation with MB Mask Guidance
To enhance the generation quality of flow-based video frame interpolation methods in changing regions, we propose a novel two-stage video frame interpolation framework that guides the refinement of intermediate frames under the constraint of optical flow motion information. Capturing long-range relevant information can enhance the accuracy of optical flow estimation. Therefore, we propose a BWT-FlowNet for optical flow estimation, which integrates a bi-level window Transformer with content awareness to capture long-range spatial-temporal interactions in video sequences. Then, a Motion Boundary Mask (MB Mask) is predicted by leveraging the motion information from optical flow, which is used to help the network focus on content-changing areas during the refinement of intermediate frames. We also develop a Motion Boundary-Aware Refinement Net (MBAR Net) to refine the process of intermediate frames. Pyramid MB Masks are utilized in sub-layers of the MBAR Net to highlight motion regions. In addition, the Mask Perceptual Loss function is introduced to constrain content-changing areas effectively, improving the quality of predicted frames. Experiments demonstrate that our proposed method achieves excellent performance on several public benchmarks.
Video Frame Interpolation
深度学习已被广泛应用于视频插帧,主要方法包括基于核的方法
近年来,基于光流的方法取得了显著进展。光流可在像素级别更精确地捕捉物体运动,从而提供更准确的运动信息。这些方法大多分为两个阶段:第一阶段预测光流,并利用光流对原始输入帧或上下文特征进行变形;第二阶段通过带有各种特征的细化网络增强粗糙变形帧的细节。
现有的基于光流的方法未能综合整合这两个阶段,因为光流估计和随后在这些运动区域的细化或细节生成是分开处理的。通常,视频中的许多物体和背景要么是静止的,要么是线性运动、视角变换、缩放等,其运动相对容易预测。另一方面,运动边界周围的区域通常表现出更复杂的运动模式、大位移和内容变化,这导致在中间帧合成过程中出现模糊和伪影。为了解决这一问题,我们提出了一种新颖的两阶段视频插帧框架,该框架通过光流运动信息约束中间帧的细化。在我们的方法中,光流中的运动信息用于预测运动边界掩模(MB mask),该掩模在帧细化阶段用于突出显示内容变化区域。
光流估计是基于光流方法的核心,因为它提供了视频帧之间的像素级运动信息,并有效地对输入帧进行变形和对齐。以往的研究
以往用于生成中间帧的方法在运动边界区域往往效果不佳,因为这些区域的物体表现出更复杂的运动模式和大位移。因此我们引入了运动边界感知细化网络(MBAR Net)用于细化中间帧,该网络在金字塔结构的MB mask的引导下专注于内容变化和运动区域。
为了更好地优化中间帧的细粒度质量,我们引入了一种掩模感知损失(Mask Perceptual Loss)。该损失函数利用MB mask对预测帧和目标帧进行预处理,然后使用预训练的VGG网络计算它们的感知损失。
总的来说,我们的研究贡献包括:
1) 提出了一种两阶段视频插帧框架,该框架在光流运动估计的约束下对中间帧进行细化。第一阶段生成的光流用于预测运动边界掩模(Motion Boundary mask),该掩模在细化阶段被用于增强网络对内容变化显著区域的聚焦能力。
2) BWT-FlowNet的设计结合了卷积神经网络(CNN)和双级窗口Transformer,以实现从粗到细的光流估计。为了高效捕捉视频序列中的时空长距离依赖关系,Transformer中采用了具有内容感知能力的注意力机制。
3) 我们开发了运动边界感知细化网络(Motion Boundary Aware Refinement Net,简称MBAR Net)用于中间帧的细化。MB mask被处理成金字塔结构,使网络在中间帧细化过程中能够更多地关注运动边界区域。
4) 为了有效约束预测帧中的运动相关区域,我们引入了基于MB mask的掩模感知损失函数(Mask Perceptual Loss),以提升图像质量,尤其是在内容变化区域。
我们提出了一种视频插帧框架,该框架在光流运动信息的约束下对中间帧进行细化,如
基于在光流运动信息约束下对中间帧进行细化的概念,我们设计了一种用于视频插帧(VFI)的框架,如
(1)
为在光流运动信息约束下指导中间帧的细化,本文提出一种运动边界块预测(MBPP)算法,用于将掩模处理成运动边界掩模(MB mask),以明确限定运动及内容变化区域。随后,MB mask被下采样为金字塔结构 ,供细化网络使用。
引入上下文编码器可以从输入图像中提取详细的高维特征 ,这些特征通过光流 进行反向变形,得到变形特征 ,其表达式为:
(2)
最终,将输入帧、光流、变形帧、多尺度变形特征以及 输入到运动边界感知细化(MBAR)网络中,该网络预测中间帧的细化细节 。通过将细化细节 与融合帧相结合,得到最终结果 ,其表达式为:
(3)
本文设计了BWT-FlowNet以实现更精确的光流估计,如
(1) BWT-FlowNet:与传统的卷积神经网络(CNN)相比,Transformer能够更有效地捕捉长距离依赖关系和全局上下文信息,这在光流估计中尤为重要,尤其是在处理大运动以及提高估计精度方面。因此,我们引入了一种新的视觉Transformer,它在BWT Flow Block中采用了双级路由注意力(Bi-Level Routing Attention)
如
(4)
其中, 表示由第 个BWT Flow Block预测的光流, 表示通过 对输入帧进行反向变形得到的变形帧。参数k随着特征尺寸的增加而持续增大,使得BWT Flow Block能够从最相关的top-k区域捕获更多特征。
(2) BWT Flow Block:将CNN与Transformer结合可以提升网络性能,因为Transformer能够捕捉长距离相关性和全局结构,而CNN则用于提取细粒度的局部特征。如
在BWT Flow Block中,通过两个连续的卷积块将特征通道数c增加,再使用8个连续的卷积块获取高维特征。随后,在BWT模块中使用BWT块处理特征,其通过双级路由注意力(Bi-Level Routing Attention, BRA)从最重要的区域捕捉长距离时空相关性特征。最后,将输出特征输入到转置卷积块中以计算光流,公式为:
(5)
其中,FC表示通过深度卷积获得的特征,FT表示由BWT块捕捉到的长距离相关性特征。
(3) BWT Block:双级路由注意力(BRA)是一种具有内容感知能力的稀疏注意力机制,它在BWT块中通过两阶段的过滤过程捕捉长距离依赖关系。首先,在区域级别构建区域亲和图,并剪枝掉与查询无关的区域。然后,在剩余的相关区域内执行细粒度的token-to-token注意力。
给定一个特征图 ,BWT块中的BRA将其划分为 个不重叠的区域,每个区域包含 个特征向量。然后通过线性投影和权重矩阵 分别得到查询、键、值张量 ,公式为:
(6)
(7)
其中,
是从最相关的k个区域中收集的键和值张量,而LCE(V)表示局部上下文增强,如文献
借助BWT-FlowNet所获得的精确光流信息,掩模预测模块(Mask Predict Block)能够预测出限制运动区域的掩模M。为帮助细化网络聚焦于内容变化区域,本文设计了一种运动边界块预测算法来处理掩模M。首先,设定两个阈值 和 ,用于区分具有显著运动的区域。随后,将掩模值低于 或高于 的部分设置为1,其余所有值设置为0,从而将M转换为二值掩模 ,其计算公式为:
(8)
合成的中间帧通常在内容变化显著的运动边界附近存在模糊和伪影问题,而像素级掩模无法充分指示与运动相关的区域。为了适当扩展掩模区域以获取更多上下文特征,将 的掩模区域转换为大小为L × L的块:
(9)
在每个块中,若有N个或更多像素的值为1,则该块中的所有元素均被设为1。最终获得运动边界掩模(MB mask),记作
。整个过程如
随后,对 进行下采样,以获得金字塔结构的MB mask,这些掩模被输入到MBAR Net的子编码器中,使其能够更加关注运动和内容变化区域。
具体来说,依据两个连续帧的运动信息,可预测出一个对应的MB mask,如
为了在中间帧的细化过程中专注于内容变化区域并提升这些区域的图像质量,本文开发了一种运动边界感知细化网络(Motion Boundary Aware Refinement Net,简称MBAR Net),该网络在不同的子编码器层中采用了金字塔结构的MB mask,如
为了与不同子编码器的输入特征尺寸相匹配,MB mask被下采样为不同尺寸的掩模,记作 。子编码器的输入特征与 进行拼接,然后通过DownResBlock进行处理。 的输出特征 的计算公式为:
(10)
在MB mask的引导下,MBAR Net能够在编码和解码过程中更加关注运动区域。每个子编码器的输出特征通过DownResBlock中的CBAM
本文采用 损失作为重建损失,用于建模中间帧的重建质量,公式为:
(11)
此外,为了衡量光照变化,本文使用了Census损失
掩模感知损失(Mask Perceptual Loss)。运动边界周围的区域表现出更复杂、更大的运动。然而,一些损失函数会在整个内容上计算预测值与目标值之间的差异,未能更多地关注图像中的运动区域。为此,我们引入了基于提出的MB mask的掩模感知损失(MP损失),以解决这一问题。首先,使用MB mask分别与预测帧 和目标帧 相乘,以保留内容变化的区域。随后,利用预训练的VGG网络提取丰富的感知特征,计算处理后的预测帧与目标帧之间的感知损失,公式为:
(12)
蒸馏损失(Distillation Loss)。在光流估计中,本文采用了蒸馏损失 来提高预测质量。在BWT-FlowNet中增加了一个额外的BWT Flow Block作为引导块,从目标帧接收信息,从而在训练过程中更准确地预测光流。蒸馏损失的计算公式为:
(13)
完整目标函数。我们的完整目标函数定义为:
(14)
其中, , 和 分别是 , 和 的权重。
Vimeo90K
UCF101
Middlebury
SNU-FILM
本文在Vimeo-90k数据集上训练模型,并在其他数据集上评估其性能指标。
网络架构。在BWT-FlowNet中,本文为每个BWT Flow Block配置了不同的嵌入维度。每个Flow Block包含6个BWT块,用于捕捉相关窗口的数量和参数k的设置如
训练细节。本文模型使用AdamW优化器进行训练,学习率设置为1 × 10−4。训练和测试均在RTX 3090 GPU上进行,批量大小设置为8,模型总共训练250个周期。本文从训练样本中随机裁剪出224 × 224的图像块,并通过随机翻转和时间反转对其进行数据增强。
方法 |
Vimeo90K |
UCF101 |
M.B. |
SNU-FILM |
|||
Easy |
Medium |
Hard |
Extreme |
||||
PSNR/SSIM |
PSNR/SSIM |
IE. |
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
|
ToFlow |
33.73/0.968 |
34.58/0.967 |
2.15 |
39.08/0.989 |
35.31/0.977 |
28.44/0.918 |
23.39/0.831 |
SepConv |
33.79/0.970 |
34.78/0.967 |
2.27 |
39.41/0.990 |
34.97/0.976 |
29.36/0.925 |
24.31/0.845 |
DAIN |
34.71/0.976 |
34.99/0.968 |
2.04 |
39.73/0.990 |
35.46/0.978 |
30.17/0.934 |
25.09/0.858 |
CAIN |
34.65/0.973 |
34.91/0.969 |
2.28 |
39.89/0.990 |
35.61/0.978 |
29.90/0.929 |
24.78/0.851 |
BMBC |
35.01/0.976 |
35.15/0.969 |
2.04 |
39.90/0.990 |
35.31/0.977 |
29.33/0.927 |
23.92/0.843 |
RIFE |
35.61/0.978 |
35.28/0.969 |
1.96 |
39.80/0.990 |
35.76/0.979 |
30.36/0.935 |
25.27/0.860 |
RIFE-Large |
36.10/0.980 |
35.29/0.969 |
1.94 |
40.02/0.991 |
35.92/0.979 |
30.49/0.936 |
25.24/0.862 |
AdaCoF |
34.47/0.973 |
34.90/0.968 |
2.24 |
39.80/0.990 |
35.05/0.975 |
29.46/0.924 |
24.31/0.844 |
M2M |
35.47/0.978 |
35.28/0.969 |
2.09 |
39.66/0.990 |
35.74/0.979 |
30.30/0.936 |
25.08/0.860 |
MFRNet |
35.96/.978 |
35.35/.970 |
1.90 |
— |
— |
— |
— |
ABME |
36.18/0.981 |
35.38/0.970 |
2.01 |
39.59/0.990 |
35.77/0.979 |
30.58/0.936 |
25.42/0.864 |
Ours |
36.01/0.980 |
35.43/0.970 |
1.87 |
40.23/0.991 |
36.03/0.979 |
30.35/0.934 |
25.06/0.855 |
本文将所提方法与最先进的视频插帧(VFI)方法进行了比较,这些方法包括基于核的方法SepConv
在本节中,本文进行了几项消融研究,以探讨本文提出的方法。消融实验使用了几个参数较少的模型,并在Vimeo90K和SNU-FILM数据集上进行训练和测试。小型模型采用了较少的BWT块和缩减的卷积通道。
MB mask的效果:在细化阶段使用多尺度MB mask作为引导以增强预测精度是本文设计的一种新方法。为了验证我们提出的两阶段框架的有效性,本文在MB mask上进行了消融实验。通过
模型 |
Vimeo90K |
SNU-FILM |
|
Medium |
Hard |
||
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
|
wo. M |
35.668/.978 |
35.88/.979 |
30.23/.934 |
w. M |
35.776/.979 |
35.91/.980 |
30.29/.934 |
BWT Block效果:BWT模块是捕捉长距离依赖关系的关键组件。本文通过改变模型中BWT块的数量来研究其有效性。
模型 |
Vimeo90K |
SNU-FILM |
|
Medium |
Hard |
||
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
|
1) wo. BWT Block |
35.61/.977 |
35.77/.979 |
30.17/.933 |
2) 4 BWT Blocks |
35.65/.978 |
35.86/.979 |
30.28/.934 |
3) 6 BWT Blocks |
35.73/.978 |
35.91/.979 |
30.31/.934 |
多尺度上下文编码器和CBAM的效果:编码器提取的多尺度图像特征用于中间帧合成,其中更准确的特征能够带来更精确的预测。本文比较了在细化网络中使用多尺度上下文编码器与普通卷积模块的性能。如
此外,该模型还在SNU-FILM数据集的中等难度和高难度子集上显示出性能提升。进一步地,本文研究了在编码器中使用CBAM的效果。包含CBAM的模型在Vimeo90K数据集上比第二好的模型提升了0.05 dB,在SNU-FILM数据集的中等难度和高难度子集上分别提升了0.04 dB和0.03 dB。
模型 |
Vimeo90K |
SNU-FILM |
|
Medium |
Hard |
||
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
|
wo. Enc |
35.65/.978 |
35.86/.979 |
30.28/.934 |
w. Enc |
35.78/.979 |
35.90/.979 |
30.31/.934 |
w. Enc + CBAM |
35.83/.979 |
35.94/.979 |
30.34/.934 |
掩模感知损失的效果:此外,本文还对掩模感知损失进行了消融实验,结果如
模型 |
Vimeo90K |
SNU-FILM |
|
Medium |
Hard |
||
PSNR/SSIM |
PSNR/SSIM |
PSNR/SSIM |
|
wo. MP loss |
35.776/.979 |
35.91/.905 |
30.29/.934 |
w. MP loss |
35.807/.979 |
36.03/.980 |
30.35/.934 |
此外,本文还评估了不同消融模型的推理结果,如
在本研究中,我们提出的视频插帧框架在光流运动信息的约束下有效地细化了中间帧。运动边界掩模(MB mask)被用于指示内容变化区域,从而指导中间帧的细化。BWT-FlowNet在光流估计方面表现出色,能够有效处理大运动和遮挡问题。此外,本文开发了MBAR Net以充分利用MB mask和其他特征来细化中间帧,并引入了掩模感知损失函数,以有效关注合成帧中的内容变化区域。这种基于掩模的损失函数与视频插帧(VFI)任务的需求高度契合,也可被其他VFI方法采用。定量和定性评估表明,本文提出的方法具有卓越的性能和泛化能力。在未来的工作中,我们将探索新的方法以提升光流估计和中间帧细化的效果,从而进一步优化视频插帧技术。