视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,通过量化相邻帧间的像素差异,识别出包含显著变化的关键帧,累积多个连续帧的更新概率处理两个关键帧间的可能存在的长时间间隔,引入一个可训练的采样概率阈值从而将更新概率二值化,增强对于关键帧的建模能力。因此该过程保证了视频关键信息的获取。本文认为不同的Token对识别任务的重要性会有所不同,因此在时空Transformer块中,本文采用一种数据依赖的Token采样策略,通过分层减少Token的数量有效降低空间冗余信息,同时也减少了模型计算量。最终通过全连接层完成视频行为识别。实验在ActivityNet-v1.3、Mini-Kinetics数据集上进行验证。实验表明,本文基于时空采样的视频行为识别方法,具有较小计算量的同时,能够达到现有行为识别方法的准确率。 Video features contain the time and space redundancy information when the action is executed. This information has nothing to do with the action category, which will interfere with the action identification and cause the wrong judgment of the action category. This thesis proposes a video action recognition model based on spatiotemporal sampling. The model includes key frame sampling and Token sampling video Transformer. Key frame sampling, by quantifying the pixel difference between adjacent frames, identifies key frames with significant changes, accumulates the update probability of multiple consecutive frames, processes the possible long time interval between two key frames, introduces a trained sampling probability threshold to binarize the update probability, enhances the modeling ability of key frames, and ensures the acquisition of video key information. This thesis believes that different tokens have different importance to recognition tasks. Therefore, in the Transformer block, this thesis adopts a data-dependent Token sampling strategy to reduce the number of tokens by layers to effectively reduce spatial redundancy information and reduce the amount of computation. Finally, the video action recognition is completed through the fully-connected layer. The experiments are validated on ActivityNet-v1.3, Mini-Kinetics dataset. The experiments show that in this thesis, the action recognition method based on spatiotemporal sampling, can achieve the accuracy of existing action recognition methods with less computation.
视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,通过量化相邻帧间的像素差异,识别出包含显著变化的关键帧,累积多个连续帧的更新概率处理两个关键帧间的可能存在的长时间间隔,引入一个可训练的采样概率阈值从而将更新概率二值化,增强对于关键帧的建模能力。因此该过程保证了视频关键信息的获取。本文认为不同的Token对识别任务的重要性会有所不同,因此在时空Transformer块中,本文采用一种数据依赖的Token采样策略,通过分层减少Token的数量有效降低空间冗余信息,同时也减少了模型计算量。最终通过全连接层完成视频行为识别。实验在ActivityNet-v1.3、Mini-Kinetics数据集上进行验证。实验表明,本文基于时空采样的视频行为识别方法,具有较小计算量的同时,能够达到现有行为识别方法的准确率。
视频行为识别,时空采样,视频Transformer
Guan Wang, Menghao Peng, Yingcheng Tao, Hao Xu, Sheng’en Jing
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui
Received: Apr. 11th, 2024; accepted: May 17th, 2024; published: May 27th, 2024
Video features contain the time and space redundancy information when the action is executed. This information has nothing to do with the action category, which will interfere with the action identification and cause the wrong judgment of the action category. This thesis proposes a video action recognition model based on spatiotemporal sampling. The model includes key frame sampling and Token sampling video Transformer. Key frame sampling, by quantifying the pixel difference between adjacent frames, identifies key frames with significant changes, accumulates the update probability of multiple consecutive frames, processes the possible long time interval between two key frames, introduces a trained sampling probability threshold to binarize the update probability, enhances the modeling ability of key frames, and ensures the acquisition of video key information. This thesis believes that different tokens have different importance to recognition tasks. Therefore, in the Transformer block, this thesis adopts a data-dependent Token sampling strategy to reduce the number of tokens by layers to effectively reduce spatial redundancy information and reduce the amount of computation. Finally, the video action recognition is completed through the fully-connected layer. The experiments are validated on ActivityNet-v1.3, Mini-Kinetics dataset. The experiments show that in this thesis, the action recognition method based on spatiotemporal sampling, can achieve the accuracy of existing action recognition methods with less computation.
Keywords:Video Action Recognition, Saptio-Temporal Sampling, Video Transformer
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
行为识别的目的是从视频帧序列中识别出目标正在执行的行为类别 [
近年来,许多工作提出了有效的行为识别方法,基于Transformer的视频识别方法的一般做法是,将数据集中的每个视频均匀采样固定数量的视频帧,将视频帧划分为不重叠的Token,通过Transformer块计算Token之间的自注意力学习特征信息,最后将学习所有特征信息的类别Token输入到多层感知机完成分类。但是均匀采样可能会错失关键信息同时引入干扰信息,而且视频Transformer的计算成本随着Token数量的增加呈平方级增长,甚至无法完成一些高空间分辨率或长视频的行为识别。因此,本文基于上述视频识别方法存在的问题,致力于探索新的方法,在提升视频分析性能的同时,有效降低计算成本和内存占用。
均匀采样作为一种常见的策略,能够满足视频行为识别的基本要求,然而当面对行为变化迅速的场景时,均匀采样的方法无法捕捉到行为的高速变化,因此会错失关键信息,影响到行为识别的准确性。均匀采样还可能引入与行为识别无关的干扰信息,进一步增加了分析的难度。因此,为了避免错失视频关键信息,同时降低干扰信息,需要更为精细和灵活的采样策略。本文针对视频片段设计了一种关键帧采样策略,通过量化相邻帧间像素的差异,识别出包含显著变化的关键帧。同时为了处理两个关键帧间的时间间隔,本文积累多个连续帧的更新概率。为了增强对于关键帧的建模能力,本文引入可训练的采样概率阈值,将更新概率二值化,保证了本方法对于视频关键信息的获取。
视频Transformer有很高的计算成本,在空间和时间上都是二阶复杂度。视频Transformer的输入尺寸非常大,即使使用图像块分辨率为16 × 16的Token化的采样方式,一张分辨率224 × 224的RGB图片,就会产生多达196个视觉Token。为了缓解高计算成本问题,Timesformer [
综上,本文的主要内容如下:
1) 本文设计了基于时空采样的视频行为识别方法,主要包括帧间像素差异引导的关键帧采样和自适应Token采样的视频Transformer。在关键帧采样部分,通过帧更新概率估计、累积更新概率和更新概率二值化,完成关键帧的采样。
2) 在自适应Token采样的视频Transformer部分,将Token采样模块集成到视频Transformer的时空注意力块中,完成分层Token采样,有效降低需要处理的Token数量,使用联合时空注意力学习特征信息,最终通过全连接层完成视频分类。
3) 在数据集ActivityNet-v1.3 [
为了降低视频行为识别的计算成本,一些方法将帧选择问题定义为一种顺序决策任务。其核心思想在于,利用顺序决策机制来平衡计算效率与识别性能。在这种思想指导下,决策过程需要依赖先前累积的信息来指导后续步骤,确定下一个应观察的帧或判断是否终止选择过程。这种方法通过智能地选择关键帧来减少冗余计算,从而在保持识别准确率的同时降低整体计算负担。
FrameGlimpses [
另有一些方法并行完成对于视频帧、片段的采样。该策略的核心思想在于,同时并独立地确定每一帧或片段应采取的行为,从而并行地获取最终的选择结果。这种方法通过并行化处理,显著提高了采样效率,使得视频识别过程中的计算资源得到更加有效的利用。同时,并行采样策略也有助于减少由于顺序决策导致的潜在延迟,进一步提升了视频识别的实时性能。
SCSampler [
K中心图像块采样方法 [
一些基于Transformer的视频行为识别方法设计了更加高效的注意力机制。TubeViT [
本章方法如图1所示,其中关键帧采样包括帧更新概率估计,更新概率累积,更新概率二值化。本章模型的输入是视频片段 C l i p = { v t } , C l i p ∈ ℝ T × H × W × C ,其中T是视频片段帧数,t是帧索引, t ∈ [ 1 , T ] , H × W 是空间分辨率,C是通道数。
对于视频帧 v t ,预处理将其转化为像素矩阵 p i x e l t , p i x e l t ∈ ℝ H × W × C 。像素矩阵是一个数组,其中每个元素代表图像中对应位置的像素值。计算相邻两个视频帧像素矩阵 p i x e l t 和 p i x e l t + 1 的帧差 d t , t + 1 = ‖ p i x e l t + 1 − p i x e l t ‖ 2 ,使用高斯分布估计帧差的分布 d t , t + 1 ~ Ν ( μ , σ 2 ) ,其中,分布的均值 μ 和方差 σ 2 分别为:
μ = 1 T − 1 ∑ i T − 1 d t , t + 1 (1)
σ 2 = 1 T − 1 ∑ i T − 1 ( d t , t + 1 − μ ) 2 (2)
图1. 基于时空采样的视频行为识别模型
帧差概率 p t + 1 d i f f 表示已知第t帧的条件下,根据第t帧与第t + 1帧间的像素矩阵的差值得到的第t + 1帧采样的概率:
p t + 1 d i f f = 1 1 + exp ( μ + σ − d t , t + 1 ) (3)
本文认为当选中一个视频帧作为关键帧之后,短期内选中下一个关键帧的概率较小。相应的,当长期未选中关键帧,接下来的视频帧作为关键帧的概率逐渐增大。因此本文通过沿帧序列的更新概率累积机制来估计多个帧的更新概率。当一个视频帧被选中为关键帧时,下一帧的累积概率用帧差概率表示。当一个视频帧被认为是非关键帧时,下一帧的累积概率用当前帧的更新概率与下一帧的帧差概率相加之和表示。累积概率 p t + 1 s u m 考虑了两个关键帧之间的时间间隔内的所有帧。累积概率公式为:
p t + 1 s u m { p t + 1 d i f f if b t = 1 min ( p t s u m + p t + 1 d i f f , 1 ) if b t = 0 (4)
其中, b t = 1 表示采样第t帧作为关键帧, b t = 0 表示不采样第t帧作为关键帧。
不同目标执行相同行为时,存在个体差异性。这种差异性不仅体现在行为执行的细节上,更增加了关键帧选取的难度。因此即使是相同的行为,其关键帧也可能存在很大的变化。为了应对这种变化,本文引入了可训练的采样阈值 t h r e s h o l d ∈ ( 0 , 1 ) ,当帧的更新概率累积大于采样阈值,则将其视为关键帧。为了解决存在变化较大的关键帧造成的选择不确定问题,本文通过确定采样阈值,将更新概率二值化:
b t = { 1 if p t s u m ≥ t h r e s h o l d 0 if p t s u m ≤ t h r e s h o l d (5)
处理视频片段Clip内的全部视频帧获得关键帧集合 f r a m e = { f r a m e t } , f r a m e ∈ ℝ T k e y × H × W × C , T k e y 是关键帧帧数。关键帧采样从原始视频片段中筛选出最具代表性的帧,确保在降低计算复杂度的同时,尽可能保留了行为的关键信息。
对于3.2获得的关键帧集合frame中的视频帧 f r a m e t ∈ ℝ H × W × C ,本文将其嵌入为二维Token序列 X = { x k } , X ∈ ℝ K × D , ( P , P ) 是图像块的空间分辨率, K = H W / P 2 是获得的Token数量,即Transformer的输入序列长度,k表示Token索引, k ∈ [ 1 , K ] ,D是嵌入维度。
本文使用可学习的矩阵 E ∈ ℝ D × 3 P 2 将每个Token线性嵌入为向量,使用可学习的位置嵌入 e k p o s ∈ ℝ D 表示每个Token的时空位置,结合了视频帧的局部特征和全局空间关系,能够保证后续对视频帧内容的理解,可以得到:
x k ( l ) = E x k + e k p o s (6)
x k ( l ) ∈ ℝ D 其中 x k ( l ) 的上标 l = 0 , 1 , ⋯ , L 表示经过第l层后的Token。本文在序列的前面添加一个可学习向量 x c ( l ) 作为类别Token,经过所有Transformer层之后,使用线性层处理此类别Token得到视频类别。至此,获得序列作为Transformer的输入。
输入视频帧经过嵌入编码得到Token序列后,送入图2所示的Transformer块进行自注意力的计算。一个完整的Transformer网络由一系列Transformer块构成,输入的序列长度在网络整个阶段不会发生改变,并且Token的特征维度也保持不变。
本文的Transformer结构包括个L编码块,将处理好的 Z ( 0 ) 输入到Transformer编码块中,在每个编码块l计算 q u e r y k ( l , a ) , k e y k ( l , a ) , v a l u e k ( l , a ) ,公式如下:
q u e r y k ( l , a ) = W Q ( l , a ) LN ( x k ( l − 1 ) ) ∈ ℝ D h (7)
k e y k ( l , a ) = W K ( l , a ) LN ( x k ( l − 1 ) ) ∈ ℝ D h (8)
v a l u e k ( l , a ) = W V ( l , a ) LN ( x k ( l − 1 ) ) ∈ ℝ D h (9)
其中, q u e r y k ( l , a ) 表示在第a个注意力头经过第l层Transformer块的Token x k ( l − 1 ) 的查询(query)表示, k e y k ( l , a ) 是其键(key)表示, v a l u e k ( l , a ) 是其值(value)表示。 a ∈ [ 1 , A ] 是注意力头的索引,A表示注意力头的总数, W Q ( l , a ) 表示第a个注意力头在第l层线性变换的参数矩阵,LN表示层归一化 [
图2. 集成Token采样的Transformer块结构
本文在每个注意力头,使用点积计算时空联合自注意力,经过Softmax激活函数,获得每个query的自注意力权重,每个层的自注意力计算如下:
α k ( l , a ) = Softmax ( q u e r y k ( l , a ) ⊤ k e y k ( l , a ) D h ) (10)
将得到的权重值与value的值相乘求和,得到每个头部的注意力向量:
s k ( l , a ) = ∑ k = 0 K α k ( l , a ) v a l u e k ( l , a ) (11)
将所有注意力头获得的关联信息结果拼接,通过线性层 W O 后,与第 l − 1 个编码器的输出相加:
x ′ k ( l ) = W O [ s k ( l , 1 ) ⋮ s k ( l , A ) ] + x k ( l − 1 ) (12)
通过MLP (多层感知机,Multilayer Perceptron)处理层归一化LN计算得到的值,再和上述得到的结果使用残差连接,得到最后的输出Token:
x k ( l ) = MLP ( LN ( x ′ k ( l ) ) ) + x ′ k ( l ) (13)
本文在上述MLP操作后引入一个依赖于输入的Token采样模块,计算获得在第l层的Token不再向后续Transformer层传播的丢弃概率:
h k ( l ) = σ ( γ ⋅ x k , d ( l ) + β ) (14)
其中, x k , d ( l ) 表示第l层Token x k ( l ) 的第d个维度,嵌入维度D只有单个维度用于丢弃概率计算,本文使用 d = 0 (第一维度)完成计算, σ ( ⋅ ) 表示Sigmoid函数, γ 和 β 是用于调整嵌入的移动和缩放参数。调整分数值的大小,从而影响Token减少的程度和视频识别的性能。这两个标量参数在所有Token的所有层中共享。丢弃概率用于指导Token传播操作,从而逐步减少Token的数量。
在第 N k 层,当Token的累积丢弃概率超过 1 − є 时,表示此Token的计算在此结束,并且它将不会传播到后续的层, є 是一个正常数用于允许Token在第一层之后被丢弃:
N k = arg min n ≤ L ∑ l = 1 n h k ( l ) ≥ 1 − є (15)
本文的Token采样在推理时,只需从计算中删除已丢弃的Token,以衡量本文的Token采样机制所获得的实际加速。
为了跟踪跨层的丢弃概率的进展,本文计算每个Token的剩余丢弃分数 r k 为:
r k = 1 − ∑ l = 1 N k − 1 h k ( l ) (16)
为了使模型学习一个合理的Token采样机制,本文设计一个衡量损失:
L p = 1 K ∑ k = 1 K ( N k + r k ) (17)
至此,本文完成对于每一层Token的采样。本文首先基于所有层中的丢弃概率分数,对类别Token x c ( l ) 的加权求和得到 x o ,然后将 x o 输入后续的视频识别分类器C输出得到视频行为识别结果,其中分类器C是全连接层。
行为识别的损失函数为 L t a s k :
L t a s k = L C E ( C ( x o ) ) (18)
x o = ∑ l = 1 N c − 1 h c ( l ) x c ( l ) + r c x c ( N c ) (19)
L C E ( ⋅ ) 是分类的交叉熵损失,衡量模型对于视频行为类别预测与真实标签之间的不一致程度。通过最小化这一损失,模型能够提升将输入数据正确映射到相应行为类别的能力。模型的总损失函数为:
L A l l = L t a s k + α p L p (20)
其中, α p 为控制衡量损失的超参数。
本章的实验ActivityNet-v1.3 [
ActivityNet-v1.3该数据集是一个用于视频活动识别和检测的大规模数据集,涵盖了丰富多样的活动类别,如运动、日常生活、社交互动等,每个视频片段都被标注了相应的活动类别和时间段。ActivityNet-v1.3数据集是由带有200种类别标签的10,024个训练视频和4926个测试视频组成的,视频平均时长117秒。
Mini-Kinetics该数据集包含从Kinetics数据集中随机选择的200个类,131,082个视频。视频平均时长为10秒。本文使用121,215个视频进行训练,使用9867个视频进行测试。
为了全面评估模型的准确性,本文针对不同数据集采取了不同的评估指标。针对ActivityNet-v1.3数据集,本文使用mAP [
本章提出了基于帧间差异来估计帧更新概率选择关键帧的方法,所以对于两个数据集的处理使用关键帧采样从视频片段中采样10帧。本文所有实验使用的硬件配置为Intel Core i7-5960X、CPU 3GHz 8cores RAM 8 GB、图像显卡为2张NVIDIA GeForce GTX 2080Ti、Linux18.04操作系统。软件框架使用Pytorch深度学习框架。在训练过程中,本文随机裁剪图像为224 × 224,随机翻转图像进行增强。在推理过程中,将所有帧的大小调整为256 × 256,中心裁剪为224 × 224。在Token采样模块,本文将 γ 设置为10, β 设置为10,衡量损失函数的超参数 α p 设置为5 × 10−4。本文使用Adam (Adaptive Moment Estimation)优化器,其中使用余弦学习速率,初始学习率设置为1 × 10−5。
在本节中,将本文的方法与不同数据集上现有的先进方法进行比较。
AvtivityNet-v1.3数据集。在表1将本文提出的方法与AvtivityNet-v1.3数据集上的其他现有方法进行比较,由于AvtivityNet-v1.3数据集的视频持续时间很长,存在大量冗余信息,因此本文采取的关键帧采样的方法通过时间去冗余,与数据集特性契合。同时本文集成Token采样的时空Transformer方法,能够在利用注意力的同时,去除空间冗余信息。实验结果表明,本文所提出的方法在平均精度均值(mAP)分数优于表1中其他先进方法。具体而言,在mAP这一评估指标上,本文方法与TSQNet [
方法 | Backbones | mAP (%) | GFLOPs | |
---|---|---|---|---|
FrameGlimpses [
|
VGG | 60.2 | 32.9 | |
AdaFrame [
|
ResNet101 | 71.5 | 79.0 | |
LiteEval [
|
MobileNetV2+ResNet101 | 72.7 | 95.1 | |
ListenToLook [
|
MobileNetV2+ResNet50 | 72.3 | 81.4 | |
SCSampler [
|
MobileNetV2+ResNet50 | 72.9 | 42.0 | |
AR-Net [
|
MobileNetV2+ResNet50 | 73.8 | 33.5 | |
FrameExit [
|
ResNet50 | 76.1 | 26.1 | |
TSQNet [
|
ResNet50 | 76.6 | 26.1 | |
本文方法 | TimeSformer | 77.8 | 25.9 | |
表1. 不同方法在 ActivityNet-v1.3数据集上的对比实验
Mini-Kinetics数据集。在表2将本文提出的方法与Mini-Kinetics数据集上的其他现有方法进行比较。从数据集特点上来看,Mini-Kinetics数据集的行为类型与场景高度相关,网络模型可能仅从视频帧空间背景的外观特征就可以推断出行为类型,视频帧存在空间冗余,本文的Token采样方法可以去除空间冗余。与另一种先进的方法D-STEP [
方法 | Backbones | Top1 (%) | GFLOPs |
---|---|---|---|
LiteEval [
|
MobileNetV2 + ResNet101 | 61.0 | 99.0 |
SCSampler [
|
MobileNetV2 + ResNet50 | 70.8 | 42.0 |
AR-Net [
|
MobileNetV2 + ResNet50 | 71.7 | 32.0 |
D-STEP [
|
ResNet50 | 65.4 | 12.4 |
本文方法 | TimeSformer | 73.9 | 25.9 |
表2. 不同方法在 Mini-Kinetics数据集上的对比实验
在本节,本文在ActivityNet-v1.3数据集上进行消融实验分析,从而验证本文方法的有效性。首先本文验证所提出的关键帧采样方法对模型性能的影响。表3给出了,采用均匀采样和关键帧采样两种方式对模型识别准确率以及计算量的影响,为确保对比的公正性,本文将均匀采样与关键帧采样数量均设置为10帧。通过分析表3中的数据,可以观察到关键帧采样方式在仅增加了0.8 GFLOPs的情况下,模型的平均精均值(mAP)增加了2.4%。这一提升体现了关键帧采样方法相较于均匀采样的优越性。
采样方式 | mAP (%) | Δ (差值) | GFLOPs |
---|---|---|---|
均匀采样 | 75.4 | 0 | 24.5 |
关键帧采样 | 77.8 | +2.4 | 25.9 |
表3. 关键帧采样对模型性能的影响
其次本文验证关键帧采样数量对模型性能的影响。为此,本文在表4中对比了采样4帧、8帧、10帧、16帧的情况下,模型的识别准确率以及计算量。通过分析表4中的数据,可以观察到随着采样帧数的增加,模型的识别准确率也呈现上升趋势,但准确率会达到上限。具体来说,本文将采样帧数从4帧增加到8帧,mAP上涨了6.2%;采样帧数从8帧增加到10帧,mAP上涨了2.4%;但是采样帧数从10帧增加到16帧,mAP保持不变,同时计算量增加了8.9 GFLOPs,模型处理更多帧数据却并未获得性能提升,这说明模型性能达到饱和,因此为了达到模型识别准确率和效率间的平衡,本文将重要性采样帧数设置为10。
关键帧采样数量 | 4 | 8 | 10 | 16 |
---|---|---|---|---|
mAP (%) | 69.2 | 75.4 | 77.8 | 77.8 |
GFLOPs | 15.0 | 21.6 | 25.9 | 34.8 |
表4. 关键帧采样数量对模型性能的影响
最后本文验证在嵌入向量中使用单个维度来计算和表示丢弃概率分数对模型性能的影响。如表5所示,与使用完整向量相比,使用向量的第一个维度计算丢弃概率,模型的识别mAP分数仅下降了0.1%。因此在本文的模型中,选择嵌入向量中的第一个元素,并使用它来进行丢弃概率计算。
计算方式 | mAP (%) | GFLOPs |
---|---|---|
使用向量第一个维度 | 77.8 | 25.9 |
使用完整向量 | 77.9 | 29.6 |
表5. 使用向量单个维度计算丢弃概率对模型性能的影响
图3将本文提出的方法时空采样Token的结果可视化。这里展示了本文方法对Mini-Kinetics数据集视频片段的处理。可以观察到,图3是一个滑雪样本的视频序列,第一行是本文对原始视频帧使用关键帧采样获得的关键帧序列,获得了视频片段中最具信息量的视频帧。在第二、第三行,经过时空联合注意力块中的Token采样模块,冗余Token被逐层丢弃,白色区域表示被丢弃的Token。
同时可以观察到,在不同的帧之间,被移除的Token数量会自适应地变化。例如,第一帧相对于其他帧有更多的冗余Token被丢弃,主要归因于第一帧包含更为丰富的背景信息,这体现了本文方法处理不同帧的灵活性。
从第二行可以观察到,在本文方法中,浅层注意力已经可以快速定位关键信息区域,过滤掉复杂的背景干扰。结合第二行、第三行可以观察到本文方法在丢弃冗余Token的同时,能够有效保留运动目标的语义信息,确保目标的空间结构不被破坏。
图3. 时空采样可视化
本文首先分析了现有的基于Transformer的视频行为识别方法的缺陷,均匀采样视频帧可能会错失关键信息同时引入干扰信息,而且视频Transformer的计算成本随着Token数量的增加呈平方级增长,甚至无法完成一些高空间分辨率或长视频的行为识别。本文认为不同的Token对检测任务的重要性可能会有所不同,有的Token在网络的早期阶段是有用的,但在后期阶段包含的有效信息较少。针对上述问题,本文提出一种基于时空采样的行为识别模型。本文针对视频片段设计了一种关键帧采样策略,通过对相邻帧间像素的差异量化,识别出包含显著变化的关键帧。同时为了处理两个关键帧间的时间间隔,本文积累多个连续帧的更新概率。为了增强对于关键帧的建模能力,利用可训练的采样阈值,将更新概率二值化,保证了本方法对于视频关键信息的获取。在时空联合Transformer块中,本文在不引入额外网络的情况下,利用一种依赖于数据的Token采样策略来分层减少Token的数量,显著地降低识别所需的计算量。最终本文使用全连接层作为分类器完成视频级的行为识别。在ActivityNet-v1.3数据集和Mini-Kinetics数据集上进行实验分析,本文的方法能够获取视频关键信息,具有较小计算量的同时,能够达到现有行为识别方法的准确率。
王 冠,彭梦昊,陶应诚,徐 浩,景圣恩. 基于时空采样的视频行为识别Video Action Recognition Based on Spatiotemporal Sampling[J]. 人工智能与机器人研究, 2024, 13(02): 300-312. https://doi.org/10.12677/airr.2024.132032
https://doi.org/10.1109/CVPR.2014.223
https://doi.org/10.1109/ICCV.2017.622
https://doi.org/10.1109/TII.2019.2909473
https://doi.org/10.1109/ICCV48922.2021.00676
https://doi.org/10.1109/CVPR.2015.7298698
https://doi.org/10.1109/CVPR.2016.293
https://doi.org/10.1109/CVPR.2019.00137
https://doi.org/10.1109/CVPR42600.2020.01047
https://doi.org/10.1109/CVPR46437.2021.01535
https://doi.org/10.1109/ICCV.2019.00633
https://doi.org/10.1109/TIP.2020.3007826
https://doi.org/10.1007/978-3-030-58571-6_6
https://doi.org/10.1109/ICCV48922.2021.00728
https://doi.org/10.1007/978-3-031-19833-5_10
https://doi.org/10.1007/978-3-030-58452-8_31
https://doi.org/10.1007/978-3-031-19833-5_5
https://doi.org/10.1109/CVPR52729.2023.00220
https://doi.org/10.3390/s23031616
https://doi.org/10.1109/ICCV.2015.133
https://doi.org/10.1007/978-3-031-19830-4_42