针对当前行为识别网络抗干扰能力不足和单一特征难以鲁棒性的表达行为的问题,本文提出了一种融合多模态特征的多流行为识别网络模型。首先,利用三维神经网络来提取RGB视频帧的表观特征和光流帧的运动特征,并利用注意力机制学习重要信息的权重。同时,本文引入了一个姿态网络来建模人体姿态序列的时空特征,弥补表观特征和运动特征对行为表达能力的不足。最后通过对三种特征的学习来实现行为识别。本文在JHMDB数据集上进行实验验证,结果表明我们的方法优于当前大多数先进的方法。 Aiming at the problems of insufficient anti-interference ability of current action recognition net-works and the difficulty of expressing action robustly with a single feature, this paper proposes a multi-modality feature fusion multi-behavior recognition network model. First, use a three-dimensional neural network to extract the apparent features of RGB video frames and the motion features of optical flow frames, and the attention mechanism is used to learn the weight of important information. At the same time, a pose network is introduced to model the spatial and temporal features of human posture sequence, which makes up for the deficiency of apparent features and motion features in the expression ability of action. Finally, action recognition is realized by learning the three features. Experimental verification on JHMDB dataset shows that our method is superior to most of the current advanced methods.
针对当前行为识别网络抗干扰能力不足和单一特征难以鲁棒性的表达行为的问题,本文提出了一种融合多模态特征的多流行为识别网络模型。首先,利用三维神经网络来提取RGB视频帧的表观特征和光流帧的运动特征,并利用注意力机制学习重要信息的权重。同时,本文引入了一个姿态网络来建模人体姿态序列的时空特征,弥补表观特征和运动特征对行为表达能力的不足。最后通过对三种特征的学习来实现行为识别。本文在JHMDB数据集上进行实验验证,结果表明我们的方法优于当前大多数先进的方法。
行为识别,注意力机制,姿态序列,3D卷积,姿态网络
Binbin Zhang, Chaohui Jiang, Junjun Li
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui
Received: Jan. 23rd, 2021; accepted: Feb. 18th, 2021; published: Feb. 25th, 2021
Aiming at the problems of insufficient anti-interference ability of current action recognition networks and the difficulty of expressing action robustly with a single feature, this paper proposes a multi-modality feature fusion multi-behavior recognition network model. First, use a three-dimen- sional neural network to extract the apparent features of RGB video frames and the motion features of optical flow frames, and the attention mechanism is used to learn the weight of important information. At the same time, a pose network is introduced to model the spatial and temporal features of human posture sequence, which makes up for the deficiency of apparent features and motion features in the expression ability of action. Finally, action recognition is realized by learning the three features. Experimental verification on JHMDB dataset shows that our method is superior to most of the current advanced methods.
Keywords:Action Recognition, Attention, Posture Sequence, 3D Convolution, Pose Network
Copyright © 2021 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
近些年,随着深度学习理论的发展和完善,基于视频的人体行为识别因具有很大挑战性,吸引了越来越多的研究者专注于该领域。行为识别的目的是对一段视频或者图片序列进行分析,提取时空维度的特征,分析行为模式,识别出人在其中执行的动作。相关技术在生活的各个领域得到了广泛应用。但现有的行为识别系统仍有很大的局限性且网络容易过拟合。在真实视频场景中,背景和光照变化会造成冗余干扰,动作本身复杂多变且肢体相互遮挡,这些都使得如何鲁棒性的表达行为特征成为了一个值得深究的问题。因此,本文的研究目标是设计强泛化能力的行为识别网络,识别行为。
早期的研究主要是用卷积神经网络学习多帧RGB图片的表观特征来建模视频行为 [
此外,考虑到在建模整个连续帧的表观特征和运动特征的时候,冗余信息的干扰对动作识别性能的影响会累积放大,我们引入空间注意力机制来抑制无关信息,通过学习帧级关键信息的权重来关注动作发生的区域。
与现有动作识别方法相比,本文有以下几点贡献:
1) 本文提出了一个多流网络架构,同时计算和整合三种不同模态的信息:RGB、光流、姿态序列。充分利用了不同特征之间的互补性和差异性。
2) 本文引入空间注意力机制,对动作的发生区域计算注意力得分,产生该区域增强的权重,以此来增强该区域特征的显著性,抑制杂乱的无关冗余信息,从而提高行为识别的效率和精度。
3) 为了捕捉姿态序列的空间结构特征和时序动态特征,我们用一个姿态网络对其进行跨时空建模,显著提高了视频行为识别对噪声干扰的鲁棒性。
4) 我们的方法在JHMDB数据集上进行试验验证,取得了很好的效果,识别精度优于当前大多数先进的方法。
行为识别的目的是利用算法对一段视频或者图像序列进行分析,识别出人在其中执行的动作,并给出分类分数。行为通常是空间上相似时序上变化连续的一系列图片帧的连接,其特有的时空信息,对行为模式的分析至关重要。如何利用好时空维度特征,是行为识别领域的重要研究课题,同时为行为识别指明了方向。
早期的行为识别主要依赖于一些传统的特征提取算法。通过提取视频帧的局部关键点的特征来描述行为。I. Laptev等人 [
随着深度学习理论的发展,基于卷积神经网络的方法不再依赖手工特征,并在行为特征表征上远胜于传统方法。相比于图片,视频多出了时序维度,Karen等人 [
基于图的模型因其对图结构化的数据的高效表达引起了广泛的关注 [
本文的行为识别网络架构如图1所示,接下来我们将对模型框架作详细的介绍。本文首先利用光流算法 [
图1. 行为识别网络整体架构图
人体姿态序列和关节的轨迹对场景和光照变化有很强的鲁棒性,其空间结构和时序动态变化为行为识别提供了强有力的辨别特征,在很大程度上弥补了RGB和光流特征的不足。通常视频由一系列的帧组成,每一帧的姿态序列是一组关节点坐标的集合,本文用姿态检测算法 [
图2. (a)单帧姿态图和(b)姿态模式图
得益于强大的长时序建模能力,LSTM [
图3. GCN-LSTM单元
本文用 W x ∗ g X 表示图卷积计算。给定第t帧姿态图 G t ( V t , E t ) ,图卷积计算公式如下:
Y t = D − 1 2 A D 1 2 X t W (1)
其中, X t 表示图节点的特征,大小为 N × M ,N表示图节点的数量,M表示每个图节点的特征。A表示整个图的空间结构的邻接矩阵,D是对邻接矩阵进行归一化的度矩阵,W是卷积计算的权重, Y t 表示输入特征 X t 在经过图卷积推理后的输出特征。
同LSTM,我们的GCN-LSTM模型也有三个核心部件,分别是:输入门 i t ,输出门 o t 和忘记门 f t 。其计算公式表示如下:
i t = σ ( W x i ∗ g X t + W h i ∗ g H t − 1 + b i ) (2)
f t = σ ( W x f ∗ g X t + W h f ∗ g H t − 1 + b f ) (3)
o t = σ ( W x o ∗ g X t + W h o ∗ g H t − 1 + b o ) (4)
g t = tanh ( W x c ∗ g X t + W h c ∗ g H t − 1 + b c ) (5)
C t = f t ⊙ C t − 1 + i t ⊙ g t (6)
H t = O t ⊙ tanh ( C t ) (7)
其中, σ ( ⋅ ) 和 tanh ( ⋅ ) 分别表示sigmoid激活函数和tanh激活函数, ⊙ 表示两矩阵的哈达玛积。 g t 表示在t时刻候选的记忆状态。输入 X t 是图结构的数据,受门控机制的影响,中间隐状态 H t 和记忆细胞 C t 也都是图结构的数据。
综上所述,中间隐状态 H t 包含了丰富的结构信息和时序特征。在最后一个GCN-LSTM层,我们把每个图节点的特征聚合,计算如下:
A J t = ∑ i = 1 N H t i (8)
用最终的聚合特征 A J t 预测动作类别分数。
对于姿态序列,本文使用全连接层和LSTM层将每个关节的二维坐标映射到高维特征空间进行特征增强。首先全连接层将关节的坐标映射为256维的向量,用 J t ∈ R N × 256 表示, J t i ∈ R 1 × 256 表示每个关节点的特征,其只包含位置信息。在图模型中, J t i 位置特性是有益的学习空间结构的特征。连续两帧之间的帧差特征 F t i 便于GCN-LSTM获取姿态序列沿时间维度的长时序依赖关系。本文将这两种特征进行串联作为增强特征来丰富节点的特征信息,以兼顾各自的优势。然而,位置特征 J t i 和帧差特征 F t i 的拼接存在特征向量的尺度差。因此,本文采用LSTM层来消除这两个特征之间的尺度差:
F A t i = L S T M ( c o n c a t ( J t i , ( J t i − J ( t − 1 ) i ) ) ) (9)
其中 F A t i 是关节i在t时刻的增强特征。不同关节之间共享线性层和LSTM。经过LSTM层之后,将特征增强的序列 { F A 1 , F A 2 , F A 3 , ⋯ , F A T } 作为节点特征送入后面的GCN-LSTM层。本文堆叠了三个GCN-LSTM层来学习姿态序列的时空模式信息。
受到注意力机制在NLP中成功应用的启发,我们在网络中引用了空间注意力机制,对I3D网络提取的特征根据关注区域的重要程度重新分配权重。视频中动作发生区域的特征的重要程度明显高于视频场景中其他部分特征的重要程度,利用空间注意力机制对重要区域的特征分配更高的注意力得分,提高该区域的特征显著性,以此达到抑制无关冗余信息的目的,提高网络的效率和性能。本文的注意力模型如下图4所示,主要部分是由8个卷积层构成的编码器,它能够对输入特征重新分配权重。编码器的输入特征是I3D网络提取的特征 X * = { X 1 * , X 2 * , ⋯ , X N * } , X i * ∈ R H × W × C 。其中 X i * 表示第i帧的特征,输入的帧数为N。我们用*表示光流或RGB。
解码器的作用是给出重新分配权重的特征的最终得分。其计算公式如下:
β i * = C o n v ( X i * ) (10)
W i * = 1 / [ 1 + e − β i * ] i = 1 , 2 , 3 , ⋯ , N (11)
其中 C o n v ( ⋅ ) 是基础卷积网络, β i * 是由卷积网络计算得到的权重向量。 W i * 是激活函数对卷积网络计算得到的权重向量进行归一化后得到的注意力权重系数。最后将 W i * 分别与对应的原始输入特征相乘,得到重新分配注意力权重的特征。用公式表达如下:
F * = ∑ i N W i * X i * (12)
F * 即为重新分配注意力权重的特征。
图4. 注意力模型
本文采用标准的交叉熵损失函数。由于模型有三个网络分支分别学习不同模态的信息,我们给每一个网络分支定义一个损失函数,以此来实现对各个分支网络的训练,经多轮训练不断迭代的产生动作分类的分类分数。对于每个网络分支,损失函数如下:
L j = − ∑ n = 1 c ( y n log y j ) (13)
其中, y n 是动作所属类的真实标签, y j 是网络预测的类别分数,C表示类别数。当 j = R 时表示RGB分支的损失函数, j = O 时表示光流分支的损失函数, j = P 时表示姿态分支的损失函数。
综上所述,本文模型的损失函数表示如下:
Total Loss = L O + L R + L P (14)
在本节内容中,首先介绍实验所采用的的数据集,然后说明本文的实验设置和采用的评价标准并分析论述实验结果,以验证本文方法的有效性。
JHMDB数据库 [
首先,将图片帧的分辨率调整为112 × 112,并取连续64帧输入I3D网络提取特征,然后用注意力模块对特征进行增强,最后用三层全连接神经网络提取更高维度特征用于分类。对于姿态网络,我们采样固定长度的T帧姿态序列作为输入,本实验中T = 30。在本文的GCN-LSTM中,每个节点的邻居集只包含与自身直接相连的节点。GCN-LSTM层的通道设置为512。在训练过程中,本文使用Adam优化器 [
本文采用ACC (准确率)作为评价标准,以正确分类的个数占全部分类数的百分比来衡量模型的性能。
本文首先消融研究在引入姿态信息后对行为识别精度的影响,如表1所示。接着验证注意力机制对实验结果的影响,如表2所示。然后将本文的模型与当前比较先进的方法作比较,如表3所示。
模型 | ACC (%) | ||
---|---|---|---|
I3D + RGB | I3D + 光流 | GCN-LSTM + 姿态序列 | |
√ | 66.4 | ||
√ | √ | 76.3 | |
√ | √ | √ | 83.3 |
表1. 不同模态信息的组合对行为识别精度的影响
Method | ACC (%) |
---|---|
None | 79.6 |
Attention | 83.3 |
表2. 空间注意力对识别精度的影响
Method | JHMDB (%) |
---|---|
P-CNN [
|
61.1 |
MR Two-Stream R-CNN [
|
71.1 |
PA3D [
|
69.5 |
Chained [
|
76.1 |
Potion [
|
57.0 |
Our | 83.3 |
表3. 与先进方法的比较
由表1的结果可以看出:多模态信息的融合能够显著提高网络的识别能力。通常不同模态的特征包含不同行为模式的信息,但仅仅通过表观特征和运动特征去表达行为是不足的且抗干扰的能力有限。本文通过引入帧级姿态信息,并利用GCN-LSTM网络学习其空间结构信息和长时序依赖关系,有效的提高了识别性能。充分说明本文方法的有效性。
由表2可以看出,空间注意力的加入明显提高了模型的识别准确度。显而易见,本文的空间注意力机制有效的抑制了杂论的信息,增强了模型对重要区域特征的关注度,有利于对行为模式的学习。为了展示关注度的效果,本文以动作类“Kickball”和“Throw”为例,对关键帧的关注度效果进行可视化。如图5所示,很明显,本文的方法始终能关注动作发生的显著性区域。
图5. 动作类“Kickball”(a)和“Throw”(b)及关键帧的注意力可视化结果
表3的比较结果表明,相较于当前先进的方法,本文的方法有更好的表现。首先,我们的ACC值达到了83.3%,明显高于其他方法。其次,相较于没有利用注意力机制的方法,本文利用空间注意力增强了模型对动作发生区域的关注度,有效的抑制了干扰。最后,本文引入姿态信息来学习行为模式,弥补了表观特征和运动特征对行为表达能力的不足,提高了网络的鲁棒性,显著提升了行为识别的性能。
本文提出了一种新颖的多流网络架构来整合多种模态的特征,用于视频行为识别。首先利用I3D网络来学习RGB视频帧的表观特征和光流帧的运动特征,提取空间和时间维度的深层语义信息,并利用注意力机制对动作的发生区域重新分配权重,以此来抑制杂乱的信息,捕捉更有用的信息。在此基础上,本文引入了一个姿态网络来对人体姿态序列跨时空建模来提高网络对光照和场景变化等冗余干扰的鲁棒性,弥补表观特征和运动特征对行为表达能力的不足,提高了行为识别的准确度。在JHMDB数据集上的实验结果表明,本文提出的方法在识别精度上胜过当前大多数先进的方法。
张彬彬,江朝晖,李君君. 融合多模态特征的多流行为识别网络Multi-Stream Action Recognition Network Fusing Multi-Modal Features[J]. 计算机科学与应用, 2021, 11(02): 451-460. https://doi.org/10.12677/CSA.2021.112045
https://doi.org/10.1109/CVPR.2014.223
https://doi.org/10.1109/CVPR.2016.213
https://doi.org/10.1109/ICCV.2015.510
https://doi.org/10.1109/CVPR.2017.502
https://doi.org/10.1007/s11263-005-1838-7
https://doi.org/10.1145/1291233.1291311
https://doi.org/10.1109/CVPR.2011.5995407
https://doi.org/10.1109/ICCV.2013.441
https://doi.org/10.1109/CVPR.2015.7299059
https://doi.org/10.1109/CVPR.2015.7298878
https://doi.org/10.1007/978-3-030-01240-3_25
https://doi.org/10.1109/CVPR.2017.11
https://doi.org/10.1016/j.cviu.2017.10.011
https://doi.org/10.1109/ICCV.2015.368
https://doi.org/10.1109/CVPR.2019.00811
https://doi.org/10.1109/ICCV.2017.316
https://doi.org/10.1109/CVPR.2018.00734
https://doi.org/10.1109/ICCV.2013.396
https://doi.org/10.1007/978-3-540-74936-3_22