人类社会关系识别作为视频分类中的一个重要问题,逐渐成为计算机视觉领域的一个研究热点。由于视频信息较多,冗余信息过量,关键帧较少,因此如何准确的识别视频中的关键信息进行社会关系推理至关重要。为此,本文提出一种多尺度图推理模型来进行视频社会关系识别。首先我们提取视频中的时空特征和语义对象信息,获得丰富、鲁棒的社会关系表示。接着通过多尺度图卷积利用不同的感受野来进行时间推理,捕捉人物和语义对象间的交互。特别地,我们利用注意力机制来评估每个语义对象在不同场景的效果。在SRIV数据集上的实验结果表明,本文提出的方法优于大多数先进的方法。 As an important issue in video classification, human social relationship recognition has gradually become a research hotspot in the field of computer vision. Due to the large amount of video information, excessive redundant information and less key frames, how to accurately identify the key information in the video and carry out social relation reasoning is of great importance. To this end, this paper proposes a multi-scale graph reasoning model to identify video social relationships. First, we extract the temporal and spatial features and semantic object information in the video to obtain a rich and Lupin representation of social relations. Then use different receptive fields to perform temporal reasoning through multi-scale graph convolution, and capture the interaction between characters and semantic objects. In particular, we use the attention mechanism to evaluate the effect of each semantic object in different scenarios. The experimental results on SRIV dataset show that the method proposed in this paper is superior to most advanced methods.
人类社会关系识别作为视频分类中的一个重要问题,逐渐成为计算机视觉领域的一个研究热点。由于视频信息较多,冗余信息过量,关键帧较少,因此如何准确的识别视频中的关键信息进行社会关系推理至关重要。为此,本文提出一种多尺度图推理模型来进行视频社会关系识别。首先我们提取视频中的时空特征和语义对象信息,获得丰富、鲁棒的社会关系表示。接着通过多尺度图卷积利用不同的感受野来进行时间推理,捕捉人物和语义对象间的交互。特别地,我们利用注意力机制来评估每个语义对象在不同场景的效果。在SRIV数据集上的实验结果表明,本文提出的方法优于大多数先进的方法。
社会关系识别,多尺度图卷积,注意力机制
Fei Xu, Tianyu Zhang, Junbiao Shi
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui
Received: Jan. 22nd, 2021; accepted: Feb. 17th, 2021; published: Feb. 24th, 2021
As an important issue in video classification, human social relationship recognition has gradually become a research hotspot in the field of computer vision. Due to the large amount of video information, excessive redundant information and less key frames, how to accurately identify the key information in the video and carry out social relation reasoning is of great importance. To this end, this paper proposes a multi-scale graph reasoning model to identify video social relationships. First, we extract the temporal and spatial features and semantic object information in the video to obtain a rich and Lupin representation of social relations. Then use different receptive fields to perform temporal reasoning through multi-scale graph convolution, and capture the interaction between characters and semantic objects. In particular, we use the attention mechanism to evaluate the effect of each semantic object in different scenarios. The experimental results on SRIV dataset show that the method proposed in this paper is superior to most advanced methods.
Keywords:Social Relation Recognition, Multi-Scale Graph Convolution, Attention Mechanism
Copyright © 2021 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
社会关系是多个个体之间的紧密联系,并构成我们社会的基本结构。从图像或视频中识别社交关系可以使机器更好地理解人类的行为或情感。然而,与基于图像的社会关系识别相比,基于视频的场景是一个重要但前沿的话题,常常被社会团体所忽视。它具有许多潜在的应用,例如帮助人们在手机中查找家庭视频 [
现有的社会关系识别研究主要集中在基于图像的条件下,算法主要识别单个图像中人与人之间的社会关系。为了区分不同的社会关系,研究了人和语境对象的外观和面部属性。尽管在视频或电影中发现了社交网络 [
为此,我们提出了一个多尺度图推理模型(MSGRM)来解决视频中的社会关系理解问题。在特征提取阶段,利用特征提取网络提取场景的时空特征和语义对象特征。然后在多尺度图推理阶段,利用不同的感受野来学习长期和短期信息,以探索场景中人和语义对象之间的交互。此外,利用注意机制,通过测量每个节点的重要性,自适应地选择某一视频场景中最重要的节点进行识别。这样,MSGRM极大地提高了从视频中获取社会关系的能力。本文主要贡献如下:
1) 本文提出了一种多尺度图推理模型(MSGRM)来识别视频中的社会关系,在端到端的处理过程中,该方法可以准确地捕捉场景中角色的时空信息和交互信息。
2) 为了捕捉视频中的长期和短期时间线索,本文提出了一种基于多尺度时间感受野的MSGCN进行社会关系推理,以捕捉视频中的长期和短期线索。
3) 我们将该方法应用于SRIV数据集,并与一些优秀的研究工作进行了比较,取得了较好的识别效果。
视频中的社会关系识别。在过去的十年中,社会学和计算机视觉的跨学科研究一直是热门领域。主要的研究主题包括社交网络发现 [
计算机视觉中的图模型。在计算机视觉领域,像素,区域,概念和先验知识可以表示为图形,以针对不同任务(例如目标检测 [
注意力模型。人在观看某物时,总是关注感兴趣的视觉信息。一些研究发现,视觉注意力被信息含量最高的区域 [
我们的多尺度图推理模型的总体架构主要包含两部分,第一部分是从原始数据提取语义对象以构建图。该框架将一个视频帧作为输入,为了建模人和物体的时空特征和探究人和物体间的交互信息,我们构建了一个人—物图和上下文对象的共存,并用LSTM和ResNet [
图1. 多尺度图推理模型框架
时空特征提取。为了从视频中学习时间特征,我们遵循 [
语义对象特征提取。使用预先训练的检测器捕获整个视频中的语义对象区域,并从相应的语义对象中提取特征,我们使用Faster R-CNN [
图形模型可以有效地表示空间视觉内容中对象的时间、空间、概念或者相似性关系 [
对于建模人与人之间的交互,我们通过估计视频帧及其相邻帧中人的距离来构建图模型。对于人际之间的邻接矩阵 A p − p ∈ R N ∗ N ,如果人节点 P i 和 P j 是属于同一帧的,我们直接设置 A p − p ( p i , p j ) = 1 。如果人节点 P i 和 P j 属于相邻帧,我们设置
A p − p ( p i , p j ) = { 1 d i s t ( p i , p j ) ≥ τ 0 othersize (1)
其中 d i s t ( p i , p j ) = 1 − f ( p i ) τ f ( p j ) ‖ f ( p i ) ‖ ⋅ ‖ f ( p j ) ‖ 是人节点 P i 和 P j 之间的余弦距离,τ是我们设置的超参数。
同样,场景中的上下文对象是社交关系识别的重要信息,为了捕获视频中人物和上下文对象之间的互动。我们通过估计人物和上下文对象在视频帧中的共存来构建图模型。对于人和物之间的邻接矩阵 A p − o ∈ R ( N + M ) ∗ ( N + M ) ,如果 P i 和 O j 来自同一帧,则设置 A p − o ( p i , o j ) = 1 ,否则设置 A p − o ( p i , o j ) = 0 ,公式如下:
A p − o ( p i , o j ) = { 1 ∩ ( p i , o j ) 0 othersize (2)
其中 ∩ ( p i , o j ) 表示 P i 和 O j 来自同一个视频帧。为了方便我们更加直观的进行图推理,我们把人际交互图和人物共存图整合在一个图上,如图2所示。
图2. 人–物图模型结构
图卷积网络(GCN)通过在图中从节点到其邻居进行消息传播来进行关系推理 [
X ( l + 1 ) = σ ( D ˜ − 1 2 A ˜ D ˜ − 1 2 X ( l ) W ( l ) ) (3)
其中 A ˜ ∈ R N * N 是人–物关系图的邻接矩阵, D ˜ ∈ R N * N 是 A ˜ ∈ R N * N 的度矩阵, X ( l ) ∈ R N ∗ d 是第 ( l − 1 ) 的输出结果, W ( L ) ∈ R d ∗ d 为可学习参数矩阵, σ ( • ) 是一个类似ReLU的非线性激活函数。特别说明,在我们的社会关系推理模型中,上式中的邻接矩阵为我们在3.2节中定义的 A p − p 和 A p − o 。邻接矩阵的索引是按照视频中节点的时间顺序排列的,通过这个顺序,时间信息被隐式地嵌入到构建的图中。初始特征矩阵可表示为 X ( 0 ) = [ x p ( i ) | i = 1 , 2 , ⋯ , N ; x o ( j ) | j = 1 , 2 , ⋯ , M ] T ,其中 x p ( i ) 和 x o ( j ) 是从视频中人和物体对象节点中提取的特征向量。GCNs的最终输出是图中节点的更新特征,这些特征可以聚合成视频级的特征向量用于社会关系预测。
GCN在一幅图中的所有节点上以及视频的整个时间范围上执行操作,这意味着GCN可以在时间域捕获全局视图。然而,社会关系识别的关键因素(如一个人的特定行为)可能出现在被不重要信息淹没的局部时间位置。因此,我们设计了一个多尺度图卷积网络(MSGCN),通过不同的时间感受野来学习长期和短期信息。如图3所示为我们的多尺度卷积网络的一个块结构,每个块包含具有不同感受野的多个平行分支。Scale 1是标准GCN,它在整个相邻矩阵上执行图卷积并覆盖图中的所有节点。Scale 2给出了具有较小时间感受野的图卷积的示例,而Scale k是更一般的说明。对于每个Scale,所有滑动窗口的激活都汇总到一个特征矩阵中,该特征矩阵的形状与标准GCN的输出相同。通过沿着相邻矩阵的对角线滑动感受野,模型可以学习从视频的开始到结束的短期特征。最后,对多个尺度的输出进行平均池化合并,以生成下一个MSGCN层的特征矩阵X(l+1)。经过多次交互后,节点消息已经通过图进行传播,我们可以得到每个节点最终的状态为
Y = { y 1 , y 2 , ⋯ , y N + M } (4)
图3. 具有多尺度感受野的图卷积块
计算每个节点的特征后,我们可以直接将它们通过MSGCN聚合起来进行关系识别。然而,在不同的视频场景中,语义对象对区分关系的贡献并不相同。为了解决这一问题,我们引入了一种新的注意力机制,根据图形结构和视频特征自适应地推理出最相关的上下文对象。对于每一个社会关系和邻居对象对,该机制将它们的场景外观特征作为输入,并计算出这个对象对关系的重要性。我们首先将每个图中对象节点的外观特征和视频时空特征结合成一个向量 h i , j ∈ R d ∗ d
h i , j = R E L U ( x o + w t ⊗ x t ) (5)
其中 w t ∈ R d ∗ d 是一个权重矩阵, ⊗ 表示按矩阵元素相乘。
然后,我们通过sigmoid函数来计算每一个对象节点的注意力系数 a i , j ∈ [ 0 , 1 ] ,
a i , j = 1 1 + exp ( − ( W h , a h i , j + b a ) ) (6)
其中 W h , a ∈ R 1 ∗ k 是一个权重矩阵,根据节点j对节点i的重要性的不同,可将每个特征转换为可用的表达性更强的特征, b a 是一个偏置项。
对于关系 r i ,我们将其自人物节点的特征与上下文对象节点的加权特征向量连接起来作为其最终特征,
f i = [ y r i , a i 1 y o 1 , a y i 2 o 2 , ⋯ , a i M y i M ] (7)
然后由最后一层fc层对特征向量进行处理,生成关系得分:
s i = W f i + b (8)
表示视频场景具有社会关系 r i 的可能性。对所有关系节点重复此过程,计算得分向量 s = { s 1 , s 2 , ⋯ , s N } 。
整个网络通过交叉熵损失与地面真实标签 s ^ 一起训练,
F l o s s ( s ^ , s ) = ∑ i = 1 N s ^ i ∗ log ( s i ) + ( 1 − s ^ i ) ∗ log ( 1 − s i ) (9)
其中s是预测的类别概率。
SRIV数据集:本文使用的数据集来自于电影和电视剧,名为SRIV [
在特征提取模块,从视频中随机采样的关键帧L的数量设置为128。类似于 [
本文采用四个评价标准来评价我们所提出的方法的性能。
Sub-Relation | |||
---|---|---|---|
Dominant | Competitive | Trusting | Warm |
770 | 840 | 1614 | 1482 |
Friendly | Attached | Inhibited | Assured |
2221 | 600 | 594 | 810 |
Obj-Relation | |||
Supervisor | Peer | Service | Parent |
627 | 469 | 238 | 321 |
Mating | Sibling | Friendly | Hostile |
600 | 141 | 1073 | 434 |
表1. SRIV上每种类别的统计数量
F1_micro和F1_macro这两个评估基于是 F 1 分数的标签评估,第i类的 F 1 表示为
F i ( i ) = 2 ∗ T P ( i ) / ( 2 ∗ T P ( i ) + F P ( i ) + F N ( i ) ) (10)
其中TP(i)、FP(i)、FP(i)、FN(i)分别为第i类的正阳性、假阳性、真阴性、假阳性的个数,因此, F 1 _ micro 和 F 1 _ macro 的计算公式如下
F 1 _ macro = 1 C ∑ i = 1 C F 1 ( i ) (11)
F 1 _ micro = 2 ∗ ∑ i = 1 C T P ( i ) / ( 2 ∗ ∑ i = 1 C T P ( i ) + ∑ i = 1 C F P ( i ) + ∑ i = 1 C F N ( i ) ) (12)
其中C为类别数。
Accuracy 我们采用了Zhang等 [
Accuracy = 1 2 ( T P N p + T N N n ) (13)
其中Np和Nn为阳性阴性样本数。
Subset Accuracy 由于我们的sub-relation类为主观感知的,分类标准更加严格细致,要求预测的标签集与样本真实标签集完全匹配,避免标签集中相似的标签干扰最终的预测,其具体公式如下:
Subaccuracy ( s i ) = 1 n ∑ i = 1 n I ( s i = s ^ i ) (14)
这里我们探究了我们对尺度图模型中不同模块的效果,实验结果如表2所示。从结果中我们发现,MSGRM的整体准确率要高于GCN,这表明多尺度感受野能够从长期和短期范围捕捉到有用的特征。此外,在有Attention模块辅助下的实验结果要高于没有Attention模块的结果,这说明注意力模块可以关注与社会关系识别相关的关键帧。
Method | Accuracy | |
---|---|---|
Sub-Relation | Obj-Relation | |
GCN | 0.6725 | 0.6968 |
MSGRM | 07154 | 0.7326 |
GCN + Attention | 0.7369 | 0.7531 |
MSGRM + Attention | 0.7756 | 0.7924 |
表2. 不同功能模块的效果
为了验证所提出的多尺度图推理模型框架的有效性,我们在SRIV数据集上与几种最先进的方法进行了比较,实验结果如表3、表4所示。具体方法如下:
Method | F1_micro | F1_macro | Accuracy | Subaccuracy |
---|---|---|---|---|
C3D [
|
0.3958 | 0.3018 | 0.5568 | 0.1451 |
LSTM [
|
0.4714 | 0.4193 | 0.6547 | 0.3792 |
TSN [
|
0.6034 | 0.4894 | 0.5412 | 0.3045 |
Multi-stream [
|
0.7019 | 0.6383 | 0.6136 | 0.5291 |
STMV [
|
- | - | 0.7535 | 0.5249 |
TSM [
|
- | - | 0.8274 | 0.5936 |
ASRN [
|
0.7353 | 0.6812 | 0.6722 | 0.5392 |
MSGRM (Ours) | 0.7124 | 0.6725 | 0.7756 | 0.5824 |
表3. Sub-relation类上不同方法的性能
Method | F1_micro | F1_macro | Accuracy | Subaccuracy |
---|---|---|---|---|
C3D [
|
0.4383 | 0.3886 | 0.0557 | 0.0347 |
LSTM [
|
0.6780 | 0.5776 | 0.6667 | 0.2797 |
TSN [
|
0.7142 | 0.6142 | 0.7089 | 0.3482 |
Multi-stream [
|
0.8119 | 0.6683 | 0.7436 | 0.5213 |
STMV [
|
- | - | 0.6322 | 0.5311 |
TSM [
|
- | - | 0.7125 | 0.6032 |
ASRN [
|
0.8141 | 0.6766 | 0.7692 | 0.5259 |
MSGRM(Ours) | 0.7945 | 0.6941 | 0.7924 | 0.5762 |
表4. Obj-relation类上不同方法的性能
C3D [
LSTM [
TSN [
Multi-stream [
STMV [
TSM [
ASRN [
MSGRM (Ours):这是我们所提出的多尺度图推理模型,它采用MSGCN学习场景中人物的多尺度动态,并融合了场景的时空注意力,实现社会关系推理。
表3和4显示了我们的模型与最先进的方法比较的结果。我们的MSGRM达到了比较领先的性能。这是因为通过不同尺度的图模型,学习了场景中不同感受野的信息,提取了视频中的关键序列特征,最后融合我们的时空注意力,促进了我们的社会关系识别。C3D、LSTM和TSN的性能很差,这表明这些方法虽然可以更好地描述视频的其他一些特征,但却无法提取社会关系的正确表示。Multi-stream和STMV都只关注视频的时空特征,因此很难获得更好的性能。TSM和ASRN因为融合了场景中的各个角度的特征,这些特征很大程度上能表示场景的社会关系,所以性能有很大提升。
注意力机制能为我们的多尺度图推理模型推理出最相关的上下文语义对象,如图4给出一些实例。图中左边为我们的原始采样帧,中间为我们的注意力机制生成的一系列热图,右边为我们的热图所对象的语义对象边界框。特征图显示了我们的注意力机制能过准确的捕获场景中重要的语义对象,因此能够进行有效的人–物特征交互,以提升社会关系识别的准确性。
图4. 场景注意力可视化实例
在这项工作中,我们提出了一个多尺度图推理模型来解决视频中的社会关系识别问题,并引入特征提取模块以丰富视频中的时空特征表示。具体来说,我们的模型利用MSGCN来探索视频中人物与场景语义之间的交互,并通过不同的时间感受野来学习长期和短期信息。最后融合一种注意力机制,该机制测量场景中每个节点的重要性,以自适应地选择最重要的对象以提高社会关系的性能。在数据集SRIV上进行的大量实验证明,我们提出的多尺度图推理模型取得了优秀的表现。
许 飞,张天雨,史俊彪. 视频社会关系识别的多尺度图推理模型Multi-Scale Graph Reasoning Model for Video Social Relation Recognition[J]. 计算机科学与应用, 2021, 11(02): 423-434. https://doi.org/10.12677/CSA.2021.112042
https://doi.org/10.1007/978-3-642-15555-0_13
https://doi.org/10.1016/j.eswa.2007.12.034
https://doi.org/10.1109/ICCV.2011.6126306
https://doi.org/10.1109/CVPRW.2009.5206526
https://doi.org/10.1109/CVPR.2016.332
https://doi.org/10.1109/CVPR.2013.320
https://doi.org/10.1109/CVPR.2017.365
https://doi.org/10.1007/978-3-319-73603-7_29
https://doi.org/10.1109/CVPR.2016.110
https://doi.org/10.1007/978-3-642-33765-9_16
https://doi.org/10.1109/ICCV.2015.414
https://doi.org/10.24963/ijcai.2018/142
https://doi.org/10.1037/0033-2909.126.2.187
https://doi.org/10.1007/978-3-319-46484-8_2
https://doi.org/10.1109/TPAMI.2014.2359888
https://doi.org/10.1023/B:VISI.0000022288.19776.77
https://doi.org/10.1007/978-3-030-01228-1_25
https://doi.org/10.1007/978-3-319-46448-0_8
https://doi.org/10.1145/3132847.3132963
https://doi.org/10.1145/3123266.3123448
https://doi.org/10.1587/transfun.E101.A.654
https://doi.org/10.1109/TCYB.2018.2831447
https://doi.org/10.1109/CVPR.2017.219
https://doi.org/10.1016/j.neucom.2018.12.053
https://doi.org/10.1007/978-3-319-10602-1_48
https://doi.org/10.1109/ICCV.2015.510
https://doi.org/10.1016/0020-0190(72)90037-3
https://doi.org/10.1109/ICME.2019.00198
https://doi.org/10.1587/transinf.2019EDP7104