基于Transformer的人物交互检测综述
Transformer-Based Human Interaction Detection: A Survey
DOI:10.12677/csa.2024.148175,PDF,HTML,XML,下载: 5浏览: 59科研立项经费支持
作者:管尹凡,努尔古丽·艾子木把,王慧玲*:伊犁师范大学网络安全与信息技术学院,新疆 伊宁
关键词:人物交互检测Transformer深度学习目标检测Human Interaction DetectionTransformerDeep LearningObject Detection
摘要:人物交互(HOI)检测旨在定位图像中的人和物体,并对它们之间的交互进行分类。实用的HOI检测系统执行以人为中心的场景理解,因此对许多应用具有巨大的潜在影响,如监视事件检测和机器人模仿学习。随着最近Transformer网络在目标检测方面的成功,基于Transformer的HOI检测方法已被积极开发,引领了近期HOI关系检测研究的进步。基于Transformer的HOI检测方法利用Transformer的自注意力机制来提取上下文语义信息和嵌入来表示HOI实例,成为HOI检测任务的新趋势。本文综述了现有方法的最新研究进展,并将其分为四类:早期端到端模型、利用DETR变体和改进骨干网络的模型、语言–图像预训练的模型以及基于DETR的两阶段模型。系统地阐述目前基于Transformer的HOI检测方法的发展现状,分析各种流派的优缺点,梳理该领域方法的发展脉络,最后对未来的研究方向进行展望。
Abstract:Human-Object Interaction (HOI) detection aims to localize humans and objects in an image and classify their interactions. Practical HOI detection systems enable human-centric scene understanding, thus holding significant potential impact on various applications such as surveillance event detection and robot imitation learning. With the recent success of Transformer networks in object detection, Transformer-based HOI detection methods have been actively developed, leading to advancements in recent research on HOI relation detection. Transformer-based HOI detection methods leverage the self-attention mechanism of Transformers to extract contextual semantic information and embeddings to represent HOI instances, becoming a new trend in HOI detection tasks. This paper reviews the latest research progress of existing methods, categorizing them into four types: early end-to-end models, models using variants of DETR and improved backbone networks, language-image pre-trained models, and two-stage models based on DETR. It systematically elaborates on the current development status of Transformer-based HOI detection methods, analyzes the advantages and disadvantages of various approaches, outlines the development trajectory of methods in this field, and finally provides prospects for future research directions.
文章引用:管尹凡, 努尔古丽·艾子木把, 王慧玲. 基于Transformer的人物交互检测综述[J]. 计算机科学与应用, 2024, 14(8): 179-193. https://doi.org/10.12677/csa.2024.148175

1. 引言

人物交互(HOI)检测是视觉理解中的重要任务之一,需要对图像场景中存在的人和物体进行检测,并识别出人和物体之间的交互关系类别,图1展示了人物交互检测的实例。近年来,由于HOI检测的广泛应用,如辅助机器人、视觉监控和视频分析等方面的关键作用,吸引了越来越多研究者的关注[1]-[4]。在以往的利用深度学习的HOI检测研究中,一阶段检测算法和两阶段检测算法被认为是该领域的两大技术路线。

Figure 1.Examples of HOI detection

1.人物交互检测实例

早期的HOI检测方法通常采用两阶段方法[5][6],大多采用串行架构。在第一阶段使用目标检测器来定位人和物体。在第二阶段提取人体和物体的特征,并将其输入分类器,以预测它们之间的交互。两阶段方法通常更强调第二阶段,通过引入捕获上下文信息[7]或结构信息的模型来建模人和物体的关系[8]。然而,整合人物对的语义信息需要大量的时间和计算资源。两阶段方法的优点是准确性较高,但缺点是速度较慢。

为了达到高效率,一阶段方法直接使用联合区域或交互点来检测人物对并并行识别交互动作类,而不需要进行分阶段处理。Union Det[9]首次提出了一种一阶段直接检测人物对联合区域的方法。其他一阶段方法[10]-[12]将HOI检测表述为关键点检测问题,从而实现HOI的一阶段解决方案。首先使用Hourglass104[13]或DLA-34[14]等关键点热图预测网络提取外观特征,然后利用多分支网络预测交互点、来自交互点的偏移向量、位于交互点的动作类别以及人物和物体框来实现HOI检测。一阶段方法的优点是速度较快,但缺点是准确性较低。

Transformer[15]架构在自然语言处理领域取得了巨大成功,这促使研究人员将其引入计算机视觉领域,并探索其在视觉识别任务中的应用潜力。Transformer架构打破了CNN有限的感受野限制,凭借与Faster R-CNN[16]相比没有Proposal、与YOLO[17]相比没有Anchor、与Center Net[18]相比没有Center,没有NMS后处理步骤,能够直接预测检测框和类别的优点,引起了广泛的关注。DETR[19]是一种基于Transformer的目标检测模型,其总体框架如图2所示。遵循DETR的人物交互检测模型首先对输入图像进行预处理,提取图像特征。然后,采用Transformer架构对提取的特征进行编码和解码,以捕获图像中的全局信息和人–物之间的交互关系。最后,通过前馈网络对图像中的对象进行预测,并输出每个对象的类别和边界框。

Figure 2.DETR model framework

2.DETR模型框架

本文针对基于Transformer的HOI检测经典工作和最新前沿进展进行概括性的总结归纳,分别从一阶段和两阶段HOI检测任务展开。对于算法部分,本文围绕HOI检测的两个核心问题展开研究,即人物关联和交互关系预测。本文依据算法模型的结构差异将交互关系检测算法分为一阶段方法和两阶段方法。围绕两种方法具有代表性的工作,梳理两种方法的发展,分析各自的优点和局限性。此外,本文进一步归纳总结了零样本HOI检测领域的研究进展。分析现有识别与检测算法的优劣。总结目前HOI检测领域依旧面临的挑战,并以此引出人物交互关系检测领域的未来发展趋势。

2. 基于Transformer的一阶段人物交互检测模型

2.1. 基于DETR的端到端人物交互检测模型

DETR使用Transformer架构进行目标检测,这是一种在自然语言处理领域取得巨大成功的模型。采用端到端训练模式,直接从输入图像预测最终的检测结果,无需中间步骤。使用全局损失函数,强制模型预测唯一的结果。DETR的提出,为物体检测领域带来了新的思路。与传统的物体检测模型相比,DETR凭借速度更快、精度更高、泛化能力更强的优势,在物体检测领域脱颖而出。

在DETR出现之前,常用的HOI检测流程是通过将这一任务解耦为目标检测和交互分类,采用现成的目标检测器(Faster R-CNN[16], YOLO[17])并设计推理模块来进行交互分类,这通常需要复杂的后处理来对目标检测结果进行分组和交互预测。为了解决现有HOI检测模型需要复杂的后处理步骤来对目标检测结果进行分组和交互预测的问题,出现了端到端HOI检测模型QPIC[20],HOI Trans[21],HOTR[22],AS-Net[23]。它遵循DETR的基于Transformer的检测器,将HOI作为集合预测问题,在交互中定位人物实例方面取得了显著进展。

为了使DETR模型能够适应HOI检测任务,QPIC[20]和HOI Trans[21]模型对DETR的Transformer结构进行了改进,添加额外的检测头用于分别定位人和物体,并预测它们之间的动作。优化二分图匹配,通过增加额外的代价项,用于动作预测,提升匹配的准确性。

QPIC[20]首次将Transformer方法引入到HOI检测任务中,并取得了突破性的成果。该模型以其简单、高效的端到端架构以及优异的性能,成为许多后续研究的基线。它由一个CNN主干以及一个 Transformer编码器和解码器组成。Transformer的注意力机制能够有效地在图片全局范围内聚合关键的上下文信息,使每个HOI三元组都能看到全局所有空间位置的信息。具体来说:每个查询向量只关注一组人物对,避免将多组交互行为的特征混合,而且每个查询向量可以分别关注不同区域。模型利用注意力机制来自动学习关注哪些地方来预测动作类别,而不是简单地人为设计用人体和物体框连线的中点。这避免了基于CNN的方法中存在的一些问题,例如:中点的特征和交互动作可能没有直接关系。交互行为中的点距离过近可能导致检测错误。

QPIC模型的整体框架与DETR基本一致,只是将DETR最后的目标检测头转换为交互检测头,从每个头中提取相应的信息,直接预测HOI实例。QPIC的出现,标志着HOI检测领域进入了新的时代。它不仅在性能上超越了早期的一阶段和两阶段方法,也为后续的研究提供了重要的参考和借鉴。

HOI Trans[21]也将HOI检测表述为集合预测问题,并结合Transformer和CNN的优势,直接从查询嵌入中预测HOI实例。模型主要由两部分组成:一个端到端的Transformer编码器–解码器结构,用于提取图像特征和预测HOI实例。一个五元组(人物类别、交互类别、物体类别、人物框、物体框)的HOI实例匹配损失,用于训练模型。HOITrans利用Transformer的强大能力来捕获长程依赖关系和建模实体之间的关系,以实现准确的HOI检测。与传统的分别优化目标检测器和交互分类器的HOI检测方法不同,HOI Trans提出的HOI实例匹配损失同时考虑了分类和定位过程,能够使人与物体的框与它们的交互同时预测出来,提高了模型的整体性能。

HOTR[22]AS-Net[23]采用了双分支Transformer方法,该方法由一个实例解码器和一个交互解码器组成,能够并行预测人物框和动作类别。

HOTR[22]与DETR[19]类似,采用CNN和共享编码器提取全局上下文信息,并将两种位置嵌入(实例查询和交互查询)同时传递给两个并行的解码器进行处理。具体来说:实例解码器将输入的查询转换为目标检测任务中的实例表示。交互解码器将输入的交互查询转换为交互检测任务中的交互表示。在检测分支中,模型会检测图像中的实例。在交互分支中,模型会使用附加偏移量来预测人和物体之间的互动。HOTR使用前馈神经网络来处理交互查询,并生成人体指针、物体指针和交互类别。该交互表示使用人体指针、物体指针指向相关的实例表示,以定位人体和物体区域。与直接回归方法相比,这种方法的优势在于定位效率更高,因为不需要对每个交互的位置进行重复定位。

尽管它们为每个子任务提取了有区分性的特征,但在关系推理过程中没有上下文交换,导致人物交互检测性能下降。为了缓解HOTR[22]在关系推理过程中缺乏上下文交换的问题,AS-Net[21]在两个分支之间进行信息传递,并在不引入额外的人类姿势和语言特征的情况下,通过自适应集预测来实现HOI检测。

具体来说,AS-Net[23]具有以下特点:打破了原有方法以实例为中心的限制和位置限制,将人物交互检测重构为一个自适应集预测问题。采用了基于自适应集的单阶段框架,具有并行的实例分支和交互分支。实例分支用于对实例进行定位和分类,交互分支预测每个交互的交互向量和类别。将一个可训练的交互查询集映射到一个带有Transformer的交互预测集,同时,每个查询通过多头协同关注,自适应地聚合全局上下文中的交互相关特征,在特征聚合和监督方面都表现出自适应能力。设计了一个有效的实例感知注意力模块,将实例分支的指令性特征引入到交互分支,有助于强化指导实例特征,并引入语义嵌入来提高性能。实验表明,AS-Net[23]可以实现显著的人物交互检测性能,但需要额外的Transformer解码器来提高性能。

2.2. 改进架构设计

大量的研究工作[20]-[23]围绕着将Transformer应用于一阶段的HOI检测器。自从QPIC[20]建立了一个强大的基准模型以来,重点已经转向改进架构设计。

CDN[24]提出了部分解耦人和物体的特征表示和交互动作的特征表示,在保持一阶段范式的计算效率和直接定位有关系的人物对来提升精度的同时,引入了两阶段范式的回归和分类解耦的思想。首先,通过去除交互分类模块或头部,设计了一个基于一阶段人物交互检测器的人–物对生成器。然后,设计了一个相对孤立的交互分类器来对每个人物对进行分类。所提出框架中的两个级联解码器可以专注于一个特定的任务(检测或交互分类)。在具体实现方面,采用了基于Transformer的人物交互检测器作为基础模型。

DOQ[25]引入Oracle查询来隐式编码人物对的基础真值框和对象标签,并指导解码器学习重建HOI实例的真实标签。它隐式编码了与真实值相同数量的Oracle查询,并具有可学习的权重,并且仅在训练期间使用学习到的权重。研究了更好地利用基准数据进行数据蒸馏的方法。引入Oracle查询来隐式编码人物对的真实边界框和对象标签,并指导解码器学习重建真实HOI实例。在没有充分和清晰地利用真实信息的情况下,仍然需要80个Epoch才能收敛。

DN-DETR[26]表明使用真实标签信息指导训练可以加速训练收敛,提高性能。与DOQ[25]不同,SOV-STG[27]引入去噪查询来编码真实信息并指导训练。此外,STG用于学习模型的标签先验,并直观地使用“选择”和“加权和”的方法分别将真实标签信息迁移到去噪查询和推理查询。

SOV-STG[27]提出一种新的单阶段框架,即具有人物交互分割解码器的SOV (Subject-Object-Verb),用于特定目标的解码。以及特定目标引导的去噪策略STG (Specific Target Guided),用于高效训练。SOV (Subject-Object-Verb)框架,将解码过程分为三个部分:人物检测、物体检测和动作识别。每个解码器专门负责解码物体、人物和动作类别。通过明确地将空间信息(锚框)和标签信息(标签查询)分离并输入解码器,架构通过特定的先验和解码器解耦了人物交互检测。每个解码器可以专注于特定的目标,并共享训练负担。并且在训练早期就能够达到显著高的准确性。STG (Specific Target Guided)去噪训练策略。利用可学习的物体和动作标签嵌入来引导训练过程,并加速训练的收敛。通过特定的先验知识,推理部分的查询可以通过将标签嵌入的加权和表示。STG策略有效地加快了训练收敛速度。

所提出框架SOV-STG采用了一种新格式来将HOI实例表示在锚框中,并学习人物交互特定的先验知识进行解码。通过设计良好的架构和有效的训练策略,该框架以更少的训练成本实现了良好的性能。

2.3. 利用DETR变体和更换骨干网络

基于卷积Transformer的HOI检测方法通常遵循DETR架构,并因此遭受其缺点,包括小尺度物体和交互检测性能较差以及训练时间过长。造成这些缺点的两个因素主要是薄弱的骨干网络和以注意力机制的计算复杂度。

传统的注意力机制计算复杂度为二次方,这导致了训练时间的延长。为了解决DETR在小尺度目标检测和长训练时间方面的问题,研究人员提出了一些新的DETR变体,例如:具有空间调制共同注意力(SMCA)的DETR[28]:该方法通过在注意力机制中引入空间调制机制,能够更好地关注小尺度目标,从而提升小尺度目标的检测性能。具有多尺度可变形注意力(MSDA)的DETR[29]:该方法采用多尺度可变形注意力机制,能够有效地聚合不同尺度特征图的信息,从而提升模型的整体性能。这些方法通过对注意力机制的改进,有效地解决了DETR在小尺度目标检测和长训练时间方面的问题,为HOI检测的进一步发展提供了新的思路。

具有多尺度可变形注意力(MSDA)的DETR[29]提出了一种可变形多尺度注意力模块,将DETR中注意力的复杂度降低到随空间尺寸变化的线性复杂度,实现了基于多尺度Transformer的目标检测器。具体来说,可变形多尺度注意力模块通过以下方式降低了注意力计算成本:对每个查询元素,只关注感兴趣区域内的少量空间位置。使用可变形卷积来计算每个查询元素的感兴趣区域。这种方法能够有效地减少注意力模块中关键元素的数量,从而降低注意力计算成本。

可变形注意力模块的提出是为了解决Transformer注意力机制的计算复杂度问题。Transformer注意力机制的计算复杂度为,其中n是输入特征图的空间尺寸。当n较大时,注意力机制的计算成本会变得非常高昂。可变形注意力模块通过减少注意力模块中关键元素的数量,将注意力计算复杂度降低到。这使得Transformer能够将多尺度特征图作为输入,并有效地进行目标检测。

QAHOI[30]、FGAHOI[31]和MSTR[32]利用x-y坐标作为空间先验来引导解码。QAHOI[30]和FGAHOI[31]将可变形Transformer解码器的参考点视为HOI实例的锚点,并使用锚点来指导人和物体的检测。

QAHOI[30]是一种基于Swin Transformer[34]和可变形DETR[29]的HOI检测模型。采用了多尺度特征提取器,能够从不同空间尺度提取特征,从而提升HOI检测的准确性。采用了简单的交互头,能够有效地预测HOI实例。没有使用额外的解码器,能够在保证检测精度的同时,保持较快的推理速度。在实验细节方面,首先使用Swin Transformer提取多尺度视觉特征。然后,使用可变形Transformer编码多尺度语义特征。最后,使用简单的交互头解码HOI实例。QAHOI在HOI检测方面取得了较好的效果,并具有准确性高,速度快,模型简单的优势。但是模型牺牲了很大一部分推理速度来实现更高的检测精度,并且没有使用额外的解码器来提高检测性能。

FGAHOI[31]是一种基于多尺度采样(MSS)、分层空间感知合并(HSAM)和任务感知合并(TAM)机制的HOI检测模型。多尺度采样(MSS)从噪声背景中提取人、物体和交互区域的特征,用于不同尺度的HOI实例。然后利用层次空间感知(HSAM)和任务感知的合并机制(TAM)将提取的特征与查询嵌入进行语义对齐和合并。分层空间感知合并(HSAM)根据特征与查询嵌入之间的交叉注意力,在层次空间的角度对提取的特征进行融合。同时,根据合并过程中的交叉注意力权重,将提取的特征向查询嵌入对齐。然后,任务感知合并(TAM)利用动态开关来合并任务透视图中的输入特征和查询嵌入。同时,设计了一种新的训练策略—分阶段训练策略,以减少FGAHOI因任务过于复杂而带来的训练压力。针对人物交互实例检测的两个挑战(人–物对分布不均匀区域和人–物对远距离视觉建模),提出了HOI-sdc算法。

MSTR[32]将具有多尺度可变形注意力(MSDA)的DETR[29]扩展到人物交互检测来探索多尺度主干特征。提出多尺度Transformer (MSTR),由两个新的HOI感知可变形注意力模块提供动力,即双实体注意力(Dual-Entity Attention)和实体条件上下文注意力(Entity-Conditioned Context Attention)。旨在通过多分辨率特征图捕获人物交互的复杂语义。而交互的上下文信息由实体条件上下文注意力有条件地补偿。所提出的MSTR注意力模块学会了有效地关注对识别相互作用至关重要的采样点。并使用人、物体和上下文参考点来表示HOI实例,并基于参考点来预测人、物体和动作。上下文参考点被定义为人和物体参考点的中心,遵循交互点PPDM[10]的思想。然而,MSTR中的查询嵌入用于预测HOI实例的最终框和标签,仍然存在表示歧义的问题。

现有的方法大多使用Res Net-50[33]作为骨干网络,与 Efficient NetV2[34]和ViT[35]等最新骨干网络相比,ResNet-50产生的语义特征较弱,收敛速度较慢。近年来,视觉Transformer (ViT)已经成为一种强大的替代方案,在各种计算机视觉领域取得了最先进的性能。ViT也具有作为两阶段HOI检测的改进特征提取器的潜力。

ViPLO[36]使用ViT[35]骨干进行特征提取,为ViT骨干引入了一个新的特征提取模块MOA模块。通过在ViT的输入序列前面添加一个可学习的嵌入,将其作为图像表示。在注意力函数中利用每个图块与给定区域之间的重叠面积来解决量化问题。

ER Net[37]使用Efficient NetV2[34]主干来生成多尺度特征图,由Transformer编码器通过多尺度可变形注意力(MSDA)[29]有效地细化,以捕获物体和交互的独特特征。还提出了一种新的检测注意力模块,用于自适应从编码的特征图中生成语义丰富的实例和交互Token。这些Token经过预先检测,以生成初始区域和向量建议,这些建议也用作查询,从而增强转换器解码器中的特征细化过程。还应用了一些有影响力的增强功能来改进HOI表示学习。此外,还在实例和交互分类头中利用预测不确定性估计框架来量化每个预测背后的不确定性。

2.4. 语言–图像预训练用于人物交互检测

最近,越来越多的研究关注从语言监督中学习视觉表示[38]-[41]。从语言监督中学习的这种范式也被证明在提高检测性能方面是有效的。

MDETR[38]是第一个以端到端的方式学习区域–文本对应关系的工作,能够根据原始文本Query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。而X-Detr[39]通过去除跨模态融合部分来改进MDETR,提高了训练效率。GLIP[40]扩展了这一研究方向,通过将目标检测改为短语关联,将检测和关联统一起来。使用大量的图像–文本数据扩大视觉概念,实现了对规模庞大的网络数据的处理,在零样本目标检测和数据效率方面取得了重大进展。Det CLIP[41]提出了一种针对多数据源联合高效的并行训练框架,同时构建了额外的知识库来提供类别间的隐式关系,实现了语义丰富的区域–文本对齐。

GEN-VLKT[42]提出了一种基于图像描述的HOI检测预训练策略,旨在从图像级语言–图像预训练中获取知识。该方法建立在基于Transformer的HOI检测策略之上,专注于提高交互识别。采用基于Transformer的HOI检测器来实现设计,并使用了DETR的基础模型结构。利用了CLIP[43]中的视觉–语言知识来增强关系分类,提出了GEN (Guided-Embedding Network)结构,通过引入位置引导嵌入(Position Guided Embedding, p-GE)和实例引导嵌入(Instance Guided Embedding, i-GE),实现了避免后处理的特征解耦的两分支结构。设计了VLKT (Visual-Linguistic Knowledge Transfer)训练策略,通过迁移大规模图文数据预训练模型CLIP中蕴含的知识,增强对交互关系的理解,提升零样本理解能力。

RLIPv1[44]是第一个通过关系来寻求语言–图像对齐的工作,提出关系语言–图像预训练(RLIP),使模型能够从对象和关系之间建立与自由文本描述的对应关系。与之前仅限于预定义的有限类别列表的预训练方案相比,RLIPv1受益于自然语言监督的丰富描述性。RLIPv1还提出了一个为人物、对象和关系分配解耦嵌入的ParSe模型作为三元组检测架构。集合模型RLIPv1-ParSeD由并行实例检测、顺序关系推理和跨模态融合三个阶段组成。ParSe为主体和对象表示分配了单独的可学习查询组,以及一组附加的条件查询来编码关系。并通过扩展批内标签与批外采样来合成标签序列,以确保负样本的充足供应,这一方法被称为标签序列扩展(Label Sequence Extension, LSE)。利用跨模态线索来解决标签噪声和关系歧义。为了减轻标签噪声,使用视觉实体检测阶段的质量为关系–文本对应关系分配质量分数,一种称为关系质量标签(RQL)的方法。为减轻关系歧义,利用标签之间的相似性,通过伪标签方案传播关系,称为关系伪标签。

RLIPv2[45]为了解决RLIPv1[44]模型收敛缓慢以及关系三元组注释数据的稀缺性对模型的扩展造成了阻碍的问题。作者引入了RLIPv2,这是一种快速收敛的模型,可以在更大规模的伪标签场景图数据上进行关系预训练。提出了非对称语言–图像融合(ALIF)策略,鼓励在编码阶段使用稀疏化的语言层进行融合。在不牺牲推理速度的情况下性能优于或与RLIPv1相当。利用了完善的目标检测数据集[46][47]。通过伪标签用关系注释扩展这些数据集。为了进行伪标记,采用外部字幕(如BLIP[48])生成包含关系描述的字幕来整理图像中包含的关系。重用RLIPv2模型作为关系标记器(R-Tagger),使生成的开放词汇关系文本能够分配给区域对。在这样的Pipline下,研究了RLIPv2的模型和数据的缩放行为,证明了改进的零样本、少样本和微调性能。

HOICLIP[49]提出一种新的HOI检测框架,有效地从CLIP[43]中提取先验知识,并实现更好的泛化。首先引入一个新的交互解码器,通过交叉注意力机制从CLIP的视觉特征图中提取信息区域,然后通过一个知识集成块将其与检测主干融合,以实现更准确的人体目标对检测。此外,利用CLIP文本编码器中的先验知识,通过嵌入人物交互描述来生成分类器。为了区分细粒度交互,通过视觉语义算法从训练数据中构建了一个动词分类器和一个轻量级的动词表示适配器。提出一种免训练增强方法来利用CLIP的全局人物交互预测。

3. 基于Transformer的两阶段人物交互检测模型

在HOI检测任务中,使用Transformer模型在识别和检测任务上取得了显著的改进。通过使用可学习的查询代替传统的区域提议方法,一阶段检测模型(以DETR为代表)崭露头角,并在人–物体交互(HOI)检测任务中占据主导地位。然而,这种一阶段检测模型的成功主要归功于Transformer模型的表示能力。为了促进稳定的收敛,单阶段检测器需要使用预训练的DETR权重进行初始化。预训练的编码器特征已经过拟合到目标线索,但缺乏识别人物交互所需的必要信息。因此,需要对Transformer编码器的权重进行显著变化,以生成判别性的特征。进一步的研究发现,当使用相同的Transformer模型时,传统的两阶段检测模型在性能和内存效率方面更为出色,并且训练所需的时间只需很少一部分。两阶段检测器采用了不同的方法,其中目标检测器经过微调后被冻结。这些方法专注于提取和利用在冻结的检测器中存储的丰富信息。相比之下,两阶段检测器需要更少的训练时间和资源,这使得进行更多的模型分析和实验变得更加容易。

尽管有这些优点,但两阶段检测器的性能仍然落后于一阶段检测器。然而,这些两阶段模型中的大多数使用Faster R-CNN[16],而不是最新的目标检测器。用现有的两阶段检测器SCG[50]中的DETR模型简单地替换Faster R-CNN就可以获得显著的改进,使其与最先进的一阶段检测器(QPIC)持平。

UPT[51]提出一种两阶段模型,用额外的Transformer层来细化DETR的输出特征,用于人物交互分类。以两种方式编码实例信息:一元表示,其中人和对象实例分别编码,以及成对表示,其中人–物对联合编码。这些表示提供了正交信息,在其相关层中观察到不同的行为。在一元(物体)和成对(人–物体)标记上执行自注意力。一元编码器层优先增加正例的预测交互得分,而成对编码器层抑制负例。因此,这种互补行为扩大了正例和负例的分数之间的差距。总体性能高、成本低,但它只利用来自冻结检测器的物体特征,辅以手工制作的空间特征来构建最终表示。这些冻结特征是通过关注表征物体特征和边界框的图像区域来获得的,因此缺乏识别HOI的必要信息。

STIP[52]设计了一种新的基于Transformer的两阶段HOI检测器。将HOI集预测的过程分解为两个后续阶段,首先生成交互建议,然后通过结构感知的Transformer将非参数交互建议转换为人物交互预测。

交互建议网络(IPN)利用从DETR检测到的人和物体实例作为输入条件,生成可能的人–物体交互建议。它首先构建所有可能的人–物体对,并且根据检测到的人和物体之间的连接关系进行配对。然后,使用多层感知器(MLP)进一步预测每对人–物体之间存在交互的概率(即“交互性”分数)。最后,将具有最高交互分数的前k个人–物体对选为最终的交互建议输出。然后基于所有交互建议,将每个交互建议框视为一个图节点,构建一个以交互为中心的图,充分展现交互结构之间和内部的丰富先验知识。在k个交互提议和以交互为中心的图的基础上,设计了一个结构感知的Transformer,通过结构感知的自注意力和交叉注意力模块对所有交互建议进行上下文编码,通过交互间和交互内结构的额外指导,产生结构感知的人物交互特征,从而加强了HOI预测。

特征通常从框边界汇集信息,因为这有助于定位。但是,这些特征不能覆盖物体的其他方面,也不足以识别复杂的人–物体交互。PViC[53]设计了一个高效的交互头用于HOI检测,交互头由两种类型的Transformer编码器层组成,第一层经过修改以适应额外的成对输入。第一层操作一元标记,即人和物体实例,而第二层操作成对标记,即人–物对。通过空间引导的交叉注意力精确定位了与相关身体部位或人–物体对之外的附加物体对应的图像区域。引入框对位置嵌入作为空间指导,将图像特征重新引入到人–物体对表示中。

4. 基于Transformer的零样本人物交互检测

识别人与物体之间的交互类别仍然是一个特别具有挑战性的问题。传统策略通常依赖于简单地学习一个多标签分类器,这需要大量带注释的数据进行训练。然而,这些方法往往受到长尾分布和泛化能力不足的影响。具体来说,HOI检测面临的一个主要挑战是交互类别的开放长尾特性,即少数常见的交互类别拥有大量样本,而许多罕见的交互类别样本则极为稀少。

为了应对这些挑战,零样本HOI检测方法应运而生。零样本HOI检测旨在识别那些从未在训练数据中见过的交互类别,而无需为每种交互类别提供大量的带注释数据。这些方法通常依赖于外部知识源,如语义嵌入、视觉特征和语言模型,从而在没有显式训练数据的情况下进行推理和分类。通过利用这些外部知识,零样本HOI检测方法能够更好地泛化到新的、未见过的交互类别,从而提高模型的实用性和适应性。

零样本HOI检测已经成为一个重要的研究领域。由于人物交互的组合性极强,对所有可能的人物交互组合进行注释是不切实际的。因此,零样本HOI检测在真实世界场景中的应用具有重要意义。先前的研究[24][27][44]以解耦组合的方式来解决这一任务,在训练过程中对动作和物体的推理过程进行了有效的解耦。这使得在推理期间能够识别未见过的主体、对象和动作组合成为可能。

随着视觉–语言模型(如CLIP[43])的进展,最近的研究[42][49]开始将重点转向从CLIP模型中转移知识,以识别未见过的人物交互概念。这种转变在零样本设置下取得了显著的性能提升。研究人员利用CLIP模型的丰富语义表示,成功地在没有大量带注释数据的情况下,提高了对新颖交互类别的检测能力。通过这种方法,零样本HOI检测不仅能够解决现有数据集中的长尾问题,还能够扩展到更多复杂和多样的真实世界场景中,为未来的应用和研究开辟了新的方向。

5. 人物交互检测模型优缺点分析和性能评估

5.1. 优缺点分析

针对上述介绍的不同HOI检测方法,表1对各类方法的优点和缺点进行了分析。一阶段端到端的方法,实现了更高的推理效率,但在处理小尺度物体和复杂交互时存在性能瓶颈。改进架构设计,利用DETR变体和更换骨干网络的方法则试图通过复杂的模型设计和高效的训练策略来克服这些挑战。语言–图像预训练方法则通过自然语言监督丰富了模型的描述能力,但代价是需要大量的标注数据和计算资源。两阶段方法尽管在性能和效率上有其独特的优势,但由于处理步骤复杂,实时性和计算效率有所降低。因此,选择合适的模型应根据具体的应用场景和需求进行权衡。如果需要高推理效率,可以选择一阶段方法;如果需要高精度,可以选择两阶段方法。

Table 1.Comparison of different HOI detection methods

1.不同HOI检测方法比较

分类

子类

代表工作

优点

缺点

一阶段方法

基于DETR端到端

QPIC, HOITrans, HOTR, AS-Net

直接从输入图像预测最终的检测结果,无需中间步骤。

小尺度物体和交互检测性能较差以及训练时间过长

改进架构设计

CDN, DOQ, SOV-STG

良好的架构和有效的训练策略

模型的计算复杂度较高

利用DETR变体和更换骨干网络

QAHOI, FGAHOI, MSTR, ViPLO, ERNet

注意力机制的计算复杂度低和骨干网络丰富

增加模型解释难度

语言–图像预训练

GEN-VLKT, RLIPv1, RLIPv2, HOICLIP

受益于自然语言监督的丰富描述性

依赖于大量的标注数据进行训练,成本高昂且耗时

两阶段方法

——

UPT, STIP, PViC

性能和内存效率方面更为出色

整体速度较慢,模型比较复杂参数量较大

5.2. 性能评估

V-COCO[54]和HICO-DET[55]是目前最常用的两个HOI检测数据集。

V-COCO是一个相对较小的数据集,于2015年被提出,是从通用目标检测数据库Microsoft COCO (Common Objects in Context)[56]中选择了10,346幅图像进行交互关系标注。其中,5400幅图像用作训练集,4964幅图像用作测试集。V-COCO数据集包含29种关系类型,涵盖了80个COCO数据集中的物体类别。文中所述的HOI检测模型在V-COCO数据集的测试结果列于表2中。

Table 2.Results on V-COCO data set

2.V-COCO 数据集测试结果

算法

主干

V-COCO

AP#1 role

AP#2 role

QPIC

Res Net-50

58.8

61.0

HOI Trans

Res Net-101

52.9

-

HOTR

Res Net-50

55.2

64.4

AS-Net

Res Net-50

53.9

-

CDN

Res Net-50

61.7

63.8

DOQ

Res Net-50

63.5

-

SOV-STG

Res Net-101

63.9

65.4

QAHOI

Res Net-50

-

-

FGAHOI

Swin-T

60.5

61.2

MSTR

Res Net-50

62.0

65.2

ViPLO

ViT-B/16

62.2

68.0

ER Net

Efficient Net V2-XL

64.2

-

GEN-VLKT

Res Net-50

62.4

64.5

RLIPv1

Res Net-50

62.5

64.8

RLIPv2

Swin-Large

72.1

74.1

HOICLIP

Res Net-50

63.5

64.8

UPT

Res Net-50

59.0

64.5

STIP

Res Net-50

65.1

69.7

PViC

Res Net-50

62.8

67.8

HICO-DET是密歇根大学于2018年发布用于检测人物交互关系的数据集。HICO-DET包含更多图像,并涵盖了更为复杂的交互关系。他们采集了来自Flickr的47,776张公共图像。其中,训练集包含38,118张图像,而测试集则包含9658张图像。HICO-DET共有117种动作和80种物体类型,这些物体类型与COCO数据集中的物体类型相一致。通过将这些动作和物体类型进行组合,它提供了超过150,000个已标注的人物对实例,涵盖600个HOI类别。文中所述的HOI检测模型在HICO-DET数据集上的测试结果列于表3中。

Table 3.Results on HICO-DET data set

3.HICO-DET数据集测试结果

算法

主干

默认设置

物体已知

全集

稀有

非稀有

全集

稀有

非稀有

QPIC

Res Net-50

29.07

21.85

31.23

31.68

24.14

33.93

HOI Trans

Res Net-50

23. 46

16. 91

25. 41

26. 15

19. 24

28. 22

HOTR

Res Net-50

28. 87

24. 25

30. 35

31. 74

27. 07

33. 14

AS-Net

Res Net-50

25. 10

17. 34

27. 42

-

-

-

CDN

Res Net-101

32.07

27.19

33.53

34.79

29.48

36.38

DOQ

Res Net-50

31.55

26.75

32.99

-

-

-

SOV-STG

Swin-Large

43.35

42.25

43.69

45.53

43.62

46.11

QAHOI

Res Net-50

26.18

18.06

28.61

-

-

-

FGAHOI

Swin-Large

37.18

30.71

39.11

38.93

31.93

41.02

MSTR

Res Net-50

31.17

25.31

32.92

34.02

28.83

35.57

ViPLO

ViT-B/16

37.22

35.45

37.75

40.61

38.82

41.15

ER Net

Efficient Net V2-XL

35.92

30.12

38.29

-

-

-

GEN-VLKT

Res Net-101

34.95

31.18

36.08

38.22

34.36

39.37

RLIPv1

Res Net-50

33.41

26.36

31.79

-

-

-

RLIPv2

Swin-Large

43.23

45.64

45.09

-

-

-

HOICLIP

Res Net-50

34.69

31.12

35.74

35.74

35.74

35.74

UPT

Res Net-50

31.66

25.94

33.36

35.05

29.27

36.77

STIP

Res Net-50

32.22

28.15

33.43

35.29

31.43

36.45

PViC

Res Net-50

34.69

32.14

35.45

38.14

35.38

38.97

6. 研究展望

HOI检测是当前计算机视觉领域的一个热点方向,具有广泛的应用前景。尽管目前仍存在一些挑战,但随着相关研究的不断发展进步,HOI检测模型将在更多具有实用性的领域起到重要的作用。

目前HOI检测任务在数据集、计算效率、应用场景、泛化性能等方面仍存在一些挑战:

1) 数据集存在类别不均衡问题,其中常见交互类别样本过多,而稀有的交互类别样本数量低于10个。这种不均衡情况对模型训练构成了重大挑战,增加了过拟合的风险。

2) 图像中通常包含多个人和物体,将所有人和物体进行组合并逐对进行推理,将造成巨大的计算负担。

3) 尽管现有两阶段模型在准确率方面取得了一定成果,但由于其串行结构的限制,难以满足实时性要求较高的应用场景。

4) 现有的HOI检测模型主要依赖于少数公共数据集,如V-COCO和HICO-DET。尽管某些数据集中的类别数量达到几百个,但数据集中的大部分动作关系在实际生活中往往缺乏实际应用意义,针对特定场景的数据较为缺乏,这也限制了模型在特定使用场景下的应用。

针对人–物交互检测模型面临的挑战,可以采取以下措施:

1) 数据集方面,可以通过数据增强、合成数据、重采样等技术缓解数据集类别不平衡问题。这些方法有助于平衡数据集中不同类别的样本数量,从而减少模型训练中的偏差。

2) 计算负担方面,通过设计高效候选区域生成算法、利用注意力机制等方法减少人物组合爆炸带来的计算负担。通过这些技术,我们可以更有效地处理图像中的多个人物和物体,提高模型的计算效率。

3) 模型结构和性能方面,可以探索一阶段模型、进行并行计算、模型轻量化等方式提升模型推理速度。这些方法有助于缩短模型的推理时间,使其更适用于对实时性要求较高的应用场景。

4) 应用场景方面,可以构建特定场景数据集,或利用迁移学习、领域自适应等技术提升模型的适应性。通过这些方法,我们可以使模型更好地适应不同的应用场景,并提高其泛化能力。

通过上述措施,可以有效提升人物交互检测模型的性能和适用范围,使其在更多领域发挥重要作用。

基金项目

伊犁师范大学伊犁河谷智能计算研究与应用重点实验室2023年度一般科研项目(2023WXYLHG002)。

NOTES

*通讯作者。

参考文献

[1] Bemelmans, R., Gelderblom, G.J., Jonker, P. and de Witte, L. (2012) Socially Assistive Robots in Elderly Care: A Systematic Review into Effects and Effectiveness.Journal of the American Medical Directors Association, 13, 114-120.E1.
https://doi.org/10.1016/j.jamda.2010.10.002
[2] Bolme, D., Beveridge, J.R., Draper, B.A. and Lui, Y.M. (2010) Visual Object Tracking Using Adaptive Correlation Filters. 2010IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, 13-18 June 2010, 2544-2550.
https://doi.org/10.1109/cvpr.2010.5539960
[3] Dee, H.M. and Velastin, S.A. (2007) How Close Are We to Solving the Problem of Automated Visual Surveillance?Machine Vision and Applications, 19, 329-343.
https://doi.org/10.1007/s00138-007-0077-z
[4] Feichtenhofer, C., Pinz, A. and Wildes, R.P. (2017) Spatiotemporal Multiplier Networks for Video Action Recognition. 2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Honolulu, 21-26 July 2017, 7445-7454.
https://doi.org/10.1109/cvpr.2017.787
[5] 李宝珍, 张晋, 王宝录, 等. 融合多层次视觉信息的人物交互动作识别[J]. 计算机科学, 2022, 49(S2): 643-650.
[6] 吴伟, 刘泽宇. 基于图的人-物交互识别[J]. 计算机工程与应用, 2021, 57(3): 175-181.
[7] Wang, T., Anwer, R.M., Khan, M.H., Khan, F.S., Pang, Y., Shao, L.,et al. (2019) Deep Contextual Attention for Human-Object Interaction Detection. 2019IEEE/CVF International Conference on Computer Vision(ICCV), Seoul, 27 October-2 November 2019, 5693-5701.
https://doi.org/10.1109/iccv.2019.00579
[8] Wan, B., Zhou, D., Liu, Y., Li, R. and He, X. (2019) Pose-Aware Multi-Level Feature Network for Human Object Interaction Detection. 2019IEEE/CVF International Conference on Computer Vision(ICCV), Seoul, 27 October-2 November 2019, 9468-9477.
https://doi.org/10.1109/iccv.2019.00956
[9] Kim, B., Choi, T., Kang, J. and Kim, H.J. (2020) UnionDet: Union-Level Detector towards Real-Time Human-Object Interaction Detection.ComputerVision-ECCV2020, Glasgow, 23-28 August 2020, 498-514.
https://doi.org/10.1007/978-3-030-58555-6_30
[10] Liao, Y., Liu, S., Wang, F., Chen, Y., Qian, C. and Feng, J. (2020) PPDM: Parallel Point Detection and Matching for Real-Time Human-Object Interaction Detection. 2020IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Seattle, 13-19 June 2020, 479-487.
https://doi.org/10.1109/cvpr42600.2020.00056
[11] Wang, T., Yang, T., Danelljan, M., Khan, F.S., Zhang, X. and Sun, J. (2020) Learning Human-Object Interaction Detection Using Interaction Points. 2020IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Seattle, 13-19 June 2020, 4115-4124.
https://doi.org/10.1109/cvpr42600.2020.00417
[12] Zhong, X., Qu, X., Ding, C. and Tao, D. (2021) Glance and Gaze: Inferring Action-Aware Points for One-Stage Human-Object Interaction Detection. 2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, 20-25 June 2021, 13229-13238.
https://doi.org/10.1109/cvpr46437.2021.01303
[13] Newell, A., Yang, K. and Deng, J. (2016) Stacked Hourglass Networks for Human Pose Estimation.ComputerVision-ECCV2016, Amsterdam, 11-14 October 2016, 483-499.
https://doi.org/10.1007/978-3-319-46484-8_29
[14] Yu, F., Wang, D., Shelhamer, E. and Darrell, T. (2018) Deep Layer Aggregation. 2018IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 2403-2412.
https://doi.org/10.1109/cvpr.2018.00255
[15] Vaswani, A., Shazeer, N., Parmar, N.,et al. (2017) Attention Is All You Need.Proceedings of the31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[16] Girshick, R. (2015) Fast R-CNN. 2015IEEE International Conference on Computer Vision(ICCV), Santiago, 7-13 December 2015, 1440-1448.
https://doi.org/10.1109/iccv.2015.169
[17] Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, 27-30 June 2016, 779-788.
https://doi.org/10.1109/cvpr.2016.91
[18] Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q. and Tian, Q. (2019) CenterNet: Keypoint Triplets for Object Detection. 2019IEEE/CVF International Conference on Computer Vision(ICCV), Seoul, 27 October-2 November 2019, 6568-6577.
https://doi.org/10.1109/iccv.2019.00667
[19] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A. and Zagoruyko, S. (2020) End-to-End Object Detection with Transformers.ComputerVision-ECCV2020, Glasgow, 23-28 August 2020, 213-229.
https://doi.org/10.1007/978-3-030-58452-8_13
[20] Tamura, M., Ohashi, H. and Yoshinaga, T. (2021) QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information. 2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, 20-25 June 2021, 10405-10414.
https://doi.org/10.1109/cvpr46437.2021.01027
[21] Zou, C., Wang, B., Hu, Y., Liu, J., Wu, Q., Zhao, Y.,et al. (2021) End-to-End Human Object Interaction Detection with HOI Transformer. 2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, 20-25 June 2021, 11820-11829.
https://doi.org/10.1109/cvpr46437.2021.01165
[22] Kim, B., Lee, J., Kang, J., Kim, E. and Kim, H.J. (2021) HOTR: End-to-End Human-Object Interaction Detection with Transformers. 2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, 20-25 June 2021, 74-83.
https://doi.org/10.1109/cvpr46437.2021.00014
[23] Chen, M., Liao, Y., Liu, S., Chen, Z., Wang, F. and Qian, C. (2021) Reformulating HOI Detection as Adaptive Set Prediction. 2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, 20-25 June 2021, 9000-9009.
https://doi.org/10.1109/cvpr46437.2021.00889
[24] Zhang, A., Liao, Y., Liu, S.,et al. (2021) Mining the Benefits of Two-Stage and One-Stage HOI Detection.Advances in NeuralInformation Processing Systems, 34, 17209-17220.
[25] Qu, X., Ding, C., Li, X., Zhong, X. and Tao, D. (2022) Distillation Using Oracle Queries for Transformer-Based Human-Object Interaction Detection. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 19536-19545.
https://doi.org/10.1109/cvpr52688.2022.01895
[26] Li, F., Zhang, H., Liu, S., Guo, J., Ni, L.M. and Zhang, L. (2022) DN-DETR: Accelerate DETR Training by Introducing Query DeNoising. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 13609-13617.
https://doi.org/10.1109/cvpr52688.2022.01325
[27] Chen, J., Wang, Y. and Yanai, K. (2023) Focusing on What to Decode and What to Train: Efficient Training with HOI Split Decoders and Specific Target Guided DeNoising. arXiv:2307.02291.
[28] Gao, P., Zheng, M., Wang, X., Dai, J. and Li, H. (2021) Fast Convergence of DETR with Spatially Modulated Co-Attention. 2021IEEE/CVF International Conference on Computer Vision(ICCV), Montreal, 10-17 October 2021, 3601-3610.
https://doi.org/10.1109/iccv48922.2021.00360
[29] Zhu, X., Su, W., Lu, L.,et al. (2020) Deformable DETR: Deformable Transformers for End-to-End Object Detection. arXiv:2010.04159.
https://doi.org/10.48550/arXiv.2010.04159
[30] Chen, J. and Yanai, K. (2023) QAHOI: Query-Based Anchors for Human-Object Interaction Detection. 2023 18th International Conference on Machine Vision and Applications(MVA), Hamamatsu, 23-25 July 2023, 1-5.
https://doi.org/10.23919/mva57639.2023.10215534
[31] Ma, S., Wang, Y., Wang, S. and Wei, Y. (2024) FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection.IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 2415-2429.
https://doi.org/10.1109/tpami.2023.3331738
[32] Kim, B., Mun, J., On, K., Shin, M., Lee, J. and Kim, E. (2022) MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 19556-19565.
https://doi.org/10.1109/cvpr52688.2022.01897
[33] He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. 2016IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, 27-30 June 2016, 770-778.
https://doi.org/10.1109/cvpr.2016.90
[34] Tan, M. and Le, Q. (2021) EfficientNetV2: Smaller Models and Faster Training. arXiv: 2104.00298.
https://doi.org/10.48550/arXiv.2104.00298
[35] Dosovitskiy, A., Beyer, L., Kolesnikov, A.,et al. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929.
[36] Park, J., Park, J. and Lee, J. (2023) ViPLO: Vision Transformer Based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection. 2023IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Vancouver, 17-24 June 2023, 17152-17162.
https://doi.org/10.1109/cvpr52729.2023.01645
[37] Lim, J., Baskaran, V.M., Lim, J.M., Wong, K., See, J. and Tistarelli, M. (2023) ERNet: An Efficient and Reliable Human-Object Interaction Detection Network.IEEE Transactions on Image Processing, 32, 964-979.
https://doi.org/10.1109/tip.2022.3231528
[38] Kamath, A., Singh, M., LeCun, Y., Synnaeve, G., Misra, I. and Carion, N. (2021) MDETR-Modulated Detection for End-to-End Multi-Modal Understanding. 2021IEEE/CVF International Conference on Computer Vision(ICCV), Montreal, 10-17 October 2021, 1760-1770.
https://doi.org/10.1109/iccv48922.2021.00180
[39] Cai, Z., Kwon, G., Ravichandran, A., Bas, E., Tu, Z., Bhotika, R.,et al. (2022) X-DETR: A Versatile Architecture for Instance-Wise Vision-Language Tasks.Computer Vision-ECCV2022, Tel Aviv, 23-27 October 2022, 290-308.
https://doi.org/10.1007/978-3-031-20059-5_17
[40] Li, L.H., Zhang, P., Zhang, H., Yang, J., Li, C., Zhong, Y.,et al. (2022) Grounded Language-Image Pre-Training. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 10955-10965.
https://doi.org/10.1109/cvpr52688.2022.01069
[41] Yao, L., Han, J., Wen, Y.,et al. (2022) DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-Training for Open-World Detection.Advances in Neural Information Processing Systems, 35, 9125-9138.
[42] Liao, Y., Zhang, A., Lu, M., Wang, Y., Li, X. and Liu, S. (2022) GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI Detection. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 20091-20100.
https://doi.org/10.1109/cvpr52688.2022.01949
[43] Radford, A., Kim, J.W., Hallacy, C.,et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. arXiv:2103.00020.
https://doi.org/10.48550/arXiv.2103.00020
[44] Yuan, H., Jiang, J., Albanie, S.,et al. (2022) RLIP: Relational Language-Image Pre-Training for Human-Object Interaction Detection.Advances in Neural Information Processing Systems, 35, 37416-37431.
[45] Yuan, H., Zhang, S., Wang, X., Albanie, S., Pan, Y., Feng, T.,et al. (2023) RLIPv2: Fast Scaling of Relational Language-Image Pre-training. 2023IEEE/CVF International Conference on Computer Vision(ICCV), Paris, 1-6 October 2023, 21592-21604.
https://doi.org/10.1109/iccv51070.2023.01979
[46] Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J.,et al. (2020) The Open Images Dataset V4.International Journal of Computer Vision, 128, 1956-1981.
https://doi.org/10.1007/s11263-020-01316-z
[47] Shao, S., Li, Z., Zhang, T., Peng, C., Yu, G., Zhang, X.,et al. (2019) Objects365: A Large-Scale, High-Quality Dataset for Object Detection. 2019IEEE/CVF International Conference on Computer Vision(ICCV), Seoul, 27 October-2 November 2019, 8429-8438.
https://doi.org/10.1109/iccv.2019.00852
[48] Li, J., Li, D., Xiong, C.,et al. (2022) BLIP: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086,
https://doi.org/10.48550/arXiv.2201.12086
[49] Ning, S., Qiu, L., Liu, Y. and He, X. (2023) HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models. 2023IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Vancouver, 17-24 June 2023, 23507-23517.
https://doi.org/10.1109/cvpr52729.2023.02251
[50] Zhang, F.Z., Campbell, D. and Gould, S. (2021) Spatially Conditioned Graphs for Detecting Human-Object Interactions. 2021IEEE/CVF International Conference on Computer Vision(ICCV), Montreal, 10-17 October 2021, 13299-13307.
https://doi.org/10.1109/iccv48922.2021.01307
[51] Zhang, F.Z., Campbell, D. and Gould, S. (2022) Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise Transformer. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 20072-20080.
https://doi.org/10.1109/cvpr52688.2022.01947
[52] Zhang, Y., Pan, Y., Yao, T., Huang, R., Mei, T. and Chen, C. (2022) Exploring Structure-Aware Transformer over Interaction Proposals for Human-Object Interaction Detection. 2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, 18-24 June 2022, 19526-19535.
https://doi.org/10.1109/cvpr52688.2022.01894
[53] Zhang, F.Z., Yuan, Y., Campbell, D., Zhong, Z. and Gould, S. (2023) Exploring Predicate Visual Context in Detecting of Human-Object Interactions. 2023IEEE/CVF International Conference on Computer Vision(ICCV), Paris, 1-6 October 2023, 10377-10387.
https://doi.org/10.1109/iccv51070.2023.00955
[54] Gupta, S. and Malik, J. (2015) Visual Semantic Role Labeling. arXiv: 1505.04474.
[55] Chao, Y., Liu, Y., Liu, X., Zeng, H. and Deng, J. (2018) Learning to Detect Human-Object Interactions. 2018IEEE Winter Conference on Applications of Computer Vision(WACV), Lake Tahoe, 12-15 March 2018, 381-389.
https://doi.org/10.1109/wacv.2018.00048
[56] Lin, T., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D.,et al. (2014) Microsoft COCO: Common Objects in Context.ComputerVision-ECCV2014, Zurich, 6-12 September 2014, 740-755.
https://doi.org/10.1007/978-3-319-10602-1_48

为你推荐





Baidu
map