A Recruitment Method for Mobile Crowd Sensing Based on Few-Shot Learning and Graph Neural Networks
In existing mobile crowd sensing recruitment methods, data sparsity issues exist when there are workers who have few or no experience of executing tasks, which limits the analysis of preference and credibility features while estimating the task completion quality of workers. In addition, these studies ignore the objective impact of incomplete tasks in the hiring process. At the same time, most of the existing studies ignore the objective impact of the tasks to be completed by workers on worker recruitment. To overcome those problems, this paper proposes a novel recruitment method for mobile crowd sensing based on few-shot learning and graph neural networks (FSL-GNN). First, a worker-task subjective correlation estimation model is built on a few-shot learning framework with a graph neural network, which is employed to estimate two types of subjective correlations: worker preferences to task features and worker credibility related to task features. Then, this study designs an objective correlation model between workers and tasks based on the convolutional network of heterogeneous graphs, and calculates the objective correlation between the characteristics of workers’ tasks to be completed and tasks to be recruited. Finally, the attention mechanism combined with the above three correlations is used to estimate the workers’ completion quality of the task. Experimental simulations on extensive real-world datasets demonstrate that the proposed method can provide accurate task completion quality estimation and outperforms other recruitment models in terms of task quality enhancement.
Mobile Crowd Sensing
近年来,移动群智感知(mobile crowd sensing, MCS)
工人招募是MCS的核心问题
在MCS中,当参与者任务历史记录不足或未执行过任务时,工人偏好和信誉度特征信息会出现稀疏性问题,这使得考虑工人偏好和信誉度特征的招募方法很难准确估计工人的任务完成质量。此外,现有研究主要聚焦于工人特征对任务完成质量的主观影响,忽视了待执行任务在工人招募中的客观影响。例如,当工人的待执行任务与目标任务在区域、时间或任务类型上高度匹配时,工人通常能够以更快的速度和更高的熟练度完成目标任务,从而提升任务的完成质量。
为了解决MCS中工人偏好和信誉度特征信息的稀疏性问题,本研究引入了基于图神经网络的小样本学习模型(Few-Shot Learning with Graph Neural Networks, FSL-GNN)对工人与任务相关的偏好和信誉度特征进行估计。随后结合目标任务特征,计算工人偏好对任务特征的相关性和工人信誉度对任务特征的相关性两种工人与任务的主观相关性。此外,本研究采用异质图神经网络对任务特征向量进行表征学习,并通过计算工人待执行任务特征与目标任务特征的相似性,得出工人未完成任务与待招募任务之间的客观相关性。最后,利用注意力机制融合主客观相关性,综合评估工人对目标任务的完成质量,包含任务响应时间、任务完成率和任务可靠性等指标。本文的主要贡献如下:
(1) 提出基于FSL-GNN的工人与任务主观相关性估计模型,将具有偏好和信誉度特征的工人和没有偏好和信誉度特征工人作为节点构建社交网络图,通过FSL-GNN泛化能力,动态更新社交网络图中的节点特征及边的权重,精准提取工人偏好和信誉度特征,解决了偏好和信誉度特征信息稀疏性的问题,并与任务特征矩阵结合,计算工人偏好对任务特征的相关性和工人信誉度对任务特征的相关性两种工人与任务的主观相关性。
(2) 提出基于异质图卷积网络的工人与任务的客观相关性估计模型,利用异质图嵌入和GCN对任务节点进行特征向量表征学习,计算工人待执行任务特征与待招募任务特征的相似性,得到工人与任务特征之间的客观相关性,从而优化工人招募质量。
工人的偏好信息是MSC招募中的关键参数之一,主要包括任务类型偏好和时空偏好。以任务类型偏好为例,Wu等人
工人信誉度是指工人在感知平台上的声誉和表现,通常是通过对工人过去的工作表现、准确性、及时性等指标来建立的。王等人
在上述现有MCS招募方法中,当工人的任务历史记录不足或未参与过任务时,会导致偏好和信誉度特征的稀疏性问题,这使得上述方法难以准确评估工人的任务完成质量。此外,上述研究多集中于工人特征对任务完成质量的主观影响,而忽略了工人的待执行任务对工人招募的客观影响。
本文的MCS系统由任务发布者、平台和工人组成。任务发布者通过平台发布任务请求,平台负责在工人池中招募合适的工人,并分配任务给他们执行,任务完成后,工人提交感知数据至平台。
假设任务集合为 , 为第 个任务。任务集合可进一步划分为待招募工人的目标任务集合 ,待执行任务集合 和已执行任务集合。系统中每个任务的特征向量都由三类特征的特征因子向量组成:任务的类型特征因子 ,任务执行时段特征因子 和任务执行区域特征因子 。例如,任务 的特征向量由 表示,如果任务 具有特征因子 则 ,否则等于0,其他特征因子同理。目标任务特征矩阵表示为 , 代表目标任务 的特征向量。
假设系统中共有 名工人,用集合 来表示。工人 的待执行任务集合由 表示, 代表待执行任务数量。工人 的社交特征向量 ,其中 表示工人 和工人 之间的社交相关性,计算公式如下:
(2)
表示工人 与目标任务 的偏好相关性值, 表示工人 与目标任务 的信誉度相关性值。
其次,本文将使用异质图卷积网络对任务特征进行表征学习,得出目标任务特征 和待完成任务特征 ,通过计算工人的待完成任务特征和待招募任务特征的相似性累加,获得工人与任务的客观相关性值 ,最终获得客观相似性矩阵,表示为:
(4)
最后,本文使用注意力机制结合上述三种相关性矩阵,估计出影响工人任务完成质量的三个指标,任务响应时间,任务完成率,数据可靠性,最终估算出工人对目标任务的完成质量,以作为工人招募的依据,为每个任务招募完成质量估算值最高的工人执行任务。
为了招募到能高质量完成任务的工人,本文提出基于少样本学习和图神经网络的移动群智感知招募方法,包括FSL-GNN的工人与任务主观相关性估计,基于异质图卷积网络的工人与任务的客观相关性估计,任务完成质量估计模块三个部分。
首先,本文构建工人的社交关系图 , 表示工人节点, 表示工人之间的社交关系,其中 ,表示工人 和 之间是否有社交关系,如果有 否则 。每个工人节点的初始信息如公式所示:
其中 , 表示将工人 社交特征向量分别和工人与任务特征相关的偏好向量,工人 与任务特征相关的信誉度向量相结合。
随后,本文使用FSL-GNN模型进行小样本学习,模型会根据节点特征的相似性动态更新社交网络图中相邻节点边的权重,提高图神经网络在小样本中的泛化能力,其过程如公式(6)所示:
(6)
其中 和 分别表示第 层相邻工人节点 与 的节点特征。输入两个节点特征向量的绝对差值到 中,用于计算节点之间对应边的权重 ,其中 为可学习参数,将权重与原特征矩阵相结合,若两名工人之间没有社交关系,那么两者之间边的权重始终为0,通过计算得到邻接矩阵 。
在社交网络中工人节点彼此之间连接分布不均匀,导致部分节点拥有大量邻居节点,部分节点邻居节点非常稀少,进而使邻接矩阵内部元素差值非常巨大,同时节点需要保留自己的特征。为此本文做了以下处理:
其中 表示节点的度矩阵,这种处理让信息传播更加稳定,且避免了高连接节点的特征被过度放大。 表示单位矩阵,其目的是为了节点在卷积时考虑自身因素。
通过GCN更新节点的特征,捕捉更高阶的社交关系,其更新过程如公式所示:
其中,输入特征为 ,输出特征为 , 和 表示工人节点特征在卷积第 层的维度。 表示卷积第 层的可训练参数。在最后一层输出中得到工人与任务特征相关的偏好矩阵 和工人与任务特征相关的偏好矩阵 。
为了降低估计值与真实值之间的差距,本文采用多标签损失函数来对模型进行调参。损失函数公式如下:
(10)
其中, 表示工人 与任务 特征相关的偏好或工人与任务特征相关的偏好特征真实标签, 表示工人 这两个特征的估计值。
最后,本文将两个矩阵 和 分别与待招募工人的目标矩阵特征 相乘,得出工人与任务特征的偏好相关性以及工人与任务特征的信誉度相关性矩阵 和 。
本文针对工人待完成任务对目标任务完成质量的影响,构造了一个包含具有待完成任务的工人,任务,任务特征的异质图。其中,任务节点包括具有待完成任务工人的已完成任务、待完成任务和待招募的目标任务。如
定义1. 异质图。用 表示异质图, 代表节点集合, 代表关系边集合,存在映射关系 , , 表示节点的类型,该图包括工人 ,任务 ,任务特征 , 表示关系的类型,还包括任务与任务特征的所属关系和任务与工人的执行关系。
定义2. 元路径。图 上的元路径是由多种节点类型和多种关系组成的有序序列,为了学习任务节点的表征,本文选取了以下核心元路径:
特征嵌入分为两个步骤,元路径内聚合和元路径间聚合。元路径内聚合是为了聚合元路径中目标节点和其邻居节点的特征,元路径间聚合需要学习不同元路径的重要性,以捕获高阶邻居对目标节点的影响。
首先是元路径内聚合,在异质图中,同样会出现节点彼此之间连接分布不均匀的情况。因此为正确学习节点在元路径下与各类节点之间的内部联系,使用元路径内图卷积,对元路径中的节点特征进行更新操作。设“任务–任务特征–任务”接矩阵为 ,“任务–工人–任务”邻接矩阵为 ,元路径间节点聚合过程如下:
(12)
(13)
其中 , 表示第 层的特征矩阵, 代表第 层可训练的输入权重矩阵, 为节点的度矩阵。经过GCN处理后,分别得到基于元路径的任务特征嵌入 和 。
在元路径内聚合节点特征仅考虑了邻居节点的影响,不能充分反映任务节点之间的结构和语义联系,想要更全面地学习任务节点表征,需要进行元路径间聚合。使用语义级注意力学习不同元路径的重要性,元路径(SFS)和(SWS)的与语义级注意力可以表示为 。为计算语义级注意力权重,先将节点在某条元路径下的嵌入进行非线性转化,乘以使用一个可学习的语义级注意力向量 ,然后对同一元路径下所有节点的运算结果求平均值,得到特定元路径的重要性 ,计算公式表示为:
(15)
其中,N表示 中的节点数量, 为线性方程的权重矩阵, 为偏置向量。然后,使用softmax函数对所有元路径的重要性 进行规范化,得到元路径 ,的注意力权重 。 代表元路径 的贡献率, 越高,意味着重要性越强。使用 对经过节点级注意力处理后的任务特征 。进行加权求和,得到节点最终的特征表示 ,计算公式为:
(16)
本文从最终的任务特征节点嵌入 中,分出每个工人的待完成任务工人的待执行任务特征矩阵 ,没有待完成任务的,矩阵为空。目标任务特征矩阵 ,如下所示。通过计算工人 待完成任务特征和目标任务特征的相似度累积得出工人与目标任务特征的相似度 。其公式如下:
(17)
代表工人 的待完成任务序号。最终得到待完成任务工人与任务特征相关性矩阵 。
经过以上步骤,本文得到了工人与任务特征的偏好相关性
和工人与任务特征的信誉度相关性
以及待完成任务工人与任务特征相关性矩阵
。为了考虑以上相关性对任务执行质量的影响,本小节利用注意力机制获取所有相关性信息的权值,并计算出权值总和对工人的任务完成质量的指标进行估计。在本研究中评论任务完成质量好坏是由工人l的任务j及时性,任务执行完整性
,任务结果可靠性
这三个指标来决定的,以上三个指标由主观性和客观相关性决定,且指标之间互相不影响。具体公式如下:
(18)
(19)
其中,
,,
为工人l对任务
指标
的相关性
的注意力权重,向量
和
为可训练的权重矩阵与偏置矩阵。在这里本文同样使用多标签损失函数,利用梯度下降算法最小化任务执行结果的估计概率和真实标签之间的交叉熵损失。具体过程如公式所示:
(20)
其中, , 分别代表工人 任务执行结果的估计标签和真实标签。
如
数据集 |
Yelp |
Gowalla |
总用户数 |
14,941 |
13,522 |
测试集未执行过任务的用户数量 |
700 |
700 |
测试集做过任务的用户数量 |
800 |
800 |
总任务数量 |
56,102 |
61,874 |
目标任务数量 |
600 |
600 |
为了确保本实验的模型准确度,我们将对FSL-GNN和异质图神经网络去估计出的工人与任务特征相关的偏好向量和工人与任务特征相关的偏好向量真实值( )和预测值( )进行求余弦相似度,其中t和N代表没有执行过任务工人的编号和总数,公式如(21):
(21)
经过对两个数据集的精确度评估,其结果
数据集 |
Yelp |
Gowalla |
偏好 |
0.923 |
0.902 |
信誉 |
0.892 |
0.874 |
由结果可知,两个数据的精确值都在0.85以上,精确度高,可以进行后续实验。
在本实验中,任务的完成质量考虑了工人完成任务时的任务响应时间,任务完成率,任务可靠性。其计算方法如公式(22)所示。
(22)
这三个指标的真实值计算如下。
1) 任务响应时间,用于反应响应任务的时间长短,为任务响应时间总和的平均值,其计算过程公式(22)所示。
(22)
2) 任务完成率,用来描述工人在任务执行中的有效工作量比值,值越接近1,表示任务完成率越高,其计算过程公式(23)所示。
(23)
3) 数据可靠性,用来描述工人执行结果与任务预期结果的偏离程度,不同的任务有不同的可靠性计算方法,在本实验中通过所有任务结果的预期结果值与真实结果值的差异进行非线性归一化平均来求得,其计算过程公式(24)所示。
(24)
4) 任务完成质量精确度(MSE),通过平方误差的平均值来反映模型预测结果的精确程度,值越小,表示工人的任务完成质量越接近实际结果,其计算过程公式(25)所示。
(25)
本文将本文算法与以下现有招募算法进行对比:
1) 偏好和信誉度NUR
2) 信誉度基于社交网络信任的招募方法RSUT
3) 个性化任务匹配机制PTOM
4) 信誉度基于服务质量的参与者选择方法QoS-PR
上述不同模型在Yelp数据集和Gowalla数据集的中的对比实验结果如
为了系统性地评估不同相关性因素对任务完成质量的实际贡献,本文通过控制单一相关性的权重,设定了3种变体。变体1将工人与任务特征的偏好相关性权重降低,变体2将工人与任务特征的信誉度相关性权重降低,变体3将工人与任务的客观相关性权重降低。其目的是在后续的实践中能够针对性地强化关键因素,提升任务完成的整体质量。本实验将权重降低的相关性权重设置为0.2,其余为0.4。所有变体的实验对比结果如
由实验结果可知,三种变体在Yelp和Gowalla两个数据集上的实验结果表现出类似的趋势,验证了工人与任务特征的偏好、信誉度两种主观相关性与工人与任务的客观相关性在任务完成质量中的重要性。通过控制单一相关性的权重,实验将每种变体的表现进行了比较,从而进一步揭示了不同相关性对任务完成率、任务响应时间、任务可靠性以及MSE的影响。
在考虑任务响应时间时,随着任务数量的增加,变体1和变体3相比于变体2在Yelp和Gowalla数据集上均表现出较高的数值。在考虑任务完成率时,随着任务数量的增加,变体1和变体2相比于变体3均呈现较低的任务完成率。在考虑任务可靠性时,随着任务数量的增加,变体1和变体2相比于变体3均呈现较低的任务完成率。在考虑MSE时,随着任务数量的增加,变体1和变体2相比于变体3均呈现较高的任务完成率。综合来看,任务完成质量受工人与任务特征的偏好相关性影响较大,其次是工人与任务特征的信誉度相关性,工人与任务的客观相关性。
本文提出了一种基于少样本学习和图神经网络的移动群智感知招募方法,旨在解决工人偏好和信誉度特征稀疏性问题,并综合考虑工人待执行任务对招募的客观影响。通过FSL-GNN模型,我们能够有效估计工人与任务的主观相关性,同时利用异质图卷积网络计算客观相关性,最终通过注意力机制实现任务完成质量的精准评估。实验结果表明,该方法显著提升了任务完成质量的估计精度,尤其是在任务完成率和数据可靠性方面表现出色。此外,通过变体实验,我们发现偏好相关性对任务完成率的影响最为显著,信誉度相关性对数据可靠性的重要性不容忽视,而客观相关性则对任务响应时间也有重要影响。这些发现为优化招募策略提供了重要依据。未来,我们将进一步探索任务由多个工人协作完成的场景,并拓展优化方法,以适应更加复杂的实际应用需求。