话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与Prompt-Learning的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含13个话题的测试数据集上进行测试验证,证明该方法在零样本与低样本标注情况下有较好效果,同时相较于其他主流话题检测追踪技术在准确率与召回率上都有提升。 Topic detection and tracking technology has been developing well with the development of information processing technology and artificial intelligence technology. However, in practical applications, it is difficult to achieve good deployment due to the high demand for algorithm annotated data and the large training cost. This article proposes a topic detection and tracking technology based on MS-Cluster and Prompt-Learning. The method performs topic aggregation through clustering analysis and topic supplementation through prompt learning reasoning to complete the topic de-tection and tracking process. The method was tested on a dataset of 13 topics, and it showed good results in the case of zero-shot learning and few-shot learning, and it outperformed other main-stream topic detection and tracking technologies in terms of accuracy and recall rate.
话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与Prompt-Learning的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含13个话题的测试数据集上进行测试验证,证明该方法在零样本与低样本标注情况下有较好效果,同时相较于其他主流话题检测追踪技术在准确率与召回率上都有提升。
话题检测追踪技术,提示学习,小样本学习,聚类分析
Zhan Li, Xiaotong Du, Hao Huang, Qiulin Ren
The 10th Research Institute of China Electronics Technology Group Corporation, Chengdu Sichuan
Received: Sep. 16th, 2023; accepted: Oct. 16th, 2023; published: Oct. 24th, 2023
Topic detection and tracking technology has been developing well with the development of information processing technology and artificial intelligence technology. However, in practical applications, it is difficult to achieve good deployment due to the high demand for algorithm annotated data and the large training cost. This article proposes a topic detection and tracking technology based on MS-Cluster and Prompt-Learning. The method performs topic aggregation through clustering analysis and topic supplementation through prompt learning reasoning to complete the topic detection and tracking process. The method was tested on a dataset of 13 topics, and it showed good results in the case of zero-shot learning and few-shot learning, and it outperformed other mainstream topic detection and tracking technologies in terms of accuracy and recall rate.
Keywords:Topic Detection and Tracking Technology, Prompt-Learning, Few-Shot Learning, Clustering Analysis
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
话题检测与追踪技术 [
话题检测与追踪技术研究起始于上世纪90年代,经过30年左右的发展 [
基于非监督学习任务预测 [
针对上述两种思路,都存在一定局限性,非监督任务预测过程中,由于一般不存在参数最优化学习过程导致预测效果存在较大瓶颈;监督任务预测过程中则需要大量高质量标注语料进行训练,且预测数据类别与数据标签需要与训练数据有较高的拟合关联程度,否则预测效果将无法达到预期。
综上所述,话题检测与追踪技术当前技术瓶颈是需要实现低资源学习情况下达到较好的预测效果。这样使得话题检测与追踪技术在不同的样本数据与不同领域的应用分析中,可以通过较少的数据标注干预,达到预期效果。
话题检测与追踪技术当前主要研究集中在监督任务预测与非监督任务预测上。监督任务预测是通过将话题检测任务构建成为事件探测、提取、分类等任务进行识别 [
非监督任务预测是通过将话题检测任务构建成为聚类任务、主题发现任务等,通过对数据特征化,基于特征相似的数据为同一话题的假设下进行推理,实现话题检测追踪任务。其中,张帆 [
针对以上问题,本文提出了一种基于MS-Cluster与Prompt-Learning的话题检测追踪技术,结合的监督学习与非监督学习技术,采用聚类分析与特征学习进行话题的聚合分析,在此基础上通过预训练模型的提示构建 [
基于MS-Cluster (Multi-Section Cluster)与Prompt-Learning的话题检测追踪技术包括以下几个步骤:(1) 数据特征化:对文本数据进行特征学习表征,分为语义特征学习与时间特征学习。针对语义特征采用Word2Vec模型 [
数据特征化是通过文本语义特征模型表达的语义特征与文本时间特征拼接,得到数据特征学习表达结果。本文文本语义特征化采用Word2Vec模型进行特征计算,时间特征化采用三角核函数进行特征表达。
语义特征模型采用Word2Vec模型,模型通过输入词汇对其上下文词汇进行预测的学习任务,实现文本语义特征学习。首先对文本进行分词处理,对分词结果进行one-hot编码,得到词汇的one-hot特征向量xk,其中xk的维度为 1 ∗ V 。其次,初始化编码矩阵 w V ∗ N I ,矩阵中参数初始化采用随机初始化,其中 w I 表示编码矩阵,矩阵维度为 V ∗ N 。通过计算公式: h k = x k ∗ w V ∗ N I ,得到特征向量hk,其中hk表示one-hot特征向量xk通过编码矩阵 w V ∗ N I 进行特征降维的向量,其矩阵维度为 1 ∗ N 。初始化解码矩阵 w N ∗ V O ,矩阵中参数初始化采用随机初始化,通过计算公式: y k j = h k ∗ w N ∗ V O 得到词汇的解码one-hot特征向量 y k j ,其中k表示输入词汇的索引,j表示需要预测的上下文词汇的索引。然后,通过采用函数softmax将输出的特征向量 y k j 进行归一化处理,得到概率分布特征向量 p k j ,对 p k j 与词汇j的one-hot特征向量采用交叉熵进行误差衡量,通过最小化交叉熵对词汇的上下文学习,实现文本的语义学习。模型采用一个词汇对其上下文总共C个词汇进行预测学习,其损失函数为:
Loss = ∑ j ∈ C − x j log p k j
其中xj为词汇j的one-hot特征向量,C表示词汇k的上下文词汇。然后通过最小化损失函数与BP算法,对模型的编码矩阵与解码矩阵的参数进行更新,完成模型训练,得到文本语义模型。
完成语义模型训练后,对文本的语义特征进行表达。首先对文本进行分词处理以及停用词过滤处理,再对得到的文本词汇集合进行频率统计,得到Nword个词汇,则文本特征向量vtext计算公式为:
v t e x t = f i ∗ ∑ i = 1 N w o r d v i | ∑ i = 1 N w o r d v i |
其中,vi为文本中的第i个特征词汇的特征向量,fi为特征词汇的出现频率。
时间特征学习采用三角核函数,对时间特征进行特征构建,通过三角变化公式特征化,可得时间相似度计算公式为:
S i m t = ( α N t d ) 2 ∗ ∑ i = 1 T d ( cos ( π 2 ∗ t a − t b T s p a n ∗ i N t d ) )
其中 T s p a n > t a − t b , t a > t b 即三角函数内的取值范围在 [ 1 , π / 2 ] 且单调递减,可推导出 S i m t 随着 t a − t b 单调递减,使得时间特征化符合话题的分布特性,时间越相近则相似度越高,时间越相远则相似度越低。 α 为时间特征权重因子,Tspan为时间跨度长度,ta,tb分别表示文本a、b的时间信息。通过对相似计算公式进行展开,得到时间特征向量 V t i m e e m b = ( U 1 , U 2 , ⋯ , U 2 N t d − 1 , U 2 N t d ) 1 ∗ N t i m e e m b ,具体如下:
U 2 i − 1 = α N t d ∗ cos ( π 2 ∗ t T s p a n ∗ i N t d ) i ∈ [ 1 , N t d ]
U 2 i = α N t d ∗ sin ( π 2 ∗ t T s p a n ∗ i N t d ) i ∈ [ 1 , N t d ]
MS-Cluster聚类分析包括三个核心过程,包括:聚类初始化,聚类划分以及聚类终止三个过程。
聚类初始化过程是对数据集合中的数据进行特征计算,形成特征向量集合,用于后续聚类分析计算。其中,设参与话题聚合的文本数量为i,每篇文章的特征向量 V e m b i ,对每篇单独形成一个聚类点,对初始聚类点进行聚合,形成一个簇中聚类点数量为i的聚类簇,完成聚类初始化。
聚类划分过程是对每个待划分的聚类簇进行裂变,形成多个新的聚类簇的过程。其中,设裂变的数量为Ndis,根据当前聚类簇中的聚类点分布情况,对聚类簇进行中心点推举,将类簇中推举Ndis个中心点作为新的聚类中心点。推举方式采用聚类点价值评估算法,首先推选候选中心点,以聚类点局部密度 p i > p i s c o r e m i n 为条件推选候选中心点,其中局部密度计算公式为:
p i = ∑ d i s t < d i s t m i n 1 1 + 1 d i s t
其次,根据推选出的K个中心点,计算每个中心点的评估价值,价值计算公式为:
V s c o r e a = p i a ∗ ∑ i ≠ a , i ∈ [ 1 , k ] e ( d i s t a , i d i s t m i n ) 2
通过价值评估,得到Ndis个聚类中心点,完成中心点推举,其中,piscoremin为局部密度的最小阈值,distmin为局部密度计算的最小距离,dista,i为聚类点a至聚类点i的距离。其中,聚类点间的距离计算公式为:
d i s t = 1 − v e c a ⋅ v e c b | v e c b | ∗ | v e c b |
在此基础上通过Ndis个聚类中心点,进行类簇划分。非聚类中心点选择相似度最高的聚类中心点加入,形成类簇,类簇形成后,更新类簇中心,对非聚类中心点重新计算类簇划分,迭代此计算过程,直到所有的非聚类中心点不再更新其所属类簇,完成类簇划分,形成新的Ndis个聚类簇。其中聚类中心更新计算公式为:
v c e n t e r = ∑ i ∈ c c l u s t e r V e c i | ∑ i ∈ c c l u s t e r V e c i |
其中ccluster为当前类簇中所有聚类点,Veci为当前类簇中第i个聚类点的特征向量,聚类点间的相似度计算公式为:
S i m = v e c a ⋅ v e c b | v e c a | ∗ | v e c b |
其中,veca、vecb分别表示文本a与文本b特征向量。
聚类终止过程是对每个划分的聚类簇进行评分,检测其是否可以停止继续划分子类。其中,设聚类增益最小阈值为gerrmin,判断聚类簇中的信息增益是否大于设定的最小阈值,当聚类增益 g e r r < g e r r m i n ,终止当前的当前类簇划分;当聚类增益 g e r r > g e r r m i n ,对当前类簇进行划分,得到子类簇,同时对划分生成每个新生成的类簇进行聚类划分,直至所有类簇聚类增益 g e r r < g e r r m i n ,完成所有类簇的聚类划分。
其中,计算类簇划分对类簇带来的误差增益,其计算公式如下所示:
g e r r = E r r c l u s t e r c − ∑ i ∈ c N d i s E r r c l u s t e r i
其中 E r r c l u s t e r c 为划分前聚类簇的聚类簇误差, ∑ i ∈ c N d i s E r r c l u s t e r i 为新划分的Ndis类簇的聚类误差和。聚类误差的计算公式为:
E r r c e n t e r = ∑ i ∈ c c l u s t e r ( 1 − v e c c e n t e r ⋅ v e c i | v c e n t e r | ∗ | v e c i | )
其中,ccluster为当前类簇中所有聚类点,vcenter为当前类簇的中心聚类点,veci为当前类簇中聚类点的特征向量。
本文在话题补偿推理阶段,针对聚类产生的各个类簇进行类簇间的话题关系推理,通过推理结果对话题进行聚合补偿,增强话题聚合程度。在话题补偿任务中,本文采用文本生成模型,通过生成模型的标签概率映射,计算话题的关联性,实现话题的零样本推理学习(zero-shot)以及少样本推理学习(few-shot)。
话题补偿推理采用ERNIE预训练模型,在此基础上通过prompt模板构建文本推理任务,推理两篇文本的话题相关性,并基于prompt-learning进行模型微调,优化话题推理效果。在此基础上,将文本间的话题相关性,通过话题间相似推理计算公式,映射到话题与话题间的相关性推理,其公式如下所示:
S i m T o p i c a , b = ∑ i ∈ a , j ∈ b s a m e _ t o p i c i , j n a ∗ n b
其中a,b分别表示不同的两个话题, ∑ i ∈ a , j ∈ b s a m e _ t o p i c i , j 表示a,b两个话题中两两属于相同话题的数据求和数量,na与nb表示话题a,b中的数据总量。通过话题间的相关性推理,将高度近似的话题进行聚合,提高话题的完备性,实现话题的补偿推理。
本文采用的数据集为自筹数据集合,其中数据来源于包括新浪微博、网易新闻等社交媒体以及新闻门户网站,通过数据爬虫,数据清洗,形成测试数据集。其中,数据集时间跨度从2012年至2019年,包括13个话题,共2957条数据,每条数据包括新闻标题、新闻内容、新闻时间,数据集话题信息具体分布如图1所示:
图1. 数据集话题分布图
本文在话题检测追踪任务采用的评价指标主要采用2个指标,Precision(准确率)以及Recall(召回率),其具体计算公式如下所示:
Precision = TP TP + FP
Recall = TP TP + FN
在计算公式中,TP表示两个样本属于同一话题并正确计算成为同一话题的数量,FP表示两个样本不属于同一话题并错误计算成为同一话题的数量,FN表示两个样本属于同一话题并错误计算没有成为同一话题的数量。
针对本文提出的话题追踪算法,对算法的聚类分析过程以及话题补偿过程分别进行实验验证。对于聚类分析过程,核心参数包括两个部分:一、针对聚类过程中聚类中心选择上,有两种模式可以进行选择,通过价值计算进行中心点的推选以及随机选择两种模式;二、针对聚类停止条件增益最小阈值为gerrmin选择,该值主要用于控制聚类结束条件。聚类分析过程实验验证结果如图2所示:
图2. 调参效果图
从结果可以看出,针对聚类中心选择模式上,价值计算中心点推选的模式相较于随机选择的模式在Precision与Recall指标上有较少的提升,但提升并不明显。针对聚类停止条件增益最小阈值为gerrmin,随着增益最小阈值为gerrmin的增加,聚类结果的Precision指标明显下滑,Recall指标缓慢上升。由此实验可见,聚类过程中能够达到较高的Precision指标,通过结果具体分析得知,主要体现在聚类分析在短时话题热点的探测聚合上有较好的效果;但聚类过程中的Recall指标提升很难,通过结果具体分析得知,主要体现在聚类分析在长时连续话题的追踪聚合上很难达到较好的效果。
对于话题补偿过程,核心是验证采用预训练模型 + Prompt-Tuning特征学习模式,能否增强聚类分析结果的聚合程度,以提升算法在长时连续话题的追踪聚合能力。同时,验证零样本学习与小样本学习在话题分析补偿中的效果提升。在实验中,聚类分析过程采用的算法参数如下,增益最小阈值设为gerrmin值0.01以及聚类中心选择采用价值计算模式。话题补偿过程实验验证结果如图3所示。
从结果可以看出,在话题补偿阶段,随着小样本学习的样本数量提升,话题检测与追踪结果的Precision指标出现微量的下滑,其主要是由于话题补偿阶段的话题聚合,引入了少量误差数据引起Precision指标下滑。同时,话题检测与追踪结果的Recall指标大幅度提升,在零样本、小样本的情况下都有较好的效果。
图3. 话题补偿效果图
话题检测与追踪任务在数据集上的比对实验结果如图4所示,包含了基于改进的Single-Pass话题检测追踪算法 [
图4. 比对实验结果图
本文提出的基于MS-Cluster与Prompt-Learning的话题检测追踪技术在测试数据集上取得了最优效果,通过实验可以看出通过结合聚类分析的话题热点发现能力以及提示学习的话题补偿能力可以大幅度提升话题检测追踪的能力。同时,本文中对零样本以及少样本的话题补偿能力进行了测试,这使得算法在工程实际应用中对数据样本的标注量需求更低,便于算法的应用落地。
本文提出的话题检测追踪技术结合聚类分析以及小样本学习,使得低标注资源下算法效果能达到较好的效果,为后续相关话题检测追踪研究提供相关的参考。
李 崭,杜晓童,黄 浩,任秋霖. 基于MS-Cluster与Prompt-Learning话题检测与追踪技术Topic Detection and Tracking Technology Based on MS-Cluster and Prompt-Learning[J]. 计算机科学与应用, 2023, 13(10): 1918-1927. https://doi.org/10.12677/CSA.2023.1310190
https://doi.org/10.1145/1031171.1031258
https://doi.org/10.1145/2661829.2662005
https://doi.org/10.1109/APSCC.2014.18
https://doi.org/10.1016/j.eswa.2017.03.020
https://doi.org/10.18653/v1/P19-1471
https://doi.org/10.18653/v1/N19-1081
https://doi.org/10.1016/j.future.2018.01.047
https://doi.org/10.1109/ISISE.2012.30
https://doi.org/10.12783/dtetr/ecar2018/26371
https://doi.org/10.1007/978-3-319-32055-7_4