多标签文本分类问题是自然语言处理领域中的一项重要子任务。考虑到传统的多标签文本分类问题往往没有对标签的信息进行充分利用,本文针对司法领域文本处理过程中遇到的多标签分类问题,提出了一种基于双重注意力机制的网络模型,对标签的固有信息进行充分挖掘,并从标签语义注意力机制以及标签结构注意力机制这两个角度为文本的特征向量进行权重的分配,捕获标签与文本之间的潜在关系。为验证模型的有效性,本文设计了对比实验,结果表明,本模型在宏平均F1值、微平均F1值、综合F1值上均有明显的性能提升。 The multi-label text classification problem is an important subtask of natural language processing. Considering that the traditional multi-label text classification problems often do not make full use of the information of the labels, this paper proposes a model based on dual attention mechanism for the multi-label text classification problem in the judicial field. The inherent information of the text is fully mined, and the weights are assigned to the feature vectors of the text from the two aspects of the label semantic attention layer and the label structure attention layer to capture the potential relationship between the label and the text. In order to verify the validity of the model, a comparative experiment is designed in this paper. The results show that the model has obvious performance improvement in macro-F1, micro-F1, and union-F1.
多标签文本分类问题是自然语言处理领域中的一项重要子任务。考虑到传统的多标签文本分类问题往往没有对标签的信息进行充分利用,本文针对司法领域文本处理过程中遇到的多标签分类问题,提出了一种基于双重注意力机制的网络模型,对标签的固有信息进行充分挖掘,并从标签语义注意力机制以及标签结构注意力机制这两个角度为文本的特征向量进行权重的分配,捕获标签与文本之间的潜在关系。为验证模型的有效性,本文设计了对比实验,结果表明,本模型在宏平均F1值、微平均F1值、综合F1值上均有明显的性能提升。
多标签文本分类,注意力机制,标签相关性
Qiwen Guo, Yong Wang, Ying Wang
School of Computer Science and Technology, Guangdong University of Technology, Guangzhou Guangdong
Received: Jan. 21st, 2022; accepted: Feb. 17th, 2022; published: Feb. 24th, 2022
The multi-label text classification problem is an important subtask of natural language processing. Considering that the traditional multi-label text classification problems often do not make full use of the information of the labels, this paper proposes a model based on dual attention mechanism for the multi-label text classification problem in the judicial field. The inherent information of the text is fully mined, and the weights are assigned to the feature vectors of the text from the two aspects of the label semantic attention layer and the label structure attention layer to capture the potential relationship between the label and the text. In order to verify the validity of the model, a comparative experiment is designed in this paper. The results show that the model has obvious performance improvement in macro-F1, micro-F1, and union-F1.
Keywords:Multi-Label Text Classification, Attention Mechanism, Label Correlation
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着互联网的蓬勃发展,网络为司法公开拓宽了新的思路,利用信息化技术的优势,不断拉近法院与群众之间的距离,让群众近距离感受司法,并提高群众的法律意识。截至2022年1月,在中国裁判文书网上公开的裁判文书总量已有1亿2千多万篇,单日新增文书高达7万多篇。裁判文书是案件判决结果的一个文字描述,其中包括了对案情的描述、被告人违反的法律条文、罪名、判处的刑期等信息。这些海量的裁判文书对于从事司法行业的人来说,是宝贵的参考资料,倘若能对它们进行有效归类,有助于为相似的案情提供指导意见,对被告人所犯的罪名进行辅助预测,降低失误风险,缓解“案多人少”的现状。
然而,在现实场景中,案情往往是错综复杂的,案件和罪名并不是一对一的关系,而是一对多的关系,涉及到数罪并罚的情况,即犯罪主体同时触犯了两个或以上的罪行。这属于多标签分类问题,要求模型需要具备预测多个标签的能力,并对标签之间存在的关联性进行充分利用。
现阶段,已经出现了多种方法解决多标签分类问题。前期解决问题的思路主要有两种,一种是基于问题转换的方法,一种是基于算法扩展的方法。
基于问题转换的方法是将多标签分类问题拆解成多个单标签分类问题,思想简单直接。Boutell等 [
基于算法扩展的方法则是修改机器学习算法,使之适用于多标签分类任务,典型的算法扩展方法包括:基于支持向量机的算法Rank-SVM [
近年来,随着神经网络的发展,研究者们纷纷提出了各种基于神经网络模型运用在多标签文本分类问题上。Kurata等 [
考虑到在多标签分类任务中,标签也是文本,具有特殊的语义信息,同时,标签之间存在复杂的依赖性和相关性。针对上述问题,本文同时引入了标签的语义信息、结构信息,充分利用标签的固有信息,从而提高多标签文本分类性能。
本文提出了一种基于双重注意力机制的多标签文本分类模型,该模型主要由词嵌入层、特征提取层层、图嵌入层、注意力层、特征融合层和输出层组成,模型的整体结构如图1所示。
图1. 模型框架图
给定一个数据集共包括N个文档,标签集合为 L = { l 1 , l 2 , ⋯ , l k } , k 为标签的总数。第 i 个文档 ( x i , y i ) 由一段文本 x i 及对应的标签子集 y i 组成,其中 x i = { w 1 i , w 2 i , ⋯ , w n i } , y i = { y 1 i , y 2 i , ⋯ , y m i } ( y j i ∈ L , 1 ≤ j ≤ m ) , n 为文档 x i 的长度, m 为文档所属的标签子集大小。多标签文本分类的任务就是训练一个预测模型,从而将最相关的一些标签分配给一个新的未标记的样本。
BERT预训练语言模型是由Google研究人员于2018年发布 [
图2. BERT模型结构
本模型采用BERT作为编码器。对输入的司法文本进行编码,将输入文本转化为具有上下文信息的字符级别特征向量表示。另外,考虑到标签也是含有语义信息的文本,本模型将标签的语义信息也输入到BERT模型中,取特殊标记[CLS]对应的隐层状态作为标签语义信息的句子级别特征向量表示。
GRU是长短时记忆网络的一种变体,和LSTM一样同是RNN的变体,能有效克服RNN面临的梯度消失问题。GRU将遗忘门和输入门结合为更新门,输出门更名为重置门,和LSTM相比较少了一个门,因此参数量更少,训练速度更快。由于GRU网络的单向性,只能从前向捕获上文的语义信息,具有一定的局限性,可能导致重要信息的丢失。因此,本模型增添反向GRU对文本的逆序语义信息也进行学习,即利用BiGRU从前、后两个方向同时对文本序列的全局上下文特征进行提取,BiGRU的输入为BERT预训练语言模型得到的司法文本特征向量。
假设 x t 为 t 时刻的输入向量, h → t 和 h ← t 分别代表正向和反向GRU在 t 时刻的输出向量,并将全局正向隐向量 h → t 和全局反向隐向量 h ← t 组合成全局隐向量 h t ,数学表达式如下:
h → t = GRU ( x t , h → t − 1 ) (1)
h ← t = GRU ( x t , h ← t − 1 ) (2)
h t = [ h → t ; h ← t ] (3)
在多标签文本分类任务中,一个样本可能会对应多个标签,标签之间相互关联、相互影响,因此,要对标签之间的相关性进行充分利用。本模型首先会利用训练集中的标签共现关系构建出标签共存图 G = ( V , E ) ,其中V表示节点的集合,E表示边的集合。如果两个标签同时作为一个文档的标签出现,则它们之间连有一条边。对标签共存图,使用SDNE (Structural Deep Network Embedding) [
L mix = v L reg + α L 1st + L 2nd (4)
L 1st = 2 t r ( Y T L Y ) (5)
L 2nd = ( S ^ − S ) ⊙ B F 2 (6)
其中,Y是顶点的嵌入向量,L是拉普拉斯矩阵。S为邻接矩阵, S ^ 为自编码器重构后的邻接矩阵, ⊙ 是哈达玛积,B是一个形状与邻接矩阵S相同的矩阵,当 s i , j = 0 时, b i , j = 1 ;当 s i , j = 1 时, b i , j = β > 1 。其中, α 、 β 和 v 都是参数, α 控制一阶相似性, β 控制邻接矩阵中非零元素的重构程度, v 控制L2正则化项。
近几年来,注意力机制(Attention Mechanism)在文本分类任务中被广泛应用,如图3所示。注意力机制模仿了人类大脑在对大量信息处理的过程中,聚焦于重要信息,忽略不必要信息的思维方式。在网络中添加注意力机制,可以让网络对输入序列中的某些特殊信息进行重点关注,从而提高网络对特征的捕捉能力。
图3. 注意力机制
注意力机制的具体的计算过程可分为三步:
1) 根据Query和对应的Key值进行相似度计算得到二者的注意力得分,如下所示:
f ( Q , K ) = Q K T (7)
2) 使用Softmax函数对上述得到的注意力得分进行归一化处理得到权重系数,如下所示:
a i = Softmax ( f ( Q , K ) ) (8)
3) 将权重系数与对应的Value值进行加权求和得到注意力输出,如下所示:
Attention ( Q , K , V ) = ∑ a i V (9)
将通过特征提取层获得的输入文本序列上下文信息分别传入语义注意力层、结构注意力层,不同的查询会给源文本中的内容赋予不同的权重,从而对潜在信息进行捕获。本模型引入注意力机制对标签信息进行充分的利用,突出文本对每个标签分类的贡献,语义注意力层关注标签固有的语义信息,结构注意力层倾向于关注标签之间的关联性,通过这两个注意力层来对文本特征进行进一步的提取。
将语义注意力层和结构注意力层的输出进行拼接,融合后的特征作为全连接层的输入z。全连接层以Sigmoid为激活函数,将各个标签所对应的输出值压缩至[0, 1]区间,计算公式如下所示,并将输出值大于等于设定阈值的标签作为预测结果。
Output = Sigmoid ( W z + b ) (10)
其中,W是参数矩阵,b是偏置项。
数据来源于CAIL2018罪名预测任务 [
本实验的评价指标使用宏平均F1值 F 1 macro 、微平均F1值 F1 micro 及综合F1值 F1 union ,其计算公式如下所示:
F 1 macro = ∑ i = 1 n F 1 i n (11)
F1 micro = 2 × Precision micro × Recall micro Precision micro + Recall micro (12)
F1 union = F1 macro + F1 micro 2 (13)
本文实验参数如下:BERT模型的隐藏单元数为1024,输入文本句子长度为500。LSTM隐藏层维度为1024,图嵌入维度为1024,学习率为1e−4。为了降低模型过拟合的风险,设置Dropout为0.2,并使用早停(Earlystopping)策略,若模型的损失在验证集上的效果没有明显的提升,则提前结束训练。
为了验证本文提出的模型有效性,本实验与以下一些常用的多标签模型进行对比实验,其中比较的模型有:
TextCNN:利用多种不同尺寸的卷积核对文本中不同大小的信息量提取,能更好地捕获局部相关性。
TextRCNN:通过双向RNN和一层最大池化层进行特征提取。
BiGRU-Attention:通过双向GRU进行特征提取,GRU是LSTM的变体,结构较LSTM简单,同时利用Attention机制对部分文本加强特征提取。
Bert:利用预训练模型,直接获取文本的句子级向量,再输入到分类器进行分类。
模型 | F1macro(%) | F1micro(%) | F1union(%) |
---|---|---|---|
TextCNN | 24.96 | 88.04 | 56.50 |
TextRCNN | 24.38 | 91.12 | 57.75 |
BiGRU-Attention | 26.37 | 89.41 | 57.89 |
Bert | 25.10 | 88.51 | 56.81 |
Our model | 31.13 | 94.32 | 62.73 |
表1. 实验结果
表1显示了TextCNN、TextRCNN、BiGRU-Attention、Bert和本文提出的模型在数据集上的实验结果。从表中的数据可以看出,宏平均F1值、微平均F1值以及综合F1值,都是本文提出的模型最高,证明本模型有明显的性能提升。另外,由实验结果可以观察到宏平均F1值均小于微平均F1值,这是标记样本量少以及类别不平衡所导致的。宏平均F1值的提升能反映出引入标签语义信息和标签的结构信息能建立标签固有信息于文档内容之间的潜在关联,有效改善模型在“小类”上的预测性能。
本文针对多标签分类问题提出了基于双重注意力机制的网络模型。模型首先使用了BERT作为词嵌入层,得到源本文和标签语义信息的向量表示;使用BiGRU对文本向量进行双向特征提取,获取上下文信息;并利用图嵌入得到标签之间的依赖关系;然后利用标签语义注意力层、标签结构注意力层来对文档中的关键信息进行提取;并对特征进行融合,最后输入到全连接层获取分类结果。经过与多个模型进行比对,本文提出的模型能有效提高多标签文本分类的性能。
郭绮雯,王 勇,王 瑛. 基于双重注意力机制的多标签司法文本分类Multi-Label Classification Based on Dual Attention Mechanism for Judicial Documents[J]. 计算机科学与应用, 2022, 12(02): 465-472. https://doi.org/10.12677/CSA.2022.122047
https://doi.org/10.1016/j.patcog.2004.03.009
https://doi.org/10.1007/978-3-642-04174-7_17
https://doi.org/10.1007/3-540-44794-6_4
https://doi.org/10.1016/j.patcog.2006.12.019
https://doi.org/10.18653/v1/N16-1063
https://doi.org/10.1109/IJCNN.2017.7966144
https://doi.org/10.1145/2939672.2939753