1. 引言
随着我国法治建设的持续推进,越来越多的人有了法律维权意识,并通过法律手段合理维护社会公平正义,但随之而来的,是司法工作人员所需要受理的案件大幅增加,据中央纪委国家监委网报道,近年来,全国各级人民法院受理案件数量显著增加,其中,在2023年,全国各级人民法院共受理案件高达4557万件。因此,利用计算机及法律相关知识辅助司法工作人员办公,提高案件审理的效率,便极具意义。法律案件的审理过程,其每个环节都离不开相应的法律文书,包括检察文书、公证文书、仲裁文书等。这类法律文书是详尽地记录着案件的信息,因此面向法律文书的自然语言处理研究便拥有着广阔的前景。法条推荐是面向法律文书的自然语言处理任务中的重要组成部分,在传统的人工司法审理过程,法官需要自行翻阅大量法律法规,并从中挑选适用的法律条文作为依据,以此确定审理的结果。考虑到我国的成文法种类复杂繁多,在一个案件的审判过程,可能涉及多个不同的法律法规,司法工作人员需要阅读并熟记大量法律法规,并结合法律案件作出判断,引出相关的法律条文,这个过程不仅耗费了大量的时间和精力,还可能导致“同案不同判,法条适用不统一”的情况,这严重影响了司法的公平正义。针对上述情况,本文提出了基于深度学习的法条推荐方法,旨在利用人工智能技术,给出智能法条推荐方法,优化司法决策过程,提升法律的质量和效率。
法条推荐的主要目的是让机器可以在阅读相关文书的案情描述后,预测本案所涉及的法律法规。根据采用方法的不同,当前方法分为基于分类任务的法条推荐和基于语义匹配的法条推荐。
基于分类任务的法条推荐方法是将相关法律文书转换为文本,法律条文转换为法条标签,利用特征抽取的方式,构建法条分类器,实现法条推荐。从特征抽取的角度看,又可分为基于机器学习的特征抽取及基于深度学习的特征抽取。
机器学习方法需要通过人工方式,提取字、词、短语的浅层语义特征。在早些时候,文本分类研究大多数是基于统计分析的方法[1][2],该方法需要专业人员标注,无法适应不同背景下的法条推荐。随着机器学习的不断研究与深入,支持向量机、逻辑回归、朴素贝叶斯等分类逐渐应用于不同领域,如Liu[3]使用基于SVM的方法实现初步法条文本分类。但由于从字、词、短语级别提取出的浅层语义特征,难以区分内容相似、易混淆的法律条文,因此基于机器学习的特征提取方式,存在领域复用性差,模型泛化能力低,特征信息提取不够充分的问题。
近年来,受到深度学习领域在图像音频领域取得成功所带来的影响,基于深度学习的方法也逐渐应用于NLP中的分类任务,如Luo[4]和Jiang[5]使用双向门控循环单元的方法对法条进行分类。在基于深度学习的方法上,研究者通过利用CNN、RNN等神经网络自动获取文本特征表示,从而减少了复杂的人工特征工程,提高了法条推荐的准确率以及效率。如张虎[6]提出基于卷积神经网络的模型,解决法律判决文书中的法条推荐问题。将CNN神经网络应用于法条推荐分类任务,能从全局信息中提取局部特征,但无法解决法律文书中存在的长距离依赖关系问题,Zhang[7]针对案情描述中存在的长距离依赖关系特征,使用等长卷积和最大池化的DPCNN模型,通过重复执行卷积循环块,捕获法律文书中存在的长距离依赖关系问题。程豪[8]使用两个CNN分类器实现分层预测,通过卷积层抽取文本特征,最大池化层选择主要特征,提高神经网络并行能力,捕获长距离特征。
基于分类的法条推荐方法利用深度学习进行特征提取,解决了使用机器学习进行特征提取时,语义特征提取不充分、领域复用性差、泛化能力低的问题,但基于文本分类模式的深度学习方法,仅考虑了案情描述的文本特征提取,并未充分考虑法条的语义信息。针对上述问题,基于匹配的方法将法条分类任务转换为语义匹配任务,通过计算案情描述和法律条文的匹配程度,实现法律条文的推荐。殷玥[9]提出基于提出一个新的融合记忆网络和双层注意力机制的法条推荐模型。2018年后,随着预训练模型BERT的大规模应用,唐光远[10]等人通过融入预训练模型,提出基于BERT预训练模型对法条知识和案件描述分别进行表征,并针对RNN中存在的梯度消失问题,使用双向LSTM对案件描述文本进行特征提取,然后基于注意力机制提取融合法条知识的案件描述文本特征,最终实现智能法条推荐,该方法在法研杯的相关数据集上,法条推荐的F1值有了显著的提升。李琳[11]等人提出了基于深度语义匹配的法条推荐方法,该方法包含局部语义匹配模块和全局语义推荐模块,分别设计双向Transformer卷积网络模型和基于回归树的推荐模型,在理解文本序列的同时,关注与法条匹配学习相关的局部语义特征,增强法条推荐的准确率和可解释性。丁娜[12]提出一种双向注意力文本关键词匹配的法条推荐模型,该模型通过提取案情描述和法条两者的关键词序列,融合关键词序列的匹配特征,进行法条推荐,在裁判文书数据集上,与BERT模型相比,该法条推荐模型在F1评价指标上,平均有了3.58%的提升。
然而,基于匹配的法条推荐任务虽然构建了案情描述与法条语义之间的联系,提高了信息的利用率,但针对多法律条文的多标签任务,忽略了标签之间的依赖关系,无法找准并找全和案情描述相关的所有法律条文。基于此,本文提出了一种基于匹配并通过标签之间的依赖关系进行法条推荐的模型。本文方法的主要贡献如下:
1) 针对法律文书语义复杂的问题,本文利用预训练模型Ernie中的词感知、结构感知、语义感知预训练任务,提高模型针对法律文书的语义理解及表示能力。
2) 针对法律文书文本较长且存在不同层次结构特征的情况,本文利用胶囊网络(Capusle-Network, CapsNet)和BiLSTM,提高模型的上下文及层次结构特征捕获能力。
3) 针对法条推荐中存在多标签问题,本文对不同时间步的标签向量进行加权求和,综合考虑标签的整体信息,建立起标签依赖关系,避免误差传递问题,提高法条推荐效果。
2. 模型方法
本文提出基于Ernie胶囊网络的多标签依赖法条推荐模型(Multi-label Dependency Statute Recommendation Based on Ernie Capsule Network, MDSR-ECN),其模型结构如图1所示。
Figure 1.MDSR-ECN model structure
图1.MDSR-ECN模型结构图
基于Ernie胶囊网络的多标签依赖法条推荐模型MDSR-ECN主要分为基于Ernie的语义编码层,基于CapsNet-BiLSTM的特征提取层以及基于标签依赖关系的法条预测层。
2.1. 基于Ernie的语义编码
Figure 2.Ernie structure
图2.Ernie结构图
Ernie是百度提出的一种基于Transformer框架的预训练模型。在Ernie预训练任务中,主要分为词感知预训练任务、结构感知预训练任务和语义感知预训练任务。在词感知预训练任务中,引入短语掩码和命名实体掩码来预测序列的信息,通过标记和文档关系的预测,使得模型拥有复杂文本关键词提取的语义理解能力。在结构感知预训练任务中,通过句子重排和句子距离计算的方式预测句子之间的关系,所谓句子重排和句子距离计算,即将排列好的片段,随机拆分成多个片段,再重新排序,在此过程中,模型学习到句子是否相邻的结构信息。在语义感知预训练任务中,根据文章上下文的关联词,来提取句子之间的语义关系,Ernie结构中Transformer编码器由注意力层和前馈神经网络组成,其结构如图2所示。
2.2. 基于CapsNet-BiLSTM的特征提取
CapsNet是一种神经网络结构,最早由Geoffrey Hinton[13]等人提出,CapsNet旨在克服传统卷积神经网络在处理图像数据时,池化过程无法保留原始信息的问题。Zhao[14]提出模型Capsnet-A和Capsnet-B并将模型首次应用于文本分类领域,实验结果证明,针对多标签文本任务,胶囊网络的效果要优于CNN和LSTM模型。
在法律文书法条推荐任务中,文本数据通常具有层次结构和语义关系,CapsNet通过动态路由机制可以学习到不同层次之间的关系,有助于更好地理解文本中的层次信息,并且CapsNet通过胶囊实现信息传递,可以减少信息丢失,提高文本的语义特征提取能力。
在结构上,CapsNet主要由低层次胶囊网络层、动态路由层及高层次胶囊网络层组成。CapsNet结构如图3所示。
Figure 3.CapsNet structure
图3.CapsNet结构图
将Ernie编码后的向量作为低层胶囊输入,经过矩阵W的线性变换后得到向量
,公式如下所示。
(1)
为了将低层胶囊信息传入到高层胶囊当中,需要判断低层胶囊与高层胶囊的耦合程度,通过计算低层i胶囊和高层j胶囊的相似度的方式得到胶囊之间的耦合程度,公式如下所示。
(2)
将耦合程度与经过W矩阵线性变换的向量
相乘,经过加权求和后得到高层胶囊向量输出,计算公式如下所示。
(3)
为了得到向量归一化表示,同时保留向量方向信息,对高层胶囊进行压缩,计算公式如下所示。
(4)
在胶囊网络动态路由机制中,需要动态更新迭代胶囊特征信息,计算公式如下所示。
(5)
经过胶囊网络,得到了局部特征与层次特征的向量表示,将向量输入到BiLSTM层,进一步学习文本的上下文特征。BiLSTM层由两个LSTM网络组成。计算公式如下所示:
(6)
(7)
BiLSTM分别计算前项隐向量
产生的新隐向量h和后项隐向量
产生的新隐向量h,并将两个新的隐向量拼接得到向量h。
2.3. 基于标签依赖关系的法条预测
由于法律文书中文本的不同部分对不同标签的重要性是不同的,同时多标签之间也具有相关性[15]。为了解决这些问题,本文使用MDSR-ECN模型进行法条预测,该模型通过捕捉标签之间的相关性,提高多标签法条推荐的效果。由于法律文书法条推荐任务是多标签任务,即每个法律文书的案情描述可以有多个标签,因此模型需要找到最大化条件概率
的最佳标签
序列[16][17],其计算公式如下所示。
(8)
为了使得模型在预测不同法条时聚焦案情描述的不同部分,首先计算案情描述向量的权重,计算公式如下所示。
(9)
(10)
(11)
其中,
和
是参数矩阵,
是时间步t下的隐藏状态,
是权重分配后的案情描述向量表示。
在得到权重分配的案情描述向量后,需要对向量进行解码,计算公式如下所示。
(12)
其中,
是时间步
下,法条标签的概率分布,
表示
时概率最高的法条标签向量表示与每一个时间步的法条标签向量表示的加权求和,计算公式如下所示。
(13)
(14)
(15)
其中,
表示时间步
时的概率分布,
表示第i个标签的向量表示,
表示时间步t时法条标签向量的求和,W1和W2是参数矩阵,H表示控制加权比例的门控单元。
使用概率最高的法条标签向量表示与每一个时间步的法条标签向量表示的加权求和的原因是,当仅通过使用概率最高的法条标签向量时,若时间步t的预测出现了错误,则接下来的时间步也会得到一系列错误的标签分类,这种情况,称之为误差传递,为了缓解此类问题,通过两种情况下向量的加权求和,综合考虑标签的整体信息,减少由先前时间步中的错误预测造成的偏差,使得模型能够更准确地预测标签序列。
利用解码后的隐藏状态
及案情描述向量
计算法条标签的概率分布,计算公式如下所示。
(16)
(17)
其中,
、
、
表示参数矩阵,
表示掩码向量,表示若上一时间步输出了第i条法条标签,则当前时间步
的第i个元素为无穷,避免输出相同的法条标签。
本文将使用交叉熵函数作为损失函数,计算公式如下所示。
(18)
其中,N表示样本数量,M表示标签数量,
是第i个样本的第j个标签真实值,
是模型预测的第i个样本的第j个标签为正确的概率。
3. 实验
3.1. 实验数据集
本文使用中国法律智能技术评测2018法律文书作为数据集,该数据集由北京大学、清华大学、中国科学院软件研究所和中国司法大数据研究院联合发布,是第一个用于司法预测的大规模中国法律数据集。本文将该数据集按7:2:1的比例划分为训练集11.2万条,测试集3.2万条,验证集1.6万条,作为本实验所用的数据集。数据集涉及法条共计183条。
3.2. 实验设计及结果分析
由于目前CNN、RNN及注意力机制为多标签文本分类的主流方向,因此本文首先使用经典CNN模型TextCNN[18],将CNN与RNN进行融合的混合模型TextRCNN[19],使用多级扩张卷积和混合注意力机制的SUBDC[20]作为基线模型。
TextCNN是Yoon Kim利用不同尺寸的卷积核提取文本中的特征信息,捕获文本的局部相关性,从而实现文本分类任务。TextRCNN通过使用双向循环结构获取上下文信息,同时结合最大池化层获取文本的关键特征信息,实现了CNN和RNN的优势融合。
SUBDC利用扩大感受野的方式,捕获更大范围的语义信息,同时通过跨语义单元的连接,实现语义单元的信息传递,从而提高多标签文本分类的效果。
基线模型和本文提出的MDSR-ECN模型的对比实验结果如表1所示。
Table 1.Comparison of experimental results table
表1.对比实验结果表
方法 |
Precision |
Recall |
F1 |
TextCNN |
0.723 |
0.539 |
0.618 |
TextRCNN |
0.719 |
0.687 |
0.703 |
SUBDC |
0.813 |
0.778 |
0.795 |
MDSR-ECN |
0.835 |
0.811 |
0.823 |
从实验结果看,TextCNN通过卷积和池化操作,能够有效地捕获文本中的局部特征和语义信息,但由于卷积和池化操作会将每个词语特征视为相等重要,而忽略了文本中的位置信息,因此无法捕捉文本顺序特征,同时由于使用固定的卷积核进行卷积操作,对变长文本进行卷积时,需要填充或截断,这将导致部分信息的丢失。
TextRCNN通过引入RNN,用于捕捉文本序列的上下文信息,使得模型既能获得词语之间的局部信息,又能获得文本的全局信息,并且通过动态RNN的方式适应不同长度的文本输入,避免了填充或截断带来的信息损失,因此在实验结果上,召回值R有了明显的提升,这意味着减少信息损失后,TextRCNN找到了更为齐全的正确标签。
在SUBDC中,则使用插空跳跃膨胀卷积的方式,避免池化操作导致的信息缺失,同时,膨胀卷积还可以解决长文本中的长距离依赖关系,通过调整卷积中的感受野大小,处理不同长度的文本分类,另一方面,SUBDC通过混合注意力的方式,捕获不同层次的信息,更好地提取文本词语级,段落级信息,从结果上看,相较于TextRCNN,精确率P和召回值R都有了接近10%的提升。
针对法条推荐任务,上述方法利用主流的CNN及RNN方法,结合注意力机制,在卷积操作上进行了优化,在文本特征提取上效果显著。
本文提出的模型不仅考虑了文本特征提取的问题,同时针对多标签分类问题,进一步考虑标签之间的依赖关系,提升文本和标签之间的语义关联及信息互补。同时,一般文本分类方法,忽略标签之间的依赖关系,则会导致误差的传播,即如果一个标签被错误地预测,那么与它相关的标签也可能会受到影响。
针对误差传播的问题,本文提出的模型MDSR-ECN首先利用Ernie编码,提取丰富的文本语义信息,再通过CapsNet,利用动态路由机制,实现低层特征与高层特征的集合,得到分层特征信息,BiLSTM通过时间步信息传递实现上下文特征融合。标签预测的过程中,对概率最高的法条标签向量表示与每一个时间步的法条标签向量表示的进行加权求和,综合考虑标签的整体信息,建立起标签依赖关系,避免误差传递问题,提高法条推荐效果。从实验结果上看,准确率P、召回值R和F1均优于基线模型,证明了本文模型在法条推荐任务中的有效性及可行性。
考虑到本任务为多标签文本分类,为进一步探究本文模型在不同标签数量下的效果差异,首先统计数据集中不同标签数量的样本条数,根据标签数量的不同,将训练集、验证集、测试集划分为3个类别,依次表示标签数量为1、标签数量为2、标签数量大于等于3,其结果如表2所示。
Table 2.Data set
表2.数据集
标签数量 |
训练集 |
验证集 |
测试集 |
1 |
74,863 |
14,147 |
27,484 |
2 |
23,537 |
2009 |
3672 |
≥3 |
13,598 |
975 |
1352 |
下面给出不同标签数量下的案情描述样例,案情描述一如图4所示,该案情对应法条标签为刑法第234条,即标签数量为1。
Figure 4.Case description figure I
图4.案情描述图一
案情描述二如图5所示,该案情对应法条标签为刑法第348条,刑法第356条,即标签数量为2。
Figure 5.Case description figure II
图5.案情描述图二
案情描述三如图6所示,该案情对应法条标签为刑法第383条、第385条、第386条,即标签数量为3。
Figure 6.Case description figure III
图6.案情描述图三
不同标签数量的对比试验结果如表3所示。
Table 3.Table of experimental results for comparison of different label quantities
表3.不同标签数量对比实验结果表
标签数量 |
方法 |
Precision |
Recall |
F1 |
1 |
TextCNN |
0.723 |
0.539 |
0.618 |
TextRCNN |
0.719 |
0.687 |
0.703 |
SUBDC |
0.813 |
0.778 |
0.795 |
MDSR-ECN |
0.835 |
0.811 |
0.823 |
2 |
TextCNN |
0.674 |
0.603 |
0.637 |
TextRCNN |
0.689 |
0.652 |
0.670 |
SUBDC |
0.756 |
0.676 |
0.714 |
MDSR-ECN |
0.782 |
0.701 |
0.739 |
≥3 |
TextCNN |
0.523 |
0.387 |
0.445 |
TextRCNN |
0.546 |
0.429 |
0.475 |
SUBDC |
0.580 |
0.443 |
0.502 |
MDSR-ECN |
0.632 |
0.511 |
0.565 |
通过上述三组实验可以得知,当数据集中的标签数量较少时,MDSR-ECN通过编码层,提取出丰富的文本特征信息,提高模型的精确率Precsion,当数据集中的标签数增多时,MDSR-ECN通过标签依赖关系的解码层,提高模型的召回值Recall,综合提升模型的F1。因此,上述三组实验进一步说明,MDSR-ECN可以很好地解决法律文书中法条推荐的多标签文本分类问题。
4. 结束语
针对分析法律文书中法条推荐任务存在多标签类别的特点,本文提出了基于预训练模型Ernie,融合CapsNet-BiLSTM的标签依赖法条推荐模型MDSR-ECN。针对法律文书篇幅可能较长,存在长距离文本依赖的问题,Ernie通过词感知预训练任务、结构感知预训练任务和语义感知预训练任务,提高模型的文本理解能力。同时,由于法律文书篇幅较长,存在词语层次、段落层次、文档层次的结构,利用CapsNet,通过聚类的思想,代替池化操作,实现不同层次的特征整合,利用BiLSTM,提高模型的上下文信息提取能力。针对不同法条标签之间存在依赖的问题,在标签预测的过程中,对概率最高的法条标签向量表示与每一个时间步的法条标签向量表示的进行加权求和,综合考虑标签的整体信息,建立起标签依赖关系,避免误差传递问题,提高法条推荐效果。实验结果表明,该模型在法律文书的法条推荐任务上,F1值达到了82.3%,证明了模型的有效性和可行性。