1. 引言
网络信息技术的高速发展促进了电子商务交易的萌芽,在各种网络平台用户数持续增长的今天,在线评论的数据量也是与日俱增。在线评论中蕴含着丰富的信息,不仅是消费者购物的重要参考依据,也成为了企业在线口碑的重要影响因素。目前,基于在线评论中消费者情感倾向的文本挖掘已经成为商家企业改进产品、提升竞争力的重要手段之一。
文本情感分析由Nasukawa等人于2003年首次提出 [1] ,传统的方法有基于情感词典 [2] 和基于机器学习的方法 [3] ,但这两种方法都有一定的局限性。近年来随着深度学习在其他领域的大放异彩,研究人员也日益将目光聚焦到自然语言处理上。Bengio等 [4] 提出了神经网络语言模型,给后续的语言模型研究带来了许多启发。在此基础上,Mikolov等 [5] 提出了word2vec模型,Pennington等 [6] 提出了Glove模型。然而这些模型生成的词向量无法随着语境的变化而改变取值,因此难以解决一词多义的问题,因此Peters等 [7] 提出了基于双向语言表征的ELMO模型。这类模型虽然通过预测或统计的方法得到了上下文信息,却没有充分感知到情感信息,导致一些词义相反的词语在语义相似度上反而会非常接近。
随着注意力机制在图像识别领域的成功,研究人员发现其优良的特性同样适用于自然语言处理。Wei等 [8] 设计了一种融合多头正交注意力的Bi-LSTM模型用于提取句子中的隐性情感极性。衡红军等 [9] 设计了一种融合多尺度卷积和注意力机制的情感分析模型用于筛选出更加能代表用户和产品关联性的语义成分。Devlin等 [10] 提出的BERT模型为自然语言处理的发展带来了重大突破,该模型基于Transformer架构,使用注意力机制学习文本的深层特征。
虽然深度学习在情感分析方向表现出良好的性能,但模型本身的可解释性并不强,在语义表达上不太符合人类的认知,并且对于某些特定领域中专业性较强的文本,仅依靠上下文往往无法充分提取到句子的语义信息。因此,有学者提出引入外部信息来提高深度学习模型的效果。Donatas等 [11] 通过手动创建词汇化领域本体,引入双向注意力机制,以获取特定领域的知识进行情感分析。杨秀璋 [12] 等通过融合情感词典的特征提取方法优化了特征词权重,再结合BiLSTM、CNN和注意力机制进行文本情感分析。
知识图谱(Knowledge Graph, KG) [13] 作为一种人为总结的知识库,体现了人类对客观逻辑的认知和推理过程,具有较强的语义表达能力,将知识图谱与深度学习模型相融合,可以帮助模型更深入地理解文本中的深层语义信息。本文在这种思想的基础上设计了一种融合BERT和知识图谱的情感分析模型。
2. 模型设计
本文提出的融合BERT和知识图谱的情感分析模型结构如图1所示。
Figure 1. Sentiment analysis model integrating BERT and Knowledge Graph
图1. 融合BERT和知识图谱的情感分析模型
该模型将文本作为输入,利用知识图谱模块将预训练的专家知识注入到输入文本中,并生成包含实体关系的句子树,之后的特征模块将文本转化为特征,而句子结构信息通过矩阵进行存储,将存在关联的文本间的关系对进行保留,不存在关联的关系对进行遮掩。在完成以上任务后,通过BERT模型进行特征筛选与更新。分类层与输出层将特征进行维度变换、从而完成下游任务。
2.1. 知识图谱
知识图谱被定义为由大量实体及其之间的关系组成的大规模知识库,其本质是一种具有有向图结构的语义网络知识库,基本组成单位是三元组,图中的节点表示事物或概念的实体属性,边则表示实体之间的各种语义关系。本文使用的知识图谱包括CN-DBpedia [14] 和HowNet [15] 。CN-DBpedia是由复旦大学知识工作实验室开发的一个大规模的开放领域的百科全书式知识图谱,涵盖数千万个实体和数亿个关系。该系统从百度百科、维基百科等中文知识库中提取知识作为主要数据来源,直接从结构化信息中心提取相应事实。同时,对于提取的数据,还规范了其属性和取值,并基于规则进行了误差修正,通过查找主谓宾三元组完善实体信息框。此外,该系统利用跨语言类型推断构建了分类模型,将中文实体与英文实体配对,构建出更完备的数据集,对于信息的更新,利用基于贪婪算法的实体提取方法定期监视实体的变化来主动更新知识库。HowNet是一个包含大规模的语言知识库词汇和概念的语言知识库,其中每个中文词都被标注了语义单元。为了有利于高质量提取实体进行关系抽取,本文剔除了那些实体名称长度小于2或含有特殊字符的三元组。
2.2. BERT预训练模型
BERT模型相较以往的语言模型有两个主要创新点,一是Transformer结构,二是掩码语言模型(Masked Language Model, MLM)。其中Transformer是一种基于注意力机制的深度学习模型,其主要原理如下:
1) 根据目标字、上下文及值向量生成对应的初始矩阵
、
和
,并分别与词向量相乘生成新的
:
(1)
(2)
(3)
2) 将所有键向量
与需要计算注意力的查询向量
进行点乘来计算得分,归一化之后利用softmax的内在机制得到权重向量:
(4)
(5)
3) 根据权重系数对值向量进行加权求和:
(6)
MLM的思想则来源于完形填空,即随机遮盖一部分的输入并根据剩余的词汇通过全局学习来预测这些输入,在实现过程中这些被遮盖的输入实际是被特殊标记[MASK]替换了。这样操作既缓解了预训练与微调任务不匹配的问题,又增强了模型学习上下文信息的能力。这样操作既缓解了预训练与微调任务不匹配的问题,又增强了模型学习上下文信息的能力。为了增强模型的泛化能力,并非所有被遮盖的输入都用[MASK]替换而是一定比例被替换,通常选择的比例是80%,余下20%的填空一半用随机单词替换,一半则不作任何替换。NSP则是通过预测同时输入的两个句子是否为上下句的关系来赋予模型理解句子间关系的能力,该任务有助于在下游的关系判断任务上取得良好效果。双向语言模型正是BERT训练出的模型具有强大表征能力的重要原因。
3. 实验分析
3.1. 数据集
本文实验使用的数据集为网络上公开的用于情感分类的三个语料数据集,包括谭松波教授整理的酒店评论数据集、IMDB影评数据集和豆瓣读书评论数据集(Book_Review)。数据集概况如表1所示。
3.2. 对比实验
为了验证本文提出了融合BERT和知识图谱模型的有效性,选择两个基础的深度学习模型以及两个在相同领域效果较好的新型模型进行对照,包括:
1) CNN:利用word2vec进行文本向量化,CNN模型提取文本特征;
2) Bi-LSTM:利用word2vec进行文本向量化,Bi-LSTM模型提取文本特征;
3) Bi-LSTM + Attention [16] :利用word2vec进行文本向量化,在Bi-LSTM的基础上添加注意力机制进行进一步的特征提取;
4) Bi-LSTM + BERT [17] :利用BERT预训练模型形成文本的向量表示,并利用Bi-LSTM获取长距离的语义关系;
5) Knowledge Graph + BERT:本文所提出的模型,利用知识图谱为原始文本注入相关先验知识以获取文本中隐含的语义关系,并利用BERT进行词向量的预训练。
根据消费者评论数据的特点,本文采用准确率(Accuracy)作为衡量模型性能的指标。各模型的实验结果如表2所示。
从表中可以看出,本文提出的融合BERT与知识图谱的情感分析模型在三个数据集上都取得了良好的效果。由实验结果可以得知,Bi-LSTM模型的效果优于传统CNN,这是因为Bi-LSTM模型的双向预测考虑了上下文信息,且在序列信息的处理上相比CNN的卷积结构更有优势。而在引入注意力机制后,Bi-LSTM模型相较基础模型的准确率分别提升了0.75%、0.32% 和1.02%,可以看出注意力机制能够通过聚焦重要单词及其上下文进一步提升模型性能。同时,通过对比使用BERT预训练的Bi-LSTM模型和使用word2vec进行文本向量化的Bi-LSTM模型的实验结果可以看出,采用BERT进行预训练能够学习到更深层次的文本语义信息,提高模型性能。本文所提出的模型相较于结合了Bi-LSTM和BERT的模型在三个数据集上的准确率分别提升了0.07%、0.57% 和0.04%,表明知识图谱能为模型提供更加丰富的先验知识,增强模型的可解释性,在专业性较强的领域相比深度学习模型特征提取的效果更好。由于酒店评论语料相较于另外两种语料对于专业背景知识具有更强的针对性,因此知识图谱的应用能够显著提高模型的性能,而对于影评和书评这种背景知识相对不那么强的领域,该模型的提升效果不是十分显著。
4. 结语
本文针对传统深度学习模型在专业领域缺少相应先验知识的问题,提出了一种融合知识图谱和BERT的文本情感分类模型,该模型通过在文本初始向量化之前为语料库注入知识图谱信息,增强了数据的特征表达能力,接着利用BERT提取文本语义信息和句法结构信息,最后通过全连接层获取文本的情感极性。该模型在三个公开数据集上的实验结果较以往模型有了一定提升,证明了模型的有效性。实验表明,添加了包含语义逻辑的先验知识之后,深度学习模型能够更有效地学习语义信息。
不过,对于融合知识图谱的情感分类模型,本文没有考虑到过多的知识整合可能会使句子偏离正确的意思,所用的知识图谱也缺少针对性。盲目地添加知识容易造成噪音,从而影响模型的效果,因此在之后的工作中需要利用更科学的方法构建高质量的知识图谱。