早期情感分析依托于神经网络在文本、图像或者音频等单个模态做情感分析,虽然在各自模态已经有了不错的效果,但是仅仅通过单模态做情感分析无法充分表达人们的情感,所以本文结合多个模态的信息应用于情感分析领域。该领域中Self-MM模型已经有了较好的实验效果,但是该模型在优化器层面还有提升的空间,本文在此基础上继续做研究,采用更先进的AdamW优化器,在公开数据集CMU-MOSI进行验证,实验结果在Acc-7、Acc-2两个分类精度上分别有0.12%和0.43%的提升。 Early sentiment analysis relies on neural networks to do sentiment analysis in individual modali-ties such as text, image or audio, and although there have been good results in each modality, it is not possible to fully express people’s emotions by only doing sentiment analysis in a single modality, so this paper combines information from multiple modalities to apply to the field of sentiment analysis. The Self-MM model in this field has had good experimental results, but the model has room for improvement at the optimizer level. This paper continues to do research on this basis using the more advanced AdamW optimizer, and validates it in the public data set CMU-MOSI, and the experimental results have an improvement of 0.12% and 0.43% in the classification accuracy of Acc-7 and Acc-2, respectively.
早期情感分析依托于神经网络在文本、图像或者音频等单个模态做情感分析,虽然在各自模态已经有了不错的效果,但是仅仅通过单模态做情感分析无法充分表达人们的情感,所以本文结合多个模态的信息应用于情感分析领域。该领域中Self-MM模型已经有了较好的实验效果,但是该模型在优化器层面还有提升的空间,本文在此基础上继续做研究,采用更先进的AdamW优化器,在公开数据集CMU-MOSI进行验证,实验结果在Acc-7、Acc-2两个分类精度上分别有0.12%和0.43%的提升。
多模态,情感分析,神经网络
Jianbing Ma, Qihan Shen*, Xianghao Cui
School of Computer Science, Chengdu University of Information Technology, Chengdu Sichuan
Received: Mar. 22nd, 2023; accepted: Apr. 21st, 2023; published: Apr. 28th, 2023
Early sentiment analysis relies on neural networks to do sentiment analysis in individual modalities such as text, image or audio, and although there have been good results in each modality, it is not possible to fully express people’s emotions by only doing sentiment analysis in a single modality, so this paper combines information from multiple modalities to apply to the field of sentiment analysis. The Self-MM model in this field has had good experimental results, but the model has room for improvement at the optimizer level. This paper continues to do research on this basis using the more advanced AdamW optimizer, and validates it in the public data set CMU-MOSI, and the experimental results have an improvement of 0.12% and 0.43% in the classification accuracy of Acc-7 and Acc-2, respectively.
Keywords:Multimodal, Sentiment Analysis, Neural Networks
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
情感分析旨在通过信息化、系统化的方式量化评估情感状态的工作,是人工智能的重要课题之一 [
多模态情感分析能够结合不同维度的模态信息实现信息互补,使得情感的表达更加多元化,更加贴切人们真实的情感,与此同时,由于异构的模态输入来源,如何去有效利用整合这些多模态数据源是一项重大的挑战。文献 [
综上所述,本文主要贡献有以下两点:
1) 采用了一种改进优化器的方案用作用于Self-MM模型,提高了模型的精度。
2) 梳理整理了情感分析领域,从单模态情感分析到多模态情感分析的演化进程。
基于文本模态的情感分析,相较于图像和音频模态的数据源,文本模态存在更高语义维度的信息,也是情感分析的重要领域。从早期通过情感词典的方式,文献 [
基于音频模态的情感分析,主要涉及到三个特征的识别,分别是频谱特征、音频特征和音律特征。文献 [
基于图像模态的情感分析,通过面部表情是最为直观的情感表达方式,具有丰富的感染力。文献 [
综上所述,这三个单模态情感分析的方式在各自领域都有较好的发展,但是同时也是受限于单个模态信息的原因,单个模态的信息是无法满足多模态数据源场景的,所以本文侧重于多模态情感分析的研究。
按照融合的时机做划分,可以划分为三种类型:早期融合、晚期融合以及混合融合。早期融合通常采用向量相加、向量拼接后者向量相乘的方式操作。首先把各自模态的特征提取出来后,再做一个串联的操作,最后把总的特征向量输出到分类器中,流程如图1所示。
图1. 早期融合方式
该种方案避免了特征的归一化和缩放,能够利用好模态间的互补信息,但是存在忽略掉模态间的动态联系。随后,还有晚期融合的方式,在各个模态做完分类任务之后,再由决策层通过投票等方式得到最终的决策结果,流程如图2所示。
还有一种结合了早期融合和晚期融合的方式,继承了两种方式的优点并且还优化了彼此的不足,如图3所示,模态1和模态2两个模态率先做信息融合,结果再由分类器1输出,之后再于模态3经过分类器2输出的结果再做一次决策融合,进而得到最后的情感结果,这种融合方式虽然结合了模态间数据的差异性,也考虑模态间的交互性,但是也给模型增大了复杂度和可实现性。
从融合方式角度出发,可以分为两种方式。融合方式是指将各个模态的向量信息通过首尾拼接或者加权求和的方式完成向量的拼接融合工作。得益于神经网络具备良好的非线性映射能力,以及配置神经元的层级结构等方式,在特征融合方面有比较好的效果。本文采用的模型基于第三种混合融合范式去做后续的情感分析。
图2. 决策期融合方式
图3. 混合融合方式
通过多模态数据,将各个模态信息做互补会带来更好的情感分析结果。文献 [
Lion [
本文研究课题基于Self-MM模型 [
图4. Self-MM模型图
在多模态融合之前,需要将各个模态的特征做提取。设定文本模态输入为 X t ,音频模态输入为 X a ,视频模态输入为 X v ,输入集合记为 X = { X t , X a , X v } 。经过特征提取后,需要得到文本特征记为 F t ,音频特征记为 F a ,视频特征记为 F v ,特征集合记为 F = { F t , F a , F v } 。
文本模态,本文采用BERT [
音频以及视频模态,因为数据具有时序性,所以采用的LSTM [
在特征提取后,这些特征向量将会应用于后续的ULGM [
由于三个模态的数据维度存在差异。需要将通过向量投射的方式将三个模态的数据映射到同一个空间。映射后的特征向量记作 F m ∗ ,转化过程公式(1)所示。
F m ∗ = ReLU ( W m F m + b m ) (1)
之后,需要用到两个部分的数据信息,第一部分是由三个模态拼接而成特征F,第二部分需要采用ULGM模块(Unimodal Lable Generation Module)对单个模态做自监督训练,进而得到各自模态的自监督伪标签,用于辅助后续的模型训练。
图5. BERT模型图
最后,我们在优化器模块做调整。优化器是用于优化损失函数,使得损失函数能够朝着更小化的方式调整训练的参数,通过实验对比本文最终采用AdamW作为模型的优化器,并与Lion、Adan、Adam优化器作对比实验。
本文实验环境如下所示:所有实验在Dell Precision 7920塔式工作站上进行的,其硬件配置如下。内存空间大小125 GB,CPU搭载Intel(R) Xeon(R) Silver 4210芯片,GPU型号为NVIDIA TITAN RTX,显存大小24 GB。软件环境如下,操作系统采用Ubuntu 16.04 LTS 64位,开发语言采用Python 3.9版本,深度学习框架采用PyTorch 1.1.2版本。
本文采用卡内基梅隆大学公开的CMU-MOSI数据集 [
图6. 数据集分布图
根据CMU-MOSI数据集的标签由消极到积极的程度是按照线性划分。情感分析任务可以看作是一个分类任务。本文主要采用的指标有七分类(Acc-7)、二分类(Acc-2)、平均绝对误差(MAE,公式如公式(2)所示)、相关系数(Corr,公式如公式(3)所示)。
MAE = ∑ i n | y i − y i p | n (2)
Corr = ∑ ( x − x ¯ ) ( y − y ¯ ) ( x − x ¯ ) 2 ∑ ( y − y ¯ ) 2 (3)
为了验证我们改进后的模型具备提升的效果,我们选取了:
1) EF-LSTM:经典的早期融合方案,首先把特征层的向量信息做拼接操作,最后再使用LSTM模型做情感分类任务。
2) LF-LSTM:类似EF-LSTM模型,但是融合的时机不同,采用晚期融合的策略,将多个LSTM网络学习到的不同模态的信息做拼接,最后再分类输出预测。
3) GRAPH_MFN:通过一个简单的图神经网络在非对齐序列中学习各个模态的信息。
4) MUILT:通过Transformer实现跨模态之间的学习,进而更加有效地实现多模态融合任务。
5) MISA:采用编码器模块将输入模态分为不变特征和特定特征,最后融合这两种特征进行情感分析
6) Self-MM:通过自监督的方式,给每一个模态生成对应的模态标签。
我们将Self-MM作为基础模型,在此基础上,采用不同的优化器做对比实验。分别采用Lion、Adan、Adam以及本文采用的AdamW。
由表1我们可以看出,本文采用的AdamW优化器在Acc-7、Acc-2和Corr三个指标上都有所提升,并且MAE系数更小,说明改方案使得模型更加稳定。
我们采用4.3.1章节的6种多模态情感分析模型做对比实验,实验结果如表1所示。
模型 | Acc-7 | Acc-2 | MAE | Corr |
---|---|---|---|---|
Lion | 40.85 | 80.06 | 0.829 | 0.735 |
Adan | 43.93 | 84.18 | 0.739 | 0.782 |
Adam | 45.63 | 84.35 | 0.720 | 0.785 |
AdamW | 45.75 | 84.78 | 0.721 | 0.791 |
表1. 不同优化器的对比实验
模型 | Acc-7 | Acc-2 | MAE | Corr |
---|---|---|---|---|
EF-LSTM | 35.39 | 78.48 | 0.948 | 0.669 |
LF-LSTM | 34.52 | 78.63 | 0.954 | 0.658 |
GRAPH_MFN | 34.64 | 78.35 | 0.955 | 0.648 |
MULT | 36.91 | 80.98 | 0.879 | 0.702 |
MISA | 41.37 | 83.54 | 0.776 | 0.778 |
Self-MM | 45.63 | 84.35 | 0.720 | 0.785 |
Ours | 45.75 | 84.78 | 0.721 | 0.791 |
表2. CMU-MOSI数据集上的模型对比结果
由上表2可以看到,我们改进后的模型比Self-MM模型在Acc-7、Acc-2两个分类精度上分别有0.12%和0.43%的提升,并且在相关系数上有所提升,并且与其他主流模型作对比都有更好的实验表现,验证了我们改进方案的有效性。得益于我们采用AdamW作为优化器,相比较Self-MM采用的Adam等优化器,对学习率更高敏感,实现了weight decay解耦,效果更好。
多模态情感分析与单模态情感分析相比较,多模态情感分析可以在多个感知模态(如图像、语音、文本等)中获取信息,从不同角度全面了解人的情感状态,比单一模态情感分析更加准确和全面。本文采用更加高效的优化器AdamW作用于Self-MM模型,使得模型更加稳定,避免模型过拟合,效果更好。
在接下来的工作当中,我们将会把工作重点聚焦于跨模态间的学习任务,进而提高多模态数据间的利用率,同时考虑多模态情感分析模型在鲁棒性方面的表现。
本研究得到了四川省重点研发计划的支持(NO. 2023YFS0192 to Jianbing Ma)。
马健兵,沈琪瀚,崔翔浩. 基于改进Self-MM模型的多模态情感分析Multimodal Sentiment Analysis Based on Improved Self-MM Model[J]. 计算机科学与应用, 2023, 13(04): 923-931. https://doi.org/10.12677/CSA.2023.134090
https://doi.org/10.1016/j.imavis.2017.08.003
https://doi.org/10.1145/2070481.2070509
https://doi.org/10.1609/aaai.v35i12.17289
https://doi.org/10.1145/1961189.1961199
https://doi.org/10.1561/1500000011
https://doi.org/10.1109/5.726791
https://doi.org/10.29007/7mhj
https://doi.org/10.1109/CVPRW.2017.282
https://doi.org/10.1016/j.inffus.2017.02.003
https://doi.org/10.1609/aaai.v32i1.12024
https://doi.org/10.1155/2021/6662337
https://doi.org/10.3390/ijgi6010023
https://doi.org/10.18653/v1/D17-1115