Speech Separation Method Based on Visual Modal Scale Fusion
The multimodal speech separation method integrates visual and auditory information to improve the separation performance of a single auditory mode. At present, the problem of modal feature scale difference in audiovisual fusion mechanism is insufficient, which affects the expression and separation performance of high-dimensional semantic information in vision. Therefore, a fusion method based on visual modal scale is proposed to reduce auditory timing scale and reconstruct speech features containing visual modal information by encoder. Aiming at the mainstream separation baseline model, a two-scale extended convolution fusion temporal convolution block is introduced to learn the multi-dimensional information of features, and the performance of speech separation method is further improved. The proposed multimodal speech separation method is evaluated on GRID dataset and TUT2016 dataset. The experimental results show that, the performance of the method is improved by 2.14 dB and 0.82 dB, respectively, compared with the single mode baseline model and the audio-visual speech separation comparison model, which verifies the effectiveness of the proposed method. Finally, based on the interpretability analysis theory, the influence of backbone network on the separation performance is visualized, which provides a theoretical basis for the subsequent structural design and the interpretability of speech separation.
Multimodal Speech Separation
语音感知在人工智能技术推动下,逐步应用在智能家居、智能办公等领域,研究机器对人声信号的分离、增强等听觉感知能力。语音分离技术作为语音感知的前端工作,将混合音频重建出多个说话人的独立音频,为后续语义理解等任务提供干净声源。从描述语音信息的模态数量划分,可分为单模态和多模态语音分离。单模态语音分离只考虑听觉模态的音频特征,在传统方法中以频域分析为主,如谱减法
真实环境下,说话人的面部视觉特征潜在描述了语音的人声属性,而考虑视听融合感知的多模态语音分离技术可以进一步丰富输入特征的信息表达维度,弥补单模态存在的缺失和噪声干扰等问题,提高模型性能
视觉领域的研究积累了丰富的特征提取方法,如视觉模型在目标检测
本文提出一种基于视觉模态尺度匹配的语音分离方法。结合听觉时序编码器与融合特征解码器结构,将基于人脸关键点的视觉特征与听觉时域特征融合,弥补模态间时序尺度的差异。在GRID数据集和包含TUT2016真实背景声的数据集上对比不同模型的分离性能指标,验证所提方法比基线模型和同类视听模态融合方法具有更好的分离性能和环境噪声鲁棒性。为了直观分析模型的多模态分离能力,展示了分离前后的时域波形和频域图像,证明模型能从混合语音中分离出不同说话人的语音。最后,使用可解释性分析方法探究深度学习语音分离的主干网络,将分离模块对语音的关注进行可视化,验证模型结构设计与视听模态对网络的作用。
听觉模态的源数据为拾音器采集的一维波形数据。语音相关的视觉模态特征通常为按照视频帧率组成图像序列,每一个图像帧可视为二维数字矩阵。视觉模态在单个采样点上的信息量主要体现在二维,而与语音相关的信息集中在图像中的人脸区域。图像序列构成的视觉模态特征不仅在单帧图像上表达了说话人的位置或数量信息,也利用了多张图像存在的时序信息,如说话人的面部和姿态的变化。
从特征的时序维度考虑,语音原始波形的采样点远高于视频帧,如1秒的时间区间内,听觉信息包含上千个波形数据点,而视觉信息最多只有起点和端点的两张图像数据。因此,常见的多模态方法中,视觉模态特征的处理重点在于利用神经网络提取二维图像信息,而听觉模态主要针对长序列的特征学习。时序上的信息量和不同模态处理方法的差异,导致两种模态在融合前存在较大的特征尺寸差异。为了解决时序维度差异问题,常使用上采样线性插值的方法提高视觉模态特征在时序维度上的长度。线性插值法是假设特征点间存在线性变化,基于插值与左右参考点的距离权重补充数据,但图像帧之间的音频波形变化具有随机性,依靠图像特征的两点信息难以准确匹配视觉模态和听觉模态信息。
通过分析视觉模态和听觉模态差异,提出一种基于视觉模态时序尺度融合的语音分离方法。压缩听觉特征的时序长度,使其与视觉特征的时序长度相近后再进行模态融合。模型的整体结构如
特征提取包含视觉和听觉模态。为了降低网络参数并提高特征的可解释性,视觉模态来源于视觉图像序列数据的人脸关键点坐标。使用级联分类器检测图像帧的人脸位置坐标,并输入到经典的人脸关键点检测网络LBF (Local Binary Features)
Unet是基于编码器和解码器结构的经典神经网络,运用于语义分割
基于视觉模态的时序维度尺寸,设计听觉时序编码器的卷积神经网络层数和卷积核参数。在不改变通道数的前提下,采样听觉模态的时序特征,使编码器输出的听觉特征在时序尺度上与听觉特征接近。为了尽量保留视觉特征的信息量,听觉时序编码器输出的听觉特征时序长度与视觉特征时序长度接近。虽然视觉特征仍需要使用线性插值的上采样与听觉特征保持一致,但插值的信息量远低于直接匹配听觉模态特征。
通过通道维度拼接的融合方法,获得小尺度的视听融合特征,并使用批归一化
主干网络为改进的Conv-TasNet网络分离模块,为了进一步提高模型对序列特征的学习能力,引入指数递减的扩张卷积,优化后的时序卷积块如
实验数据集的构建基于音视频公开数据集GRID
使用公开数据集TUT2016
(1)
式中 表示混合后的多人语音数据; 和 为语音混合的随机信噪比参数; 代表随机选取的真实环境背景声; 和 为随机选取的说话人音频。
模型的网络结构部分超参数如
模型训练和推理的最短时长为3 s,音频的采样率为8 kHz。模型初始学习率设置为10−3,且在验证集性能连续三次未提升时减半。模型的验证集性能在10次训练周期后未提高,则结束训练,并作为最优模型。验证集和测试集的数据批大小为3。评价指标和模型训练的损失函数选用主流的尺度不变信噪比SI-SNR (scale-invariant signal-to-noise ratio improvement)
模型参数 |
参数值 |
融合特征通道数 |
128 |
Unet第二层下采样卷积参数 |
K = 3, s = 3, p = 0 |
Unet第三层下采样卷积参数 |
K = 3, s = 3, p = 1 |
Unet第四层下采样卷积参数 |
K = 2, s = 1, p = 0 |
分离模块时序卷积最大膨胀指数 |
7 |
分离模块时序卷积堆叠序列数 |
3 |
(2)
(3)
(4)
式中 表示语音分离模型中分离出的说话人语音数据, 表示说话人的干净语音数据。
为了验证视听模态语音分离方法的性能,对比单模态模型与视听模态对比模型。针对单模态对比实验,选取了经典的时域语音分离网络Conv-TasNet与近期提出基于Transformer的TDAnet网络。TDAnet是采用Unet网络结构和多头注意力机制的时域语音分离网络,在分离性能上远高于经典的Conv-TasNet模型,同时具有较小的参数量
对比实验 |
测试集SI-SNR |
噪声SI-SNR |
单模态模型1 |
11.47 |
8.54 |
单模态模型2 |
13.11 |
9.24 |
视听对比模型 |
12.79 |
9.65 |
直接上采样 |
13.34 |
9.74 |
所提方法 |
13.61 |
10.01 |
单模态模型2在无背景声的测试集和包含噪声的测试集上都有优于单模态模型1,而针对单模态模型1提出的视听模态融合改进,使整体性能优于单模态模型2的表现,说明所提方法在基于多模态的语音分离任务中超过了单模态的最新分离网络。与视听对比模型对比中,所提方法在两个测试集上都优于近年提出的视听语音分离方法。为了比较直接上采样的融合方法,使用视觉特征上采样的机制训练模型。在两类数据集上,直接上采样的方法都不如所提方法。
综上所述,整体性对比实验中,模态尺度融合的语音分离方法在分离性能上获得了不错的表现,验证了方法的有效性。
针对模态尺度融合方法和双尺度时序卷积,设计了对应的消融实验,其中每个模型只保留了一种改进方法,实验结果如
消融变量 |
测试集SI-SNR |
噪声SI-SNR |
双尺度卷积 |
13.03 |
9.42 |
模态尺度融合 |
13.36 |
9.56 |
双尺度扩张卷积模型在两类数据集上都优于单模态模型1,证明在分离模块中融入多个尺度可以提高基线模型Conv-TasNet的分离性能,同时提高了分离鲁棒性。在只保留模态尺度匹配的方法中,性能优于两类单模态模型,验证了多模态方法的有效性,且在干净背景声数据集中优于的视听对比模型。
为了进一步验证语音分离的性能和有效性,可视化模型分离效果,从干净环境测试集中随机选取混合音频作为实验样本,重构出A说话人和B说话人的单人语音,其中音频内容包含六个单词和字母的随机组合,分别是“bwbq9p”和“bbib9p”。
图4. A说话人分离语音波形。(a) A说话人分离语音波形;(b) A说话人原始语音波形;(c) A说话人分离频域谱图;(d) A说话人原始频域谱图
图5. B说话人分离语音波形。(a) B说话人分离语音波形;(b) B说话人原始语音波形;(c) B说话人分离频域谱图;(d) B说话人原始频域谱图
目前,深度学习的可解释性分析主要针对视觉领域,如基于类激活图CAM (Class Activation Mapping)
作为解释性分析的主要对象,分类模型通过全连接层与概率激活函数的输出可以反向推理不同类别概率的权重分布,分析多个通道的图像数据影响。语音分离与图形分类任务在模型结果的产生方式上存在差异,无法通过网络层末端的全连接层映射到数据的标签类别,所以难以从概率分布的角度逆推掩蔽特征各区域对分离的贡献。图像分类可解释性分析的另一种方法是通过滑动遮罩掩盖图像中的原始数据,计算不同区域被掩盖后的分类准确性,作为该图像区域对模型性能影响的依据。采用尺度不变信噪比评价标准可以量化模型分离性能的表现,且模型特征图的二维属性可以视为视觉领域的图像信息,描述不同区域的人声分量。利用特征的信息描述质量与语音分离性能的相关性,可以类比图像特征对分类或识别任务的影响。
基于上述分析,设计的遮罩特征尺寸与特征图尺寸一致且包含局部全零的滑动方块,其余值为1。特征图与遮罩特征相乘后,部分区域的数据清零,其他区域保持不变,模拟该区域不包含任何人声数据。遮罩特征中的全零方块为固定尺度32的正方形区域,每次滑动的步长为32。方块滑动的顺序从遮罩左上方开始按照行优先的顺序,并在每一次滑动后计算分离模型的尺度不变信噪比指标。获得特征图各区域清零后的数据可以绘制成二维的数据等高线图,建立模型对声音特征关注区域的可视化分析。
分离模块中的堆叠时序卷积块是构建掩蔽矩阵的关键网络机构。分析每个卷积块对分离性能的贡献可进一步解释所提方法对人声信号的学习,有助于后续语音分离网络结构的设计和优化。基于可解释性方法,依次对分离模块的24个时序卷积进行遮罩处理,同时计算时序卷积块的跳跃输出和残差输出,并拼接所有卷积块的等高线图。为了分析不同训练时期的分离模块,对最优模型和第一次训练周期下的模型进行计算。绘制结果如
为了更好地表达数据差异,尺度不变信噪比以负值的形式存储。如果掩蔽部分区域内的数值清零后,模型的指标变化不大,说明该区域不是模型参数关注的区域。模型指标越大的区域表明与模型性能的相关性越高,是模型分离模块中参数学习关键区域。堆叠时序卷积块通道数是通过遮罩计算后依次拼接的时序卷积通道,且在时序尺度上描述了混合语音特征的人声区域。可以看出第一次训练周期模型的所有卷积块对语音分离模型性能的影响相对一致,而通过多次迭代后的最优模型分离模块则偏向于靠前的时序卷积,说明接近语音原始特征的时序卷积能逐步学习更关键的人声信息。
通过分析消融实验模型和直接上采样融合模型的分离模块。可以研究模态融合机制和双尺度时序卷积对模型的影响,使用可解释性分析方法绘制两种消融模型的分离模块关注图,如
结合五张分离模型关注图可以得出,训练好的网络更关注早期的堆叠时序卷积块。后续的时序卷积虽然获取了更高维的语音特征,但对模型性能的影响逐渐减小,且冗余的网络参数容易引起模型过拟合,可以用于解释网络结构的设计中,时序卷积块堆叠数量过多造成的性能下降的问题。多模态的融合特征
促进了早期时序卷积块的学习,加速了模型收敛的同时,也提高了模型的分离性能。从融合机制上看,充分利用模态特征的融合方法有助于分离模块提取语音的关键人声特征。
针对视听语音分离任务,提出了一种基于视觉模态尺度融合的语音分离方法。使用基于编码器和解码器结构的多模态融合机制,弥补视听模态融合中视觉时序尺度的不足。为了进一步提高网络特征提取能力,引入反向指数递减的扩张卷积,构建双尺度的时序卷积块。在两类数据集的对比实验中,该方法比基线单模态和多模态语音分离模型的分离性能提高了2.14 dB和0.82 dB,验证了方法在多模态语音分离任务上的性能提升,具有较好的噪声鲁棒性。通过展示语音分离前后的对比,并使用可解释性分析方法探究模型的工作原理,分析分离模块对人声的关注变化,验证了双尺度时序卷积和模态融合机制对网络性能的影响,为后续语音分离模型的结构设计提供理论依据。
国家自然科学基金项目(52075541),2022年广东省本科高校教学质量与教学改革工程项目(卓越智能制造专项人才培养计划项目)资助项目。