极速滚球-beplay滚球玩法刺激-beplay体育官网网页版等您来挑战！

iae

Instrumentation and Equipments

2332-6980 2332-7006

beplay体育官网网页版等您来挑战！

10.12677/iae.2024.123042

iae-93093

Articles

工程技术

基于视觉模态尺度融合的语音分离方法
Speech Separation Method Based on Visual Modal Scale Fusion

朱亚峰

贾林锋

张

炜

广州理工学院智能制造与电气工程学院，广东广州

15 07 2024

12 03 315 328 26 6 ：2024 27 6 ：2024 27 7 ：2024

2024

This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/

多模态语音分离方法融合视觉和听觉信息，提高单一听觉模态的分离性能。目前视听融合机制在模态特征尺度差异的问题上研究不足，影响视觉的高维语义信息表达和分离性能。因此，提出一种基于视觉模态尺度的融合方法，通过编码器降低听觉时序尺度并重建出包含视觉模态信息的语音特征。针对主流的分离基线模型，引入双尺度扩张卷积融合的时序卷积块，学习特征的多维信息，进一步提高语音分离方法的性能。在GRID数据集和TUT2016数据集上对提出的多模态语音分离方法进行评估。实验结果表明，与单模态基线模型和视听语音分离比较模型相比，分别提高了2.14 dB和0.82 dB，验证了所提方法的有效性。最后基于可解释性分析理论，将主干网络对分离性能的影响可视化，为后续结构设计和语音分离可解释性提供理论依据。
The multimodal speech separation method integrates visual and auditory information to improve the separation performance of a single auditory mode. At present, the problem of modal feature scale difference in audiovisual fusion mechanism is insufficient, which affects the expression and separation performance of high-dimensional semantic information in vision. Therefore, a fusion method based on visual modal scale is proposed to reduce auditory timing scale and reconstruct speech features containing visual modal information by encoder. Aiming at the mainstream separation baseline model, a two-scale extended convolution fusion temporal convolution block is introduced to learn the multi-dimensional information of features, and the performance of speech separation method is further improved. The proposed multimodal speech separation method is evaluated on GRID dataset and TUT2016 dataset. The experimental results show that, the performance of the method is improved by 2.14 dB and 0.82 dB, respectively, compared with the single mode baseline model and the audio-visual speech separation comparison model, which verifies the effectiveness of the proposed method. Finally, based on the interpretability analysis theory, the influence of backbone network on the separation performance is visualized, which provides a theoretical basis for the subsequent structural design and the interpretability of speech separation.

多模态语音分离，视听融合，时序卷积，时序尺度
Multimodal Speech Separation
Audio-Visual Fusion Temporal Convolution Temporal Scale

1. 引言

语音感知在人工智能技术推动下，逐步应用在智能家居、智能办公等领域，研究机器对人声信号的分离、增强等听觉感知能力。语音分离技术作为语音感知的前端工作，将混合音频重建出多个说话人的独立音频，为后续语义理解等任务提供干净声源。从描述语音信息的模态数量划分，可分为单模态和多模态语音分离。单模态语音分离只考虑听觉模态的音频特征，在传统方法中以频域分析为主，如谱减法 [1] 、非负矩阵分解 [2] 和计算听觉场景分析 [3] 等。传统单模态语音分离方法具有较强的可解释性，但在实际应用中的分离性能不足，且存在分离排序不定和数量未知的问题。随着深度学习的发展，基于深层神经网络建模的时域语音分离方法在性能上超越了传统频域方法，且通过话语级置换不变训练uPIT (Utterance-level permutation invariant training) [4] 训练方法解决排序不定问题。针对音频时域特征，TasNet网络 [5] 、Conv-TasNet网络 [6] 等基于掩蔽的分离方法通过堆叠多个卷积层获取长序列信息。在后续研究中，单模态方法引入循环神经网络RNN (Recurrent Neural Networks)和Transformer结构进一步提高对语音时序信息的提取和并行计算能力，而模型参数量和计算复杂度也不断提高 [7] [8] 。

真实环境下，说话人的面部视觉特征潜在描述了语音的人声属性，而考虑视听融合感知的多模态语音分离技术可以进一步丰富输入特征的信息表达维度，弥补单模态存在的缺失和噪声干扰等问题，提高模型性能 [9] 。经典视听语音分离模型由谷歌研究员提出，将不同说话人的图像序列作为模型的视觉输入信息，使用人脸识别模型提取脸部缩略图数据 [10] 。通过权重共享的神经网络处理缩略图数据，获得视听融合环节的视觉特征。听觉模态采用频域谱图，使用卷积网络学习高维信息。处理后的视听模态在通道维度上拼接，通过长短期记忆LSTM (Long short-term memory)网络获取特征的时序信息，并按照说话人数量生成描述人声占比的掩蔽矩阵。由于模态融合后的特征处理流程与单模态方法类似，目前视听语音分离技术主要架构是在单模态方法的基础上添加视觉模态的信息流，重点在于选取适当的视觉特征提取方法和模态融合方法。

视觉领域的研究积累了丰富的特征提取方法，如视觉模型在目标检测 [11] ，图像分类 [12] 等任务实现了对人类视觉系统的超越。图像中的人脸是视听研究领域的主要视觉信息，因此常使用视觉领域中的人脸检测 [13] [14] 或人脸追踪模型 [15] 分析人脸数量或区域，为语音分离提供说话人数量等参考信息。视听语音分离中运用的人脸视觉特征主要为原始图像 [16] [17] 、光流 [18] [19] 、唇部特征点 [20] [21] 等。视觉模态和听觉模态经过特征提取和处理后形成了高维表达特征，而视听融合方法的本质是将两种不同维度且信息表达不一致的特征融合成一个特征。常见的融合方法包括特征相加、通道拼接和基于注意力机制的跨模态融合，其中两种模态特征的尺度需保持一致。现有方法为了匹配不同尺度的模态特征，通常基于听觉特征尺度直接对视觉特征进行上采样操作，但视觉的视频帧率远低于听觉模态的语音采样率，因此会插补大量无效的视频帧信息，未能高效利用视觉的高维语义信息，弱化模态融合对语音分离的性能提升作用。

本文提出一种基于视觉模态尺度匹配的语音分离方法。结合听觉时序编码器与融合特征解码器结构，将基于人脸关键点的视觉特征与听觉时域特征融合，弥补模态间时序尺度的差异。在GRID数据集和包含TUT2016真实背景声的数据集上对比不同模型的分离性能指标，验证所提方法比基线模型和同类视听模态融合方法具有更好的分离性能和环境噪声鲁棒性。为了直观分析模型的多模态分离能力，展示了分离前后的时域波形和频域图像，证明模型能从混合语音中分离出不同说话人的语音。最后，使用可解释性分析方法探究深度学习语音分离的主干网络，将分离模块对语音的关注进行可视化，验证模型结构设计与视听模态对网络的作用。

2. 视听语音分离方法 2.1. 模态特征分析

听觉模态的源数据为拾音器采集的一维波形数据。语音相关的视觉模态特征通常为按照视频帧率组成图像序列，每一个图像帧可视为二维数字矩阵。视觉模态在单个采样点上的信息量主要体现在二维，而与语音相关的信息集中在图像中的人脸区域。图像序列构成的视觉模态特征不仅在单帧图像上表达了说话人的位置或数量信息，也利用了多张图像存在的时序信息，如说话人的面部和姿态的变化。

从特征的时序维度考虑，语音原始波形的采样点远高于视频帧，如1秒的时间区间内，听觉信息包含上千个波形数据点，而视觉信息最多只有起点和端点的两张图像数据。因此，常见的多模态方法中，视觉模态特征的处理重点在于利用神经网络提取二维图像信息，而听觉模态主要针对长序列的特征学习。时序上的信息量和不同模态处理方法的差异，导致两种模态在融合前存在较大的特征尺寸差异。为了解决时序维度差异问题，常使用上采样线性插值的方法提高视觉模态特征在时序维度上的长度。线性插值法是假设特征点间存在线性变化，基于插值与左右参考点的距离权重补充数据，但图像帧之间的音频波形变化具有随机性，依靠图像特征的两点信息难以准确匹配视觉模态和听觉模态信息。

2.2. 整体架构

通过分析视觉模态和听觉模态差异，提出一种基于视觉模态时序尺度融合的语音分离方法。压缩听觉特征的时序长度，使其与视觉特征的时序长度相近后再进行模态融合。模型的整体结构如图1 所示。在模态输入模块中，视觉信息提取自视频中的图像帧，基于视频帧率提取所有的人脸原始图像。通过Opencv视觉库检测图形中的人脸区域，并提取人脸特关键点特征。为了匹配两种不同模态的特征长度，使用时序编码器降低听觉模态的特征长度，在不改变特征通道的情况下融合两种模态特征。通过解码器生成包含视觉特征和听觉特征的融合特征。融合特征与听觉特征通过残差连接引入由双尺度扩张卷积构成的分离模块，并在重构模块中通过转置卷积网络重建出不同说话人的语音。

Figure 1 Figure 1. Audiovisual modal speech separation architecture--图1. 视听模态语音分离架构-- 2.3. 模态特征提取

特征提取包含视觉和听觉模态。为了降低网络参数并提高特征的可解释性，视觉模态来源于视觉图像序列数据的人脸关键点坐标。使用级联分类器检测图像帧的人脸位置坐标，并输入到经典的人脸关键点检测网络LBF (Local Binary Features) [22] 中提取68个人脸关键点。将关键点二维坐标相加后作为人脸特征点数据。通过权重共享的一维卷积学习视觉特征的共性表达，在通道维度融合不同说话人特征，形成多人视觉模态特征。听觉模态使用主流时域语音分离模型的提取方法，采用多个一维卷积编码，获取多通道时域特征。

2.4. 视听模态融合

Unet是基于编码器和解码器结构的经典神经网络，运用于语义分割 [23] 和语音增强 [24] 等任务，其编码器通过下采样操作降低特征维度，在解码器部分使用上采样恢复特征尺寸并与编码器对应尺寸的特征图融合，学习不同尺度下的特征信息 [25] 。通过借鉴Unet的结构，设计只在时序尺度改变维度的视听融合机制，构建听觉时序编码器与融合特征解码器的类Unet结构，如图2 所示。

基于视觉模态的时序维度尺寸，设计听觉时序编码器的卷积神经网络层数和卷积核参数。在不改变通道数的前提下，采样听觉模态的时序特征，使编码器输出的听觉特征在时序尺度上与听觉特征接近。为了尽量保留视觉特征的信息量，听觉时序编码器输出的听觉特征时序长度与视觉特征时序长度接近。虽然视觉特征仍需要使用线性插值的上采样与听觉特征保持一致，但插值的信息量远低于直接匹配听觉模态特征。

通过通道维度拼接的融合方法，获得小尺度的视听融合特征，并使用批归一化 [26] 保证数据分布的一致性。利用解码器结构的反卷积计算，将时序尺度恢复到与编码器各层听觉特征一致。为了提高每一层特征的长序列信息表达，基于编码器各层的特征长度，依次添加单尺度时序卷积块。编码器特征通过时序卷积后与解码器特征拼接融合，保留了多个维度的语音信息。在Unet网络最后一层的解码器，输出包含视听觉模态的融合特征，在时序尺度上与听觉输入特征一致。

Figure 2 Figure 2. Audiovisual modal fusion--图2. 视听模态融合-- 2.5. 主干分离网络

主干网络为改进的Conv-TasNet网络分离模块，为了进一步提高模型对序列特征的学习能力，引入指数递减的扩张卷积，优化后的时序卷积块如图3 所示。在Conv-TasNet网络分离模块中，堆叠时序卷积块中采用了膨胀因子以2为底，指数从0增长至7的扩张卷积。随着膨胀因子不断提高，模型对长序列特征的提取能力单一，难以学习不同尺度的语音信息。在时序卷积块中融合指数由7递减至0的扩张卷积，形成了双尺度的扩张时序卷积块，在每一层的时序卷积块中都有两个扩张卷积提取时序特征。通过24个双尺度时序卷积块提取出具有说话人权重信息的掩蔽矩阵，在后续语音重构模块中重建不同说话人的语音数据。

3. 模型验证和分析 3.1. 实验数据集构建

实验数据集的构建基于音视频公开数据集GRID [27] ，包含了18名男性说话人和15名女性说话人的音频和视频文件。各自随机选取3名男性和女性作为混合语音测试集数据源。验证集数据源采用同样的方法，选择了与测试集不同的3名男性和3名女性。剩下的说话人作为训练集的数据源。为了保证数据集之间不受干扰，在对应数据集中随机选取说话人音频数据，以−5 dB到5 dB的随机信噪比混合。通过记录每个数据集的总时长，构建3个小时的混合语音测试集，1个小时的验证集和10个小时的训练集。视觉模态特征基于说话人的数据集分布，提取出对应的人脸特征数据，作为语音对应的视觉模态数据集。

使用公开数据集TUT2016 [28] 声学场景数据集构建包含真实噪声的混合语音测试集，用于模型的鲁棒性验证。随机选取环境语音数据与GRID混合语音按照一定的混合比例生成带环境噪声的3小时混合语音数据集，混合公式如下：

$A_{m i x} = α A_{1} + β A_{2} + 0.3 \times A_{n}$ (1)

式中 $A_{m i x}$ 表示混合后的多人语音数据； $α$ 和 $β$ 为语音混合的随机信噪比参数； $A_{n}$ 代表随机选取的真实环境背景声； $A_{1}$ 和 $A_{2}$ 为随机选取的说话人音频。

Figure 3 Figure 3. Two-scale temporal convolutional block--图3. 双尺度时序卷积块-- 3.2. 模型参数和评价指标

模型的网络结构部分超参数如表1 所示。

模型训练和推理的最短时长为3 s，音频的采样率为8 kHz。模型初始学习率设置为10⁻³，且在验证集性能连续三次未提升时减半。模型的验证集性能在10次训练周期后未提高，则结束训练，并作为最优模型。验证集和测试集的数据批大小为3。评价指标和模型训练的损失函数选用主流的尺度不变信噪比SI-SNR (scale-invariant signal-to-noise ratio improvement) [29] ，其定义为：

Table 1 <xref></xref>Table 1. The main hyperparameters of the modelTable 1. The main hyperparameters of the model 表1. 模型主要超参数

模型参数	参数值
融合特征通道数	128
Unet第二层下采样卷积参数	K = 3, s = 3, p = 0
Unet第三层下采样卷积参数	K = 3, s = 3, p = 1
Unet第四层下采样卷积参数	K = 2, s = 1, p = 0
分离模块时序卷积最大膨胀指数	7
分离模块时序卷积堆叠序列数	3

$s_{a} = \frac{〈 s_{o}, s 〉 s}{s^{2}}$ (2)

$s_{n} = s_{o} - s_{a}$ (3)

$S I - S N R = 10 \log_{10} {(\frac{‖ s_{a} ‖}{‖ s_{o} ‖})}^{2}$ (4)

式中 $s_{o}$ 表示语音分离模型中分离出的说话人语音数据， $s$ 表示说话人的干净语音数据。

3.3. 对比实验设计及结果

为了验证视听模态语音分离方法的性能，对比单模态模型与视听模态对比模型。针对单模态对比实验，选取了经典的时域语音分离网络Conv-TasNet与近期提出基于Transformer的TDAnet网络。TDAnet是采用Unet网络结构和多头注意力机制的时域语音分离网络，在分离性能上远高于经典的Conv-TasNet模型，同时具有较小的参数量 [30] 。在与多模态模型的对比中，选择近年提出的基于生成对抗网络的AVSS方法 [17] 。该方法通过生成对抗网络输出具有语音相关特征的视觉特征，且同样基于Conv-TasNet基线网络构建模型。实验结果如表2 所示。单模态模型1和2分别表示单模态纯时域语音分离网络Conv-TasNet基线模型和最新的TDAnet网络。视听对比模型是基于生成对抗网络体提取视觉特征的视听语音分离模型。

Table 2 <xref></xref>Table 2. Comparative experimental resultsTable 2. Comparative experimental results 表2. 对比实验结果

对比实验	测试集SI-SNR	噪声SI-SNR
单模态模型1	11.47	8.54
单模态模型2	13.11	9.24
视听对比模型	12.79	9.65
直接上采样	13.34	9.74
所提方法	13.61	10.01

单模态模型2在无背景声的测试集和包含噪声的测试集上都有优于单模态模型1，而针对单模态模型1提出的视听模态融合改进，使整体性能优于单模态模型2的表现，说明所提方法在基于多模态的语音分离任务中超过了单模态的最新分离网络。与视听对比模型对比中，所提方法在两个测试集上都优于近年提出的视听语音分离方法。为了比较直接上采样的融合方法，使用视觉特征上采样的机制训练模型。在两类数据集上，直接上采样的方法都不如所提方法。

综上所述，整体性对比实验中，模态尺度融合的语音分离方法在分离性能上获得了不错的表现，验证了方法的有效性。

3.4. 消融实验

针对模态尺度融合方法和双尺度时序卷积，设计了对应的消融实验，其中每个模型只保留了一种改进方法，实验结果如表3 所示。

Table 3 <xref></xref>Table 3. Comparison of ablation resultsTable 3. Comparison of ablation results 表3. 消融实验对比结果

消融变量	测试集SI-SNR	噪声SI-SNR
双尺度卷积	13.03	9.42
模态尺度融合	13.36	9.56

双尺度扩张卷积模型在两类数据集上都优于单模态模型1，证明在分离模块中融入多个尺度可以提高基线模型Conv-TasNet的分离性能，同时提高了分离鲁棒性。在只保留模态尺度匹配的方法中，性能优于两类单模态模型，验证了多模态方法的有效性，且在干净背景声数据集中优于的视听对比模型。

3.5. 分离语音对比

为了进一步验证语音分离的性能和有效性，可视化模型分离效果，从干净环境测试集中随机选取混合音频作为实验样本，重构出A说话人和B说话人的单人语音，其中音频内容包含六个单词和字母的随机组合，分别是“bwbq9p”和“bbib9p”。图4 和图5 分别展示了说话人原始语音和模型分离后的语音在时域波形和频谱图上的对比，并标注了部分重建前后的波形差异。从波形数据看，分离后的语音与说话人的原始语音数据差距极小，验证了方法的有效性。同时，模型也对语音数据中包含的背景声进行了重建，基本还原了说话人在录制时保留的微弱背景声音。频域谱图的对比可以更直观地比较分离前后的语音差异，如分离后的频率分量仍会受到另外一个说话人的影响。

图4. A说话人分离语音波形。(a) A说话人分离语音波形；(b) A说话人原始语音波形；(c) A说话人分离频域谱图；(d) A说话人原始频域谱图

图5. B说话人分离语音波形。(a) B说话人分离语音波形；(b) B说话人原始语音波形；(c) B说话人分离频域谱图；(d) B说话人原始频域谱图

3.6. 网络结构分析

目前，深度学习的可解释性分析主要针对视觉领域，如基于类激活图CAM (Class Activation Mapping) [31] 。CAM在特征上绘制热力图，解释模型在执行任务过程中的重点关注区域。图像分类模型常把最后的概率输出层作为分析重点，通过梯度计算或类别概率计算隐藏层中多个图像特征的重要性 [32] ，有助于理解神经网络学习的偏好。而语音分离模型是利用输出音频和标签之间的距离优化性能，本质上是回归问题，且目前缺乏对深度学习语音分离的可解释性分析。因此，借鉴视觉领域的可解释性分析方法，可对模型中的特征图进行可视化分析，研究模型对语音信息的学习能力。

作为解释性分析的主要对象，分类模型通过全连接层与概率激活函数的输出可以反向推理不同类别概率的权重分布，分析多个通道的图像数据影响。语音分离与图形分类任务在模型结果的产生方式上存在差异，无法通过网络层末端的全连接层映射到数据的标签类别，所以难以从概率分布的角度逆推掩蔽特征各区域对分离的贡献。图像分类可解释性分析的另一种方法是通过滑动遮罩掩盖图像中的原始数据，计算不同区域被掩盖后的分类准确性，作为该图像区域对模型性能影响的依据。采用尺度不变信噪比评价标准可以量化模型分离性能的表现，且模型特征图的二维属性可以视为视觉领域的图像信息，描述不同区域的人声分量。利用特征的信息描述质量与语音分离性能的相关性，可以类比图像特征对分类或识别任务的影响。

基于上述分析，设计的遮罩特征尺寸与特征图尺寸一致且包含局部全零的滑动方块，其余值为1。特征图与遮罩特征相乘后，部分区域的数据清零，其他区域保持不变，模拟该区域不包含任何人声数据。遮罩特征中的全零方块为固定尺度32的正方形区域，每次滑动的步长为32。方块滑动的顺序从遮罩左上方开始按照行优先的顺序，并在每一次滑动后计算分离模型的尺度不变信噪比指标。获得特征图各区域清零后的数据可以绘制成二维的数据等高线图，建立模型对声音特征关注区域的可视化分析。

分离模块中的堆叠时序卷积块是构建掩蔽矩阵的关键网络机构。分析每个卷积块对分离性能的贡献可进一步解释所提方法对人声信号的学习，有助于后续语音分离网络结构的设计和优化。基于可解释性方法，依次对分离模块的24个时序卷积进行遮罩处理，同时计算时序卷积块的跳跃输出和残差输出，并拼接所有卷积块的等高线图。为了分析不同训练时期的分离模块，对最优模型和第一次训练周期下的模型进行计算。绘制结果如图6 和图7 所示。

为了更好地表达数据差异，尺度不变信噪比以负值的形式存储。如果掩蔽部分区域内的数值清零后，模型的指标变化不大，说明该区域不是模型参数关注的区域。模型指标越大的区域表明与模型性能的相关性越高，是模型分离模块中参数学习关键区域。堆叠时序卷积块通道数是通过遮罩计算后依次拼接的时序卷积通道，且在时序尺度上描述了混合语音特征的人声区域。可以看出第一次训练周期模型的所有卷积块对语音分离模型性能的影响相对一致，而通过多次迭代后的最优模型分离模块则偏向于靠前的时序卷积，说明接近语音原始特征的时序卷积能逐步学习更关键的人声信息。

通过分析消融实验模型和直接上采样融合模型的分离模块。可以研究模态融合机制和双尺度时序卷积对模型的影响，使用可解释性分析方法绘制两种消融模型的分离模块关注图，如图8~图10 所示。

结合五张分离模型关注图可以得出，训练好的网络更关注早期的堆叠时序卷积块。后续的时序卷积虽然获取了更高维的语音特征，但对模型性能的影响逐渐减小，且冗余的网络参数容易引起模型过拟合，可以用于解释网络结构的设计中，时序卷积块堆叠数量过多造成的性能下降的问题。多模态的融合特征

Figure 6 Figure 6. Separate module concern diagram of optimal model--图6. 最优模型的分离模块关注图-- Figure 7 Figure 7. Separation module concern diagram of the first training epoch model--图7. 第一次训练周期模型的分离模块关注图-- Figure 8 Figure 8. Separation module concern diagram of dual scale convolution model--图8. 双尺度卷积模型的分离模块关注图-- Figure 9 Figure 9. Separation module concern diagram of modal scale fusion model--图9. 模态尺度融合模型的分离模块关注图-- Figure 10 Figure 10. Separation module concern diagram of the first training epoch model--图10. 第一次训练周期模型的分离模块关注图--

促进了早期时序卷积块的学习，加速了模型收敛的同时，也提高了模型的分离性能。从融合机制上看，充分利用模态特征的融合方法有助于分离模块提取语音的关键人声特征。

4. 结论

针对视听语音分离任务，提出了一种基于视觉模态尺度融合的语音分离方法。使用基于编码器和解码器结构的多模态融合机制，弥补视听模态融合中视觉时序尺度的不足。为了进一步提高网络特征提取能力，引入反向指数递减的扩张卷积，构建双尺度的时序卷积块。在两类数据集的对比实验中，该方法比基线单模态和多模态语音分离模型的分离性能提高了2.14 dB和0.82 dB，验证了方法在多模态语音分离任务上的性能提升，具有较好的噪声鲁棒性。通过展示语音分离前后的对比，并使用可解释性分析方法探究模型的工作原理，分析分离模块对人声的关注变化，验证了双尺度时序卷积和模态融合机制对网络性能的影响，为后续语音分离模型的结构设计提供理论依据。

基金项目

国家自然科学基金项目(52075541)，2022年广东省本科高校教学质量与教学改革工程项目(卓越智能制造专项人才培养计划项目)资助项目。

References 1

王宁, 刘剑, 刘苏洋. 基于时延估计改进的主动隔声耳罩语音增强算法[J]. 声学技术, 2023, 42(6): 785-793.

傅晓雯, 李霞. 基于改进NMF与相位补偿的胎心音降噪算法[J]. 计算机应用与软件, 2024, 41(4): 256-261.

王文华, 夏秀渝. 听觉模型鲁棒性特征研究及应用[J]. 成都信息工程大学学报, 2024, 39(3): 275-282.

Kolbaek, M., Yu, D., Tan, Z. and Jensen, J. (2017) Multitalker Speech Separation with Utterance-Level Permutation Invariant Training of Deep Recurrent Neural Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25, 1901-1913. >https://doi.org/10.1109/taslp.2017.2726762

Luo, Y. and Mesgarani, N. (2018) TaSNet: Time-Domain Audio Separation Network for Real-Time, Single-Channel Speech Separation. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, 15-20 April 2018, 696-700. >https://doi.org/10.1109/icassp.2018.8462116

Luo, Y. and Mesgarani, N. (2019) Conv-TasNet: Surpassing Ideal Time—Frequency Magnitude Masking for Speech Separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27, 1256-1266. >https://doi.org/10.1109/taslp.2019.2915167

Subakan, C., Ravanelli, M., Cornell, S., Bronzi, M. and Zhong, J. (2021) Attention Is All You Need in Speech Separation. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, 6-11 June 2021, 21-25. >https://doi.org/10.1109/icassp39728.2021.9413901

Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.

Wang, X., Kong, X., Peng, X. and Lu, Y. (2022) Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation. Interspeech 2022, Incheon, 18-22 September 2022, 886-890. >https://doi.org/10.21437/interspeech.2022-10229

Ephrat, A., Mosseri, I., Lang, O., Dekel, T., Wilson, K., Hassidim, A., et al. (2018) Looking to Listen at the Cocktail Party. ACM Transactions on Graphics, 37, Article No. 112. >https://doi.org/10.1145/3197517.3201357

Zhu, X., Lyu, S., Wang, X., et al. (2021) TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-Captured Scenarios. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, 11-17 October 2021, 2778-2788. >https://doi.org/10.1109/ICCVW54120.2021.00312

Tan, M. and Le, Q.V. (2019) EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. ICML 2019, Long Beach, 9-15 June 2019, 6105-6114.

King, D.E. (2009) Dlib-Ml: A Machine Learning Toolkit. Journal of Machine Learning Research, 10, 1755-1758.

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C., et al. (2016) SSD: Single Shot Multibox Detector. In: Computer Vision-ECCV 2016, Amsterdam, 11-14 October 2016, 21-37. >https://doi.org/10.1007/978-3-319-46448-0_2

Afouras, T., Chung, J.S., Senior, A., et al. (2018) Deep Audio-Visual Speech Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 8717-8727. >https://doi.org/10.1109/TPAMI.2018.2889052

Tan, K., Xu, Y., Zhang, S.X., et al. (2019) Audio-Visual Speech Separation and Dereverberation with a Two-Stage Multimodal Network. arXiv: 1909.07352. >https://doi.org/10.48550/arXiv.1909.07352

Zhang, P., Xu, J., Shi, J., Hao, Y., Qin, L. and Xu, B. (2021) Audio-Visual Speech Separation with Visual Features Enhanced by Adversarial Training. 2021 International Joint Conference on Neural Networks (IJCNN), Shenzhen, 18-22 July 2021, 1-8. >https://doi.org/10.1109/ijcnn52387.2021.9533660

Rigal, R., Chodorowski, J. and Zerr, B. (2021) Deep Audio-Visual Speech Separation Based on Facial Motion. Interspeech 2021, Brno, 30 August-3 September 2021, 3540-3544. >https://doi.org/10.21437/interspeech.2021-1560

Xiong, J., Zhang, P., Xie, L., et al. (2022) Audio-Visual Speech Separation Based on Joint Feature Representation with Cross-Modal Attention. arXiv: 2203.02655. >https://doi.org/10.48550/arXiv.2203.02655

Gao, R. and Grauman, K. (2021) VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 15490-15500. >https://doi.org/10.1109/CVPR46437.2021.01524

Li, Y., Liu, Z., Na, Y., Wang, Z., Tian, B. and Fu, Q. (2020) A Visual-Pilot Deep Fusion for Target Speech Separation in Multitalker Noisy Environment. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, 4-8 May 2020, 4442-4446. >https://doi.org/10.1109/icassp40776.2020.9054263

Burgos-Artizzu, X.P., Perona, P. and Dollar, P. (2013) Robust Face Landmark Estimation under Occlusion. 2013 IEEE International Conference on Computer Vision, Sydney, 1-8 December 2013, 1513-1520. >https://doi.org/10.1109/iccv.2013.191

Zhao, X., Sicilia, A., Minhas, D.S., O’Connor, E.E., Aizenstein, H.J., Klunk, W.E., et al. (2021) Robust White Matter Hyperintensity Segmentation on Unseen Domain. 2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI), Nice, 13-16 April 2021, 1047-1051. >https://doi.org/10.1109/isbi48211.2021.9434034

Choi, H.-S., Kim, J.-H., Huh, J., et al. (2019) Phase-Aware Speech Enhancement with Deep Complex U-Net. arXiv: 1903.03107. >https://doi.org/10.48550/arXiv.1903.03107

Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, Munich, 5-9 October 2015, 234-241. >https://doi.org/10.1007/978-3-319-24574-4_28

Ioffe, S. and Szegedy, C. (2015) Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. Proceedings of the 32nd International Conference on International Conference on Machine Learning, Lille, 6-11 July 2015, 448-456.

Cooke, M., Barker, J., Cunningham, S. and Shao, X. (2006) An Audio-Visual Corpus for Speech Perception and Automatic Speech Recognition. The Journal of the Acoustical Society of America, 120, 2421-2424. >https://doi.org/10.1121/1.2229005

Mesaros, A., Virtanen, T., Fagerlund, E., et al. (2016) TUT Acoustic Scenes 2016. Development Dataset.

Isik, Y.Z., Roux, J.L., Chen, Z., et al. (2016) Single-Channel Multi-Speaker Separation Using Deep Clustering. arXiv: 1607.02173. >https://doi.org/10.48550/arXiv.1607.02173

Li, K., Yang, R. and Hu, X. (2022) An Efficient Encoder-Decoder Architecture with Top-Down Attention for Speech Separation. arXiv: 2209.15200. >https://doi.org/10.48550/arXiv.2209.15200

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. and Torralba, A. (2016) Learning Deep Features for Discriminative Localization. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 2921-2929. >https://doi.org/10.1109/cvpr.2016.319

Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D. and Batra, D. (2017) Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 618-626. >https://doi.org/10.1109/iccv.2017.74