1. 引言
近红外光谱检测是一种常用的化学分析技术,具有快速、非破坏性、高灵敏度等优点,已经被广泛应用于农业、化工、食品,医药等领域。近红外光谱是一种间接的分析技术,需要建立反应光谱响应与分析物属性间潜在关系的校正模型,才能实现对样品属性的分析。在实际的近红外光谱检测应用中,会遇到样本数不足的情况,导致所构建的校正模型处于过拟合的状态,限制了近红外光谱检测技术的应用发展。目前,近红外光谱校正模型的构建,较多的还是采用基于小样本的传统建模方法,比如偏最小二乘回归模型、最小二乘支持向量机等。随着人工智能的快速发展,一些新的模型校正方法也开始应用于近红外光谱检测领域,并展露出一定的优势,比如基于深度学习的卷积神经网络[1] [2] [3] [4]。这些新的校正模型往往复杂度较高,需要更多的样本数进行训练才能发挥其对复杂关系的拟合效果,建模样本数的不足已经成为制约复杂近红外光谱校正模型构建的一个瓶颈。
在深度学习领域,对于建模样本数不足的情况,一个常用的解决方法是采用人工的方式进行样本生成。样本的人工生成在图像领域中已经得到了较多的研究[5] [6] [7]。相较于肉眼可辨的图像数据,近红外光谱反应的是分析物的物理与化学性质,具有吸收强度较弱,光谱的信噪比低,并且倍频、合频谱带重叠现象严重的特点,比其图像数据更加抽象和难以理解[8] [9]。
传统的近红外光谱样本生成方法主要是模拟在样本进行近红外光谱采集时仪器的基线扰动对光谱响应的轻微影响,使相同的分析物属性对应多种光谱响应,以达到样本增强的效果。相较于传统的近红外光谱样本生成方法,生成对抗网络(Generative Adversarial Network, GAN)提供了一种新的样本生成策略。GAN是一种包含生成器(Generator)和判别器(Discriminator)两部分的神经网络。生成器将随机噪声生成与真实样本相似的样本,判别器则用来区分生成样本和真实样本是否一样,二者通过对抗训练,最终达到纳什平衡[10] [11] [12]。基于生成对抗策略的生成模型已经在许多领域得到应用,尤其在数据增强方面效果显著。Zhun Zhong [13]等人在图像风格同化的任务中,利用CycleGAN (Cycle-Consistent GAN)生成图像样本来扩展训练数据集。Yu和Zhang [14]等人借鉴了强化学习(RL)的策略,提出SeqGAN (Sequence GAN)来生成文本序列来改善模型对文本的预测性能。Frid-Adar [15]等人通过使用GAN生成肝部影像样本来提高肝损伤图像分析的准确性和鲁棒性。Teng [16]等人使用GAN扩展了激光诱导击穿光谱(LIBS)的数量,但是没有给出生成光谱的具体应用。Xu [17]等人通过BEGAN (Boundary Equilibrium GAN)来生成近红外光谱样本,与共识算法(CDPLS)相结合提升了PLSR模型的预测精度。
AAE是一种结合了生成对抗策略的自编码器模型[18],相较于经典的GAN网络,AAE可以连续对比输入数据与生成数据间的差异,因此,AAE模型的训练过程较传统的GAN更稳定,生成的样本也具有更好的连续性。本文探讨AAE模型生成模拟小样本近红外光谱数据集对高斯过程回归的增强效果,包括通过一些公认的评价指标来评估增强性能。
2. 理论
2.1. AAE生成方法
AAE是一种结合了自编码器(Auto-Encoder, AE)和GAN的深度学习模型。如图1所示,AAE通过编码器将高维空间中的样本数据映射成低维空间中的潜变量,然后再通过解码器将潜变量重构为原始样本,由于判别器的存在使得潜在变量空间服从先验分布。通过对抗训练,自编码器和判别器相互竞争,编码器试图生成更符合先验分布特征的潜变量,而判别器则试图准确判别生成的潜变量和先验变量间的差异。这种对抗训练的过程可以迫使自编码器学习到更丰富的先验特征表示,生成更多样化和逼真的样本数据。
Figure 1. AAE structure diagram
图1. AAE结构图
其中AAE具体的细节变量如下所述。X:输入样本数据向量;X||:重构样本数据向量;
:编码器的分布函数;
:编码器的分布函数;Z:潜在变量空间,编码出来的潜变量,服从
分布;
:AAE模型学习得到的分布;
:预先定义的任意先验分布,通常为标准高斯分布
。AAE采用的是聚合后验分布:
(1)
其中
为真实数据的分布。
AAE是一种神经网络,它的训练过程涉及到两个网络:自编码器和判别器。相关的训练要点总结如下:
AAE是通过将聚合后验分布
和任意先验分布
进行匹配来完成正则化,让对抗网络不断地使
去匹配
;
在对抗的过程中,自编码器和判别器也在不断地最小化目标损失;
编码器的目标是确保聚合的后验分布
可以欺骗判别器,使其像是来自真实先验分布
。
本文以带1维分析物属性的小麦样本生成为例,进行AAE模型构造方法的讨论,所采用结构如图2所示。编码器是由全连接神经网络形成的网络架构,与解码器相对称,判别器是通过全连接和卷积神经网络所构成,其中所拟合分布设置为二维正态分布。初始样本变量在经过编码器4个潜在层映射后得到潜变量,再通过解码器重新映射成原有数据结构,得到重构损失。判别器则判别自编码器的潜变量是否来自所拟合的分布,得到判别损失。设置重构损失和判别损失的相对权重为9:1。在训练初始模型时,使用Adam优化器,以0.0004的初始学习率(learning rate)进行训练,样本批处理大小设置为16,模型训练的世代数为20,000。对于训练完毕的模型,对AAE模型的解码器输入来自所拟合分布的随机抽样样本,解码得到相应的近红外光谱生成样本。
本文采用上述的网络结构主要用于AAE模型对近红外光谱样本的生成,虽然本文所采用的结构比较简单,但是已经可以满足常规近红外光谱样本生成的需要。和其它的深度神经网络模型一样,AAE模型的结构和参数设置可以根据实际问题的复杂程度适当的调节。
Figure 2. AAE for wheat sample network structure; Encoders and decoders have symmetrical structures
图2. AAE对于小麦样本网络结构;编码器和解码器具有对称结构
2.2. 高斯过程回归
本文采用高斯过程回归(Gaussian Process Regression, GPR)来评价AAE生成的光谱样本对高斯过程回归模拟的增强效果[19]。GPR是一种非参数的回归分析方法,它基于高斯过程来建立预测模型。GPR方法假设样本之间的关系可以由一个连续的高斯过程来近似描述,通过计算这个高斯过程的均值和方差,可以获得对未知数据的预测。
假设
是一个随机变量集,其中
是指示集。如果对于任意n,
是服从混合高斯分布的变量,然后
称为由均值函数
和协方差函数
所决定的高斯过程记为:
(2)
(3)
(4)
通过对原始数据进行归一化,可以假设均值函数
为零。
考虑训练集为
,其中样本数量为n,
和
分别是相应的输入和输出。设
表示输入
矩阵,
表示
输出向量,那么训练集可以表示为
。对于新的输入
,GPR的任务是计算出输入
所对应输出
值的条件分布
。认为GPR为:
(5)
其中
并且
是噪声强度。
的先验分布为:
(6)
其中
是一个
的对称正定协方差矩阵,矩阵中的
表示
和
之间的相关性。当一对样本
被添加时,根据GPR的定义,随机向量
符合
维混合高斯随机分布,记为:
(7)
其中
,
。这些展开得:
(8)
这个分布的均值可以作为
对
的预测值,并且分布的方差可以作为置信度。如图3所示,置信区间的宽度取决于模型的不确定性,即置信区间越窄,说明预测值
分布的方差越小,意味着GPR模型对于该点的预测非常自信,反之,置信区间越宽,说明GPR模型对于预测不太自信,可能需要谨慎对待这些预测结果。因此,本文在构建GPR模型的过程中,将预测值方差大的样本通过AAE生成填充到建模集中,使输出预测值
具有更高的预测置信度,从而提升模型预测精度。
3. 实验设计
3.1. 数据
在本研究中使用了三个公共数据集,旨在探讨AAE应用在不同样品光谱数据的可行性。第一个数据集包含了215个猪肉样本数据,使用Infratec Tecator仪器采集光谱,波长范围在850~1050 nm,其中样本属性包括水分、脂肪和蛋白质含量[20]。第二个数据集包含248个小麦数据,使用制造厂商A仪器
Figure 3. Gaussian process regression
图3. 高斯过程回归
采集光谱,波长范围在730~1100 nm,其中样本属性为蛋白质含量(available from https://www.cnirs.org/content.aspx?page_id=22&club_id=409746&module_id=239453)。第三个数据集包含了462个由配方R862制备的三聚氰胺–甲醛样本数据,使用FT-NIR光谱仪采集光谱,其中样本属性为样本缩合过程中聚合的程度[21]。
3.2. 实验
实验由三个部分组成:首先,将猪肉、小麦、三聚氰胺–甲醛样本数据都按3:7的比率划分训练集和测试集,使训练集处于不充分状态,通过训练集来模拟构建小样本GPR模型。其次,根据不同原始数据训练集样本来确定AAE模型的超参数,训练构建好的模型并实时监测AAE在不同训练阶段生成的光谱样本,以及自编码器的重构误差和判别器的准确率,以确保训练进程。最后,采用决定系数(R2)和均方根误差(RMSEP)来评价通过AAE样本增强对小样本GPR模型的提升效果。评估指标R2和RMSEP,定义如下:
(9)
(10)
其中n是样本个数,
是样本的真实值,
是第i个样本的预测值,
是测试集的平均值。
所有程序都在台式电脑上进行了测试,其特定的软件配置和版本为:Intel Core i7-7700 HQ CPU,8GB RAM,NVIDIA GeForce GTX 1080 Ti,Python 3.9,Tensorflow-GPU 2.6.0。
4. 结果与讨论
4.1. 对比生成样本与真实样本
AAE的主要目的是生成尽可能与真实样本分布相匹配的样本数据,可以通过观察样本的概率密度曲线来检测生成的样本分布是否与真实样本分布相匹配。
在AAE模型保持稳定状态后,将模型保存下来,停止训练。以小麦数据为例,利用保存下来的解码器,通过二维随机高斯噪声(N × 2)生成一系列样本数据,取N = 148来生成与小麦训练集等量的生成样本。如图4所示,粉色柱状图和曲线表示真实数据分布,紫色表示通过AAE生成的数据分布,可以观察到两者的分布基本相似,这说明通过AAE生成的样本数据具有与真实数据相似的分布特征。
Figure 4. Probability density curve of real sample and generated sample
图4. 真实样本与生成样本的概率密度曲线
4.2. 利用AAE生成样本增强GPR模型
对于不同的样本数据都使用AAE生成n (
)个样本,以保证生成样本的多样性,再分别利用训练集样本构建GPR模型,通过输入测试集样本得到m (m等于样本测试集)个分布方差,分布方差表示模型对预测结果的不确定性,方差越大意味着模型对目标值预测越不准,也说明原始训练集中缺少目标值所对应的样本变量,可以通过数据增强的方式来弥补。通过将m个分布方差对应的预测均值作为筛选生成样本属性标签的基准,利用生成的n个样本的属性标签来选择距离基准最近的m个样本,并将这m个样本作为增强样本。然后,将增强样本补充到原始样本训练集中构成增强训练集,使用增强的训练集构建GPR模型,其在测试集上的预测性能反应了数据增强的效果,实验结果如表1。
Table 1. Experimental results of wheat and R862 data augmentation in regression models. Δ represents the increment of training set samples, m represents augmented samples
表1. 小麦和R862数据在回归模型中增强的实验结果。Δ表示训练集样本的增量,m表示增广样本
Dataset |
Δ |
GPR |
R2 |
RMSEP |
Wheat |
0 |
0.8495 |
0.8262 |
|
0.8573 |
0.8046 |
|
0.8708 |
0.7655 |
R862 |
0 |
0.8094 |
7.1547 |
|
0.8664 |
5.9894 |
|
0.8943 |
5.3277 |
由于猪肉数据集含有三种类别的属性标签,可以针对每一种标签来分别进行AAE样本生成,从而实现不同分析物属性的样本增强,其回归模型增强效果如表2。
Table 2. Experimental results of meat data augmentation in regression models. Δ represents the increment of training set samples, m represents augmented samples
表2. 猪肉数据在回归模型中增强的实验结果。Δ表示训练集样本的增量,m表示增广样本
Analyte |
Δ |
GPR |
R2 |
RMSEP |
moisture |
0 |
0.8199 |
4.229 |
|
0.8813 |
3.4333 |
|
0.9044 |
3.3681 |
fat |
0 |
0.8638 |
4.7094 |
|
0.8798 |
4.4251 |
|
0.8991 |
4.0549 |
protein |
0 |
0.7787 |
1.4337 |
|
0.8133 |
1.3169 |
|
0.8240 |
1.2783 |
通过AAE样本生成在三个数据集上都表现出增强效果,并且在每个增强数据集上的GPR预测性能都有所提升。因此,AAE具有非常强大的学习能力,能够完美的处理光谱响应与分析物属性间的潜在对应关系,从而对小样本近红外数据集进行人工高质量扩充。
5. 结论
本文研究基于AAE方法的近红外光谱样本增强,通过对三个典型的近红外光谱数据进行增强来验证增强样本在GPR上的性能表现。实验结果显示,AAE能够有效地学习到近红外光谱样本数据的分布信息,从而使生成的样本数据服从原有数据分布,这得益于生成对抗网络的强大学习能力。此外,AAE生成的光谱具有更大的内部多样性和与真实光谱的相似度,并且对原始训练集具有更好的互补效果。因此,AAE可以根据学习到的数据分布知识,合理地创建这些区域的光谱样本。更具体地说,AAE可以生成高质量的浓度值在训练集之外的光谱样本,特别是那些理论上存在但在实践中难以收集的光谱样本。
综上所述,AAE生成具有浓度值的光谱样品的能力。因此,AAE可以作为一种新的光谱样本生成方法来增强光谱数据集,从而提升光谱GPR性能。
致 谢
作者感谢研究生培养经费的资助。
NOTES
*通讯作者。