1. 引言
多元统计理论起源于产品质量控制体系。统计过程控制SPC (Statistical Process Control)最早是美国休哈特[1] (W.A. Shewhart)提出并用于质量管理实践的。1931年,W. A. Shewhart出版了(Economic control of quality of manufactured product)一书,系统论述了统计过程控制理论,奠定了SPC理论的发展基础。在SPC发展初期,主要采用单变量控制图法,如单变量的Shewhart控制图、累积和图(CUSUM)、指数加权平均图(EWMA)等,对生产过程中的一些重要的指标单独地使用统计过程控制。由于受到传感测量技术等条件限制,一些或者某个关键指标无法测量,对整个系统来说不能进行有效的监测,仅将单个或者某些指标衡量整个系统,缺陷很大,不能很好地代表产品的质量信息。
随着信息技术、测量技术、数据库技术和工控技术的发展,单变量统计过程监控技术已经不能适应未来工业智能化的发展需求。因此,基于多变量统计控制(Multivariate Statistical Process Control MSPC)的故障诊断方法得到了实质性的发展和应用[2]-[4],并得到了快速的发展和迭代[5]-[8]。现行以主元分析 (Principal component analysis, PCA)和偏最小二乘法(Partial least squares, PLS)应用较为广泛。
主元分析(PCA)是一种应用广泛的多元统计分析方法[9] [10],应用PCA的方法,将显式变量作一定的线性转化产生数量较少的隐式变量,降低原始数据空间的维数,再从新的隐式变量中提取主要变化信息及特征,这样既保留了原有数据信息的特征,又消除变量间的关联,简化分析复杂度;与PCA相比,PLS使用的向量更少,得到的错分类率更低[11],PLS在构建更低维模型时对故障信息的利用更具有优势。
然而,设备过程运行数据种类繁多,有些数据与故障诊断相关性极低,甚至有些数据还会产生负效应;鉴于此,如何高效使用设备监测数据进行诊断分析,提升故障诊断水平是现行普遍面临的难题。
2. 主元分析法
主元分析法(PCA)是基于多元统计的分析方法,它不依赖于精确数学模型,通过对高维相关变量空间进行降维映射处理,将其转化为相互独立的低维变量空间,实现对复杂过程数据的特征抽取,并建立相应过程的主元模型。主元模型舍弃了部分残差而保留体现数据变异的主要方向,从而达到抽取系统信息、清除系统干扰的目的。基于PCA的状态监测和故障诊断方法是利用过程变量间的相关关系,在低维空间建立正常工况下的主元模型,通过检验新的数据样本相对于主元模型的背离程度,从而发现异常和故障。
首先采集正常工况下的样本数据X,训练集中包含k个监测变量,每个变量获取n个不同状态下的监测值,将上述数据用矩阵的形式表示,即可得到一个
维的数据矩阵,即
将矩阵X分解成k个向量的外积之和,得到
(1.1)
其中
被定义为得分向量,
被定义为负荷向量,将X的得分向量称为主元。式(1.1)也可写为下列矩阵形式
(1.2)
其中
称为得分矩阵,
称为负荷矩阵。各个得分向量之间是正交的,即对任何i和j,当
时,满足
。各个负荷向量之间也是互相正交的,同时每个负荷向量的长度都为l,即
(1.3)
(1.4)
将式(1.1)的两侧同时右乘
,可以得到下式
(1.5)
将式(1.3)和(1.4)代入式(1.5),可以得到
(1.6)
式(1.6)说明每一个得分向量实际上是矩阵X在与这个得分向量相对应的负荷向量方向上的投影。向量
的长度反映了数据矩阵X投影到
方向上的覆盖程度。它的长度越大,X在
方向上的覆盖程度或变化范围越大。
主元特征向量和特征值的求解过程如下:
首先,求正常建模数据的协方差矩阵S
(1.7)
其中,X为标准化、中心化后的建模数据。与(1.3),(1.4)相对应可得
(1.8)
或
(1.9)
由此得出,
为第i个主元的建模数据方差。
接着,求取协方差矩阵S的特征和特征向量
(1.10)
其中,
是协方差矩阵S的对角阵,包含幅值递减的非负实特征值(
)。V是正交阵(
,这里I是单位阵),是特征值
所对应的单位化特征向量。
最后,求得分矩阵T
为了更好地获取反映数据变化的监测变量,并降低随机噪声对PCA的影响,选取特征值个数,即将d个最大特征值包含85%信息对应特征向量保留。选择负荷矩阵
的列,则X到低维空间的投影就包含在得分矩阵T中:
(1.11)
3. 偏最小二乘法
偏最小二乘法(PLS: Partial Least Squares)被称为第二代的多变量技术,是一种新型的多元统计分析技术,是近年来模型参数估计的常用方法(Herman Wold, 1992)。PLS理论由两个部分组成:PLS回归与PLS路径建模。1966年,Herman Wold首次提出PLS,稍后被称之为非线性迭代偏最小二乘法(Nonlinear Iterative Partial Least Squares: NIPALS)。1983年,Herman的儿子Svante Wold和Harald Martens为强调回归问题对NIPALS做了调整,这样PLS回归被最终确定下来。当时PLS回归的应用主要在化工领域。PLS路径建模方法是PLS回归的扩展与延伸,它于八十年代早期由Herman Wold和Joreskog等人开发出来,相对PLS回归的应用范围而言,PLS路径建模技术在计量经济学和心理学以及管理行为等领域发挥着更为重要的作用。偏最小二乘得到广泛应用的原因之一,就是它能够有效地消除变量之间的共线性的影响,用于数据的软建模时具有主成分分析、典型相关分析和线性回归方法的特点,与PCA相比,能提供更丰富深入的信息[12]。PLS的建模原理如下:
设有q个因变量
和p自变量
。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表
和
。偏最小二乘分别在X与Y中提取出成分t1和u1 (也就是说,t1是
的线形组合,u1是
的线形组合在提取这两个成分时,为了PLS建模的需要,有下
列两个要求:
(1) t1和u1应尽可能大地携带他们各自数据表中的变异信息;
(2) t1与u1的相关程度能够达到最大。
这两个要求表明,t1和u1应尽可能好的代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。
在第一个成分t1和u1被提取后,偏最小二乘分别实施X对t1的回归以及Y对u1的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了m个成分
小二乘回归将通过实施
对
的回归,然后再表达成
关于原变量
,的回归方程,
。
PLS与PCA很相似,其差别在于描述变量Y中因子的同时也用于描述变量X,为了实现这一点,在数学上是以矩阵Y的列去参与矩阵X因子的计算,从X和Y矩阵中提取相应的潜变量t,u和权变量w,c。结果X和Y矩阵可分解成如下形式:
(2.1)
(2.2)
其中T和U是提取k个得分向量后而组成的(
)矩阵,P(
)和Q(
)是相应的负载矩阵,E和F是相应的残差矩阵。
4. 分块的偏最小二乘法
MBPLS将所有测量变量分为几个重要块后对过程量进行建模。MBPLS最早由Wangen和Kowalsky于1988年提出,并提出了几个变体(Westerhuis, Coegegracht, 1997; Westerhuis and Smilde, 2001)。Wangen和Kowalsky,1988年和Westerhuis和Coegegracht,1997年提出的两种MBPLS方法的主要区别在于,前者根据块分数缩小预测变量和反应变量的残差,而后者根据超分数缩小残差。特别是,与常规PLS方法相比,使用超分数缩减方法的MBPLS方法具有等效的建模能力。
4.1. 建模
MBPLS建模算法如下:
(1) Randomly initialize
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11) 重复步骤2~10,直至收敛
(12) Deflate
,
matrix:
在建模阶段,从历史数据中获得块加载、权重和超权重,并将其存储起来,用于预测给定新样本的响应变量。
4.2. 过程预测
对于实时在线数据或者新的历史数据样本,MBPLS预测模型如下:
(1)
(2)
(3)
(4)
重复步骤1~3,直至收敛
(5)
在预测阶段,根据存储的权重和负载估计新的预测器样本的响应。MBPLS超得分向量
和
等同于普通PLS得分向量
和
。利用这些属性,MBPLS方法的载荷和权重可以直接从常规PLS算法的载荷和权重中计算出来(Qin et al., 2001)。虽然与标准PLS方法相比,MBPLS算法没有更好的预测能力,但在具有许多测量变量的复杂过程中,它提高了模型的可解释性。
5. 应用案例
通过使用液压潜液泵工况数据应用PCA、PLS和MBPLS分别做相应的故障检测,具体如下:
(1) PCA故障检测
将液压潜液泵所有监测数据包括液压系统压力、系统油温、回油压力、潜液泵控制压力、潜液泵液位、潜液泵流量、货舱温度、主泵电机电流、主泵电机绕组温度、主泵轴承温度等数据做PCA建模和故障检测(潜液泵效率降低)。对潜没泵效率降低故障数据进行仿真,结果如下:
Figure 1. Submersible pump efficiency reduction PCA fault detection
图1. 潜液泵效率降低PCA故障检测
通过图1可以看出,将工程数据直接应用PCA做相应的故障检测效果不理想,根本原因在于将所有检测数据进行PCA时,数据之间的逻辑线性关系很差,PCA很难实现相应的故障检测。
(2) PLS故障检测
将液压潜没泵数据分为自变量数据X和因变量数据Y,我们将潜没泵性能数据(潜液泵流量、出口压力)定义为因变量数据,将潜液泵控制压力、液压系统压力、系统油温、回油压力、潜液泵液位、潜液泵流量、货舱温度、主泵电机电流、主泵电机绕组温度、主泵电机轴承温度定义为自变量。对其进行PLS建模和故障检测,对潜没泵效率降低故障数据进行仿真,结果如下:
Figure 2. Submersible pump efficiency reduction PLS fault detection
图2. 潜液泵效率降低PLS故障检测
通过图2可以看出,将工程数据应用PLS做相应的故障检测,可以发现潜液泵效率降低故障,但是由于潜液泵监测数据之间线性关系或者逻辑关系较差,导致检测到的故障有稍微的滞后(第800个数据),同时,由于PLS的故障检测数据之间存在较多无效数据,后续曲线变化不利于故障检测分析。
(3) MBPLS故障检测
根据设备的工作工况将液压潜液泵系统的数据进行分块,具体如下:
1) 将影响并与潜液泵效率降低有关的数据进行归类,即将潜液泵控制压力、潜液泵货舱液位、潜液泵货舱温度定义为自变量X1,潜液泵出口流量、潜液泵出口压力定义为因变量Y1;
2) 将影响电机工作状态的相关数据进行归类,即将电机电流、运行时间和环境温度定义为自变量X2,将电机绕组温度、电机轴承温度定义为因变量Y2;
3) 将影响液压系统工作状态的数据进行归类,即将各潜液泵出口流量、各潜液泵出口压力、各潜液泵控制压力、运行时间定义为自变量X3,将液压系统清洁度、各电机电流、系统压力、系统油温定义为因变量Y3。
按照上述原则对潜没泵效率降低故障数据进行仿真,结果如下:
Figure 3. Submersible pump efficiency reduction MBPLS fault detection
图3. 潜液泵效率降低MBPLS故障检测
通过图3分析发现,在第800个样本处准确检测到故障,与图1和图2相比故障曲线趋势清晰,利于设备操作人员对发生的故障进行分析。
6. 总结
主成分提取的思想是降维,即将过多的无效变量剔除,保留反映数据信息的主元变量且主元变量之间不相关。但是,在整个主元提取的过程中,由于主元提取的过程,因变量Y与自变量X未发生联系,导致提取的主元在反映关联变量的信息上相对较差,PCA在处理高度相关或者与故障无关的数据时,故障检测效果不理想。
偏最小二乘分析提取成分的思想是从自变量系统中提取少数几个变量,使它们不仅能较好地反映建模数据的信息,而且对因变量也具有很好的解释能力,同时提取的变量之间彼此不相关。在PLS分析中,所提取的成分t1、t2是通过自变量X与因变量y的相关系数、自变量残差与因变量残差的协方差计算得出的,概括了系统中自变量和因变量的信息。与主成分提取相比,偏最小二乘主元提取模型更为可靠,解释能力更强,在故障检测方面比PCA具有更好的效果。
分块的偏最小二乘法根据设备的工况特点对数据进行分类,通过研究设备在不同工况下数据之间的关联关系对数据进行初步筛选,针对设备的系统级、部件级故障数据分别进行分类,从逻辑的原理上过滤掉某些故障的低相关或者无效数据,使其不仅具有PLS的优势,还有兼具数据分块、分类的特点。与上述两种方法相比,分块的偏最小二乘方法,在故障检测方面具有更好的效果。