aam Advances in Applied Mathematics 2324-7991 2324-8009 beplay体育官网网页版等您来挑战! 10.12677/aam.2024.138352 aam-93278 Articles 数学与物理 JBLD均值的影响函数及鲁棒性分析
Influence Function and Robustness Analysis of JBLD Mean Value
大连交通大学理学院,辽宁 大连 30 07 2024 13 08 3694 3701 7 7 :2024 2 7 :2024 2 8 :2024 Copyright © 2024 beplay安卓登录 All rights reserved. 2024 This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ 影响函数描述了正定矩阵流形上的数据被异常值污染时,异常值对平均值估计精度的影响。本文给出了Jensen-Bregman LogDet (JBLD)均值矩阵的影响函数及鲁棒性分析。首先概述正定矩阵流形的几何结构,包括欧氏度量和JBLD度量及它们的测地距离和均值矩阵,进而计算JBLD均值的影响函数,并分析均值的稳定性。
The influence function describes the influence of outliers on the estimation accuracy of the mean value when the data on the positive definite matrix manifold is contaminated by outliers. In this paper, the influence function of Jensen-Bregman LogDet (JBLD) mean matrix is given and its robustness is analyzed. Firstly, the geometric structure of positive definite matrix manifold is summarized, including Euclidean metric and JBLD metric, their geodesic distance and mean matrix, and then the influence function of JBLD mean is calculated, and the stability of mean is analyzed.
JBLD,欧氏度量,影响函数,正定矩阵流形
JBLD
Euclidean Metric Influence Function Positive Definite Matrix Manifold
1. 引言

正定矩阵流形作为一般线性群的一个经典子流,在最优控制、信号处理、经济学、金融学、计算机科学等多个领域中都展现出了其独特的应用价值 [1] - [5] 。通过利用其独特的性质和数学结构,可以为解决实际问题提供有效的数学方法和工具。在正定矩阵流形上,可以定义多种距离和散度来量化正定矩阵之间的差异。常用的距离和散度包括欧氏距离、仿射不变黎曼距离、对数欧氏距离、Kullback-Leibler divergence散度和Symmetry Kullback-Leibler divergence散度等。由于正定矩阵流形是一个非线性的黎曼流形,需要使用流形上的几何结构来定义均值,不同的距离或散度可以诱导出不同的均值矩阵定义。影响函数(Influence Function)在分析统计估计量的稳健性时非常有用,它衡量了单个数据点对估计量的影响。在正定矩阵流形上,当数据(即正定矩阵)被异常值污染时,影响函数可以量化这些异常值如何影响平均值的估计精度。许多专家学者致力于研究不同度量下矩阵均值的影响函数。文献 [6] 计算了正定矩阵流形上算术均值的影响函数。文献 [7] 分别计算了仿射不变黎曼距离、Total Square Loss散度、Total Log-determiant散度和Total Von Neumann所对应的影响函数。本文研究当正定矩阵流形上的数据点被异常值污染时,JBLD均值矩阵的影响函数和稳定性。首先介绍正定矩阵流形上常用的度量、距离和均值矩阵;进而给出JBLD均值矩阵的影响函数,并给出固定点迭代算法;最后利用数值模拟验证JBLD均值矩阵比算术均值矩阵更具有鲁棒性。

2. 欧氏度量和JBLD度量的几何结构

设A为n阶正定矩阵,即满足 A T = A x T A x 0 当且仅当 x = 0 等号成立。由n阶正定矩阵全体构成的微分流形被称为正定矩阵流形,记为 S P D ( n ) 。可以在 S P D ( n ) 上定义不同的度量,进而得到不同的几何结构 [8] [9]

对于 S P D ( n ) 矩阵 X 1 , , X m ,与几何测度相关的几何均值估计量是几何均值平方和的最小值的唯一解。

X ¯ = arc min 1 m i = 1 m d 2 ( X , X i )

首先,可以在 S P D ( n ) 上定义欧氏内积

g ( X , Y ) = t r ( X T Y )

式中 X , Y 为流形上任一点的切向量, t r ( ) 表示矩阵的迹。在欧氏内积下,过 A , B S P D ( n ) 两点的测地线。

S P D ( n ) 可以表示为

γ ( t ) = ( 1 t ) A + t B

上式中t为参数。由此可知,测地线 γ ( t ) 并不完全落到 S P D ( n ) 上。测地距离是流形上连接两个矩阵的最短曲线的长度。由欧氏内积的式子可以得到 A , B 之间的测地距离

d ( A , B ) = A B F

其中 为Frobenius范数, X = t r ( X T X )

对于欧氏度量, X 1 , , X m 的均值矩阵即为算术均值 X ¯ : = 1 m i = 1 m X i

其次,两个矩阵 X , Y S P D ( n ) 的JBLD定义为 [5]

d j 2 ( X , Y ) = ln det ( X + Y 2 ) 1 2 ln det ( X Y )

对于JBLD, X 1 , , X m 的均值矩阵为 [7]

X ¯ t + 1 = ( 1 K i = 1 K ( X ¯ t + X i 2 ) 1 ) 1 t = 0 , 1 ,

3. JBLD均值矩阵的影响函数

影响函数在许多领域有重要作用,例如物理、化学、生物学等。此外影响函数还可以用于预测和建模,通过理解和分析影响函数,可以预测当自变量发生变化时,因变量可能会如何变化。这对于制定决策、规划未来和解决问题都非常有用。本章主要研究JBLD均值矩阵对应的影响函数。

对于m个 S P D ( n ) 上的矩阵 X 1 , , X m X ¯ 表示 X 1 , , X m 的均值矩阵。 X ^ 表示这m个正定矩阵受到n个异常值的污染之后的均值矩阵。这n个异常值记为 P 1 , , P n ,其中异常值的权重为 ε 。那么, X ^ 可以被定义为一个扰动

X ^ = X ¯ + ε H ( X ¯ , P 1 , , P n ) + O ( ε 2 )

定理1:JBLD均值矩阵对应的影响函数满足下面矩阵方程

1 n j [ ( X ¯ + P j 2 ) 1 X ¯ 1 ] + 1 m i [ ( X ¯ + X i 2 ) 1 H 2 ( X ¯ + X i 2 ) 1 + X ¯ 1 H X ¯ 1 ] = 0

证明:为了计算相关的影响函数,定义 X ^ m + n S P D ( n ) 矩阵的最小化目标函数,即

X ^ = arc min [ ( 1 ε ) 1 m i = 1 m d 2 ( X , X i ) + ε 1 n j = 1 n d 2 ( X , P j ) ]

计算 X ¯ 的目标函数 F ( X )

F ( X ) = 1 m i = 1 m d 2 ( X , X i )

计算 X ^ 的目标函数 G ( X ) (异常值权重为 ε )为

G ( X ) = ( 1 ε ) 1 m i d 2 ( X , X i ) + ε 1 n j d 2 ( X , P j )

从上式可以看出,为了计算 G ( X ) 的梯度 G ( X ) ,只需计算 F ( X ) 的梯度 F ( X ) 。设 Z ( t ) : = X + t Y ,有

F ( X ) , Y : = d d t | t = 0 F ( X + t Y ) = d d t | t = 0 F ( Z ( t ) ) = d d t | t = 0 1 m i = 1 m d j 2 ( Z ( t ) , X i ) = d d t | t = 0 1 m i = 1 m ( ln | Z ( t ) + X i 2 | 1 2 ln ( | Z ( t ) | | X i | ) ) = 1 m i = 1 m ( d d t | t = 0 ln | Z ( t ) + X i 2 | 1 2 d d t | t = 0 ln ( | Z ( t ) | | X i | ) )

首先计算第一项,有

d d t ln | Z ( t ) + X i 2 | = 1 | Z ( t ) + X i 2 | d d t | Z ( t ) + X i 2 | = 1 | Z ( t ) + X i 2 | | Z ( t ) + X i 2 | t r ( ( Z ( t ) + X i 2 ) 1 d d t | Z ( t ) + X i 2 | ) = t r ( ( Z ( t ) + X i 2 ) 1 1 2 d Z ( t ) d t )

令t = 0时,有

d d t | t = 0 ln | Z ( t ) + X i 2 | = 1 2 t r ( ( X + X i 2 ) 1 Y )

其次计算第二项,有

d d t ln ( | Z ( t ) | | X i | ) = 1 | Z ( t ) | | X i | d d t ( | Z ( t ) | | X i | ) = 1 | Z ( t ) | d | Z ( t ) | d t = 1 | Z ( t ) | | Z ( t ) | t r ( Z ( t ) 1 d Z ( t ) d t ) = t r ( Z ( t ) 1 d Z ( t ) d t )

令t = 0时,有

d d t | t = 0 ln ( | Z ( t ) | | X i | ) = t r ( X 1 Y )

F ( X ) , Y : = 1 m i = 1 m [ 1 2 ( X + X i 2 ) 1 1 2 X 1 ] , Y

所以,

F ( X ) = 1 m i = 1 m [ 1 2 ( X + X i 2 ) 1 1 2 X 1 ]

同理,可以得到

G ( X ) = ( 1 ε ) 1 m i [ 1 2 ( X + X i 2 ) 1 1 2 X 1 ] + ε 1 n j [ 1 2 ( X + P j 2 ) 1 1 2 X 1 ]

因为 X ^ G ( X ) 的最小值点,所以 G ( X ^ ) = 0 ,即

( 1 ε ) 1 m i [ 1 2 ( X ^ + X i 2 ) 1 1 2 X ^ 1 ] + ε 1 n j [ 1 2 ( X ^ + P j 2 ) 1 1 2 X ^ 1 ] = 0

因为

X ^ = X ¯ + ε H ( X ¯ , P 1 , , P n ) + O ( ε 2 )

所以为了求H,上式对 ε 求导,再令 ε = 0 ,有

1 m i [ ( X ^ + X i 2 ) 1 X ^ 1 ] + ( 1 ε ) 1 m i d d ε [ ( X ^ + X i 2 ) 1 X ^ 1 ] + 1 n j [ ( X ^ + P j 2 ) 1 X 1 ] + ε 1 n j d d ε [ ( X ^ + P j 2 ) 1 X ^ 1 ] = 0

ε = 0 (当 ε = 0 时, X ^ = X ¯ ),

1 m i [ ( X ¯ + X i 2 ) 1 X ¯ 1 ] + 1 m i d d ε [ ( X ^ + X i 2 ) 1 X ^ 1 ] + 1 n j [ ( X ¯ + P j 2 ) 1 X ¯ 1 ] = 0

因为

F ( X ¯ ) = 1 m i = 1 m [ ( X ¯ + X i 2 ) 1 X ¯ 1 ] = 0 。 (1)

所以(1)变为

1 n j [ ( X ¯ + P j 2 ) 1 X ¯ 1 ] + 1 m i d d ε [ ( X ^ + X i 2 ) 1 X ^ 1 ] = 0

根据文献 [10] 中的求导法则,可得

0 = d d ε I = d d ε [ ( X ^ + X i 2 ) 1 ( X ^ + X i 2 ) ] = d d ε ( X ^ + X i 2 ) 1 ( X ^ + X i 2 ) + ( X ^ + X i 2 ) 1 d d ε ( X ^ + X i 2 )

所以

d d ε ( X ^ + X i 2 ) 1 = ( X ^ + X i 2 ) 1 d d ε ( X ^ + X i 2 ) ( X ^ + X i 2 ) 1

d d ε X ^ 1 = X ^ 1 d d ε X ^ X ^ 1

得到

1 n j [ ( X ¯ + P j 2 ) 1 X ¯ 1 ] + 1 m i [ ( X ^ + X i 2 ) 1 d d ε ( X ^ + X i 2 ) ( X ^ + X i 2 ) 1 + X ^ 1 d d ε X ^ X ^ 1 ] = 0

即,

1 n j [ ( X ¯ + P j 2 ) 1 X ¯ 1 ] + 1 m i [ ( X ¯ + X i 2 ) 1 H 2 ( X ¯ + X i 2 ) 1 + X ¯ 1 H X ¯ 1 ] = 0

证明完毕。

注意到定理1中JBLD均值矩阵的影响函数是隐式表达式,所以给出下面的固定点迭代算法。

算法1:计算JBLD均值矩阵的影响函数的迭代算法为

H t + 1 = 2 m i X ¯ ( X ¯ + X i ) 1 H t ( X ¯ + X i ) 1 X ¯ + X ¯ 2 n j X ¯ ( X ¯ + P j ) 1 X ¯

其中 t = 0 , 1 , ,取 H 0 = E

4. 数值结果和讨论

下面通过数值实验比较欧氏度量和JBLD对应的影响函数和稳定性。在这些模拟中, S P D ( n ) 上的正定矩阵产生的公式为:

exp ( V + V T 2 )

其中 V n × n 是指由MATLAB生成的随机矩阵。显然, V + V T 2 是对称矩阵。

为了影响函数的计算不是一般性,考虑100个随机生成的对称正定矩阵使用算法1进行数值模拟,如 图1 所示。可以看出,几何度量JBLD对应的影响函数的范数对异常值的变化不敏感,它一直保持在接近0.2的范围内。另一方面,欧氏度量影响函数的范数波动显著。因此,正定矩阵流形上的JBLD均值比算术均值更稳定。

图2 图1 中欧氏度量和JBLD度量的100次数值模拟的平均值,提供了一个更直观的表示。从 图2 可以看出,与使用JBLD度量获得的影响函数值相比,欧氏度量的影响函数具有更大的范数值。这进一步支持了JBLD均值比算术均值更具鲁棒性。

Figure 1. Norm of influence function--图1. 影响函数的范数-- Figure 2. Mean of the influence function--图2. 影响函数的均值--
5. 结论

本文首先概述正定矩阵流形的几何结构,包括欧氏度量和JBLD度量及它们的测地距离和均值矩阵,进而计算JBLD均值的影响函数,并给出固定点迭代算法,JBLD度量比欧氏度量在正定矩阵流形上增加了计算的难度,但最后利用数值模拟验证JBLD均值矩阵比算术均值矩阵更具有鲁棒性。

基金项目

国家自然科学基金项目(No. 61401058);辽宁省教育厅科学研究经费项目(JYTMS20230010)。

References Ono, Y. and Peng, L. (2022) Towards a Median Signal Detector through the Total Bregman Divergence and Its Robustness Analysis. Signal Processing, 201, Article 108728. >https://doi.org/10.1016/j.sigpro.2022.108728 孙华飞, 张真宁, 彭林玉, 等. 信息几何导引[M]. 北京: 科学出版社, 2016. Hua, X., Ono, Y., Peng, L., Cheng, Y. and Wang, H. (2021) Target Detection within Nonhomogeneous Clutter via Total Bregman Divergence-Based Matrix Information Geometry Detectors. IEEE Transactions on Signal Processing, 69, 4326-4340. >https://doi.org/10.1109/tsp.2021.3095725 孙华飞, 宋扬, 罗翼昊, 等. 一种基于统计流形的聚类算法[J]. 北京理工大学学报, 2021, 41(2): 226-230. Hua, X. and Peng, L. (2021) MIG Median Detectors with Manifold Filter. Signal Processing, 188, Article 108176. >https://doi.org/10.1016/j.sigpro.2021.108176 Hua, X., Ono, Y., Peng, L., Cheng, Y. and Wang, H. (2021) Target Detection within Nonhomogeneous Clutter via Total Bregman Divergence-Based Matrix Information Geometry Detectors. IEEE Transactions on Signal Processing, 69, 4326-4340. >https://doi.org/10.1109/tsp.2021.3095725 Hua, X., Cheng, Y., Wang, H. and Qin, Y. (2018) Robust Covariance Estimators Based on Information Divergences and Riemannian Manifold. Entropy, Article 219. >https://doi.org/10.3390/e20040219 Duan, X., Sun, H. and Peng, L. (2020) Application of Gradient Descent Algorithms Based on Geodesic Distances. Science China Information Sciences, 63, Article No. 152201. >https://doi.org/10.1007/s11432-019-9911-5 Moakher, M. (2005) A Differential Geometric Approach to the Geometric Mean of Symmetric Positive-Definite Matrices. SIAM Journal on Matrix Analysis and Applications, 26, 735-747. >https://doi.org/10.1137/s0895479803436937 张贤达. 矩阵分析与应用[M]. 北京: 清华大学出版社, 2014.
Baidu
map