梯度神经网络方法求解含有绝对值形式张量特征值

期刊菜单

梯度神经网络方法求解含有绝对值形式张量特征值
Gradient Neural Network Method for Solving Tensor Eigenvalues with Absolute Value Form

DOI:10.12677/aam.2024.139423,PDF,HTML,XML,下载: 13浏览: 94
作者:蔡泽福：云南师范大学数学学院，云南昆明
关键词:张量；特征值；梯度神经网络；Tensor；Eigenvalue；Gradient Neural Network

摘要:目前，关于特征值的研究主要集中在特征值互补、特征值估计和运用算法计算特征值等方向。受张量绝对值方程

A x^{m - 1} - | x | = b

启示，本文考虑一类新形式的特征值问题，并提出梯度神经网络方法求解新形式张量特征值和特征向量。数值实验表明了梯度神经网络方法求解该问题的可行性和有效性。

Abstract:At present, research on eigenvalues mainly focuses on complementary eigenvalues, eigenvalue estimation, and the application of algorithms to calculate eigenvalues. Inspired by the tensor absolute value equation

A x^{m - 1} - | x | = b

, this paper considers a new form of eigenvalue problem and proposes a gradient neural network method to solve the eigenvalues and eigenvectors of the new form tensor. Numerical experiments have shown the feasibility and effectiveness of using gradient neural network methods to solve this problem.

文章引用：蔡泽福. 梯度神经网络方法求解含有绝对值形式张量特征值[J]. 应用数学进展, 2024, 13(9): 4442-4448. https://doi.org/10.12677/aam.2024.139423

1. 介绍

2005年，Qi在[1]中提出了张量特征值的概念，即，令 $A = (a_{i_{1} i_{2} \dots i_{m}})$ 是一个m阶n维张量，若存在一个数 $λ \in C$ 和非零向量 $x \in C^{n}$ 满足

$A x^{m - 1} = λ x^{[m - 1]}$ ，

则 $λ$ 叫做张量 $A$ 的特征值，x叫做 $λ$ 所对应的特征向量，其中 $A x^{m - 1}$ 和 $x^{[m - 1]}$ 都表示一个n维向量，且

${(A x^{m - 1})}_{i} = \sum_{i_{2} \dots i_{m}}^{n} a_{i i_{2} \dots i_{m}} x_{i_{2}} \dots x_{i_{m}}, \forall i = {i = 1, 2, \dots, n},$

${(x^{[m - 1]})}_{i} = x_{i}^{m - 1} .$

若 $λ$ 和x都属于实数域，则 $(λ, x)$ 叫做张量 $A$ 的H-特征对。此外，Qi也在[1]中定义了Z-特征值，即，若存在数 $λ \in R$ 和向量 $x \in R^{n}$ 满足

${\begin{cases} A x^{m - 1} = λ x, \\ x^{T} x = 1, \end{cases}$ (1.1)

则称特征对 $(λ, x)$ 是Z-特征对。值得注意的是， $λ$ 和x属于复数域时，称特征对 $(λ, x)$ 为E-特征对。

张量Z-特征值在许多实际问题中都被运用，如自动控制[2]，人脑科学[3]，统计数据分析中的最佳秩一逼近[4]等领域。为此，很多学者对张量Z-特征值的求解展开了研究。

目前，已经有许多计算对称或非负张量Z-特征对的算法，但是结合[5]中的张量绝对值方程

$A x^{m - 1} - | x | = b,$ (1.2)

以及张量Z-特征值的一般形式(1.1), 考虑形式为

${\begin{cases} A x^{m - 1} = λ | x |, \\ x^{T} x = 1, \end{cases}$ (1.3)

的特征值问题。其中 $A$ 是非奇异张量， $| x | = {(| x_{1} |, | x_{2} |, \dots, | x_{n} |)}^{T}$ ，受[6]启示，(1.3)可改写成

${\begin{cases} A x^{m - 1} = λ D x, \\ x^{T} x = 1, \end{cases}$

其中 $D = (d_{i j}) \in R^{n \times n}$ ，是一个对角矩阵，其主对角线元素 $d_{i i}$ 满足

$d_{i i} = {\begin{cases} 1, x_{i} > 0, \\ 0, x_{i} = 0, \\ - 1, x_{i} < 0. \end{cases}$

该问题涉及到绝对值，其在原点处是不可微的。据我们所知该问题还未研究，这便是本文的研究意义。

求解(1.3)中 $λ$ 和x的过程实际上是求解约束化非线性方程组的问题。非线性方程组的求解方法有许多，比如说梯度投影法、罚函数法等。在本文，我们用梯度神经网络方法求解含有绝对值形式的张量特征值和特征向量。

2. 构造梯度神经网络模型

梯度神经网络现在已经被认为是数值计算中的一个强大的算法[4]，在矩阵求逆和Drazin逆[5]，线性和非线性方程组[6]的求解等领域有着十分重要的作用。鉴于其高速处理特性和在实际应用中硬件实现的方便性，更多梯度神经网络求解线性方程组与非线性方程组问题见[7]-[10]。

为了监测和控制(1.3)的求解过程，根据梯度神经网络方法设计思路[11]，首先定义一个误差函数

$E (x (t), λ (t)) : = A x {(t)}^{m - 0} - λ (t) D x (t) \in R^{n} .$ (2.1)

为了迫使 $E (x (t), λ (t))$ 收敛于零。类似于[12]的工作，接着定义一个监测误差函数

$e (x (t), λ (t)) : = \frac{1}{2} {‖ A x {(t)}^{m - 1} - λ (t) D x (t) ‖}_{2}^{2} \in R .$

显然，当监测误差函数 $e (x (t), λ (t))$ 收敛于零时， $E (x (t), λ (t))$ 也收敛于零。

为了实现 $E (x (t), λ (t))$ 收敛到零的目的，根据梯度神经网络设计方法，监测误差函数的负梯度方向作为下降方向，即

${\begin{cases} \frac{d x}{d t} = - γ_{1} \frac{\partial e (x (t), λ (t))}{\partial x}, \\ \frac{d λ}{d t} = - γ_{2} \frac{\partial e (x (t), λ (t))}{\partial λ} . \end{cases}$ (2.2)

把(2.2)展开，有

${\begin{cases} \frac{d x}{d t} = - γ_{1} {((m - 1) A x^{m - 2} - λ D I)}^{T} (A x^{m - 1} - λ D x), \\ \frac{d λ}{d t} = γ_{2} {(D x)}^{T} (A x^{m - 1} - λ D x), \end{cases}$ (2.3)

其中 $γ_{1} > 0$ 和 $γ_{2} > 0$ 。

采用欧拉差分对(2.3)进行离散，得

${\begin{cases} x_{k + 1} = x_{k} - α_{1} {((m - 1) A x_{k}^{m - 2} - λ_{k} D_{k} I)}^{T} (A x_{k}^{m - 1} - λ_{k} D_{k} x_{k}) = x_{k} - f (x_{k}, λ_{k}), \\ λ_{k + 1} = λ_{k} + α_{2} {(D_{k} x_{k})}^{T} (A x_{k}^{m - 1} - λ_{k} D_{k} x_{k}) = λ_{k} + g (x_{k + 1}, λ_{k}), \end{cases}$ (2.4)

其中 $τ_{i}$ 是步长， $α_{i} = τ_{i} γ_{i} (i = 1, 2)$ ， $τ_{i}$ 应足够小。

故获得了一个计算(1.3)中 $λ$ 和x的算法步骤，如下

步骤一：给定一个张量 $A \in S^{[m, n]}$ ，误差参数 $ε > 0$ ，最大代步数 $k_{\max}$ 和初始向量 $x_{0} \in Σ = {x | x^{T} x = 1}$ ；

步骤二：令 $α_{1}, α_{2} > 0$ ， $λ_{0} \in R$ ， $k = 0$ ；

步骤三：当 $k < k_{\max}$ 时，计算

$x_{k + 1} \leftarrow x_{k} - f (x_{k}, λ_{k})$

和

$x_{k + 1} \leftarrow \frac{x_{k + 1}}{{‖ x_{k + 1} ‖}_{2}};$

步骤四：计算

$λ_{k + 1} \leftarrow λ_{k} + g (x_{k + 1}, λ_{k});$

步骤五：当 ${‖ A x_{k + 1}^{m - 1} - λ_{k + 1} D_{k + 1} x_{k + 1} ‖}_{2} < ε$ 时，输出 $(x_{k + 1}, λ_{k + 1})$ ；否则返回第三步；

步骤六：结束。

为了证明算法的有效性，在下一小节，将分析算法的稳定性和收敛性。

3. 收敛性分析

本小节，我们讨论所提出的梯度神经网络模型(2.3)的一些收敛性质，首先我们给出定理3.1。

定理3.1方程(2.1)的每一个解 $x_{*}$ 都是系统(2.3)的平衡点。反过来，若 $((m - 1) A x {(t)}^{m - 2} - λ (t) D)$ 是非奇异，那么系统(2.3)的平衡点是方程(2.1)的解。

证明：前一部分，显然成立。现证明第二部分。

假定 $x_{*}$ 是系统(2.3)的平衡点，即

${\frac{d x}{d t} |}_{x = x_{*}} = - γ_{1} ((m - 1) A x_{*}^{m - 2} - λ_{*} D) (A x^{m - 1} - λ D x) .$

由于 $((m - 1) A x^{m - 2} - λ D)$ 是非奇异矩阵， $γ_{1} > 0$ ，进而有 $A x_{*}^{m - 1} - λ_{*} D x_{*} = 0$ 。因此 $A x_{*}^{m - 1} = λ_{*} D x_{*}$ 。证毕。

假定 $(λ_{*}, x_{*})$ 满足 $A x_{*}^{m - 1} = λ_{*} D x_{*}$ 。由[13]可知，平衡点 $x_{*}$ 附近找到邻域 $δ > 0$ ，

$B (x_{*}, δ) : = {x \in R^{n} | {‖ x - x_{*} ‖}_{2} < δ} .$

使得 $((m - 1) A x^{m - 2} - λ D)$ 是非奇异矩阵。

定理3.2若张量 $A \in S^{[m, n]}$ 满足 $A x_{*}^{m - 1} = λ_{*} D x_{*}$ 。初始向量 $x_{0} \in B (x_{*}, δ)$ ，则从初始向量 $x_{0}$ 出发的x都会收敛到 $x_{*}$ 。

证明：构造一个Lyapunov函数

$L (t) = \frac{1}{2} {‖ E (x (t), λ (t)) ‖}_{2}^{2} = \frac{1}{2} E {(x (t), λ (t))}^{T} E (x (t), λ (t)) \geq 0.$

求 $L (t)$ 关于时间t的导数得

$\begin{matrix} \dot{L} (t) = \frac{d L (t)}{d t} = E {(x (t), λ (t))}^{T} \frac{E (x (t), λ (t))}{d t} \\ = {(A x {(t)}^{m - 0} - λ (t) D x (t))}^{T} ((m - 1) A x {(t)}^{m - 2} - λ (t) D) \frac{d x}{d t} \\ = - γ_{1} T r [H ϕ ({(A x {(t)}^{m - 0} - λ (t) D x (t))}^{T} (A x {(t)}^{m - 0} - λ (t) D x (t)))], \end{matrix}$ (3.1)

其中矩阵 $H = {((m - 1) A x {(t)}^{m - 2} - λ (t) D)}^{T} ((m - 1) A x {(t)}^{m - 2} - λ (t) D)$ 是对称正定。则对任意 $x \in B (x_{*}, δ)$ ， $((m - 1) A x {(t)}^{m - 2} - λ (t) D)$ 是非奇异的，我们有

$\begin{array}{l} λ_{\min} T r (ϕ ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T}))) \\ \leq T r (H ϕ ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T}))) \\ \leq λ_{\max} T r (ϕ ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T}))), \end{array}$

其中 $λ_{\min}$ 和 $λ_{\max}$ 是矩阵H的最小和最大特征值。函数 $ϕ (x) = x$ 是单调递增的奇函数，所以 $- ϕ (x) = ϕ (- x)$ ，再加上

$ϕ (x) {\begin{cases} > 0, x > 0, \\ = 0, x = 0, \\ < 0, x < 0, \end{cases}$

我们可以得到

$x ϕ (x) {\begin{cases} > 0, x \neq 0, \\ = 0, x = 0. \end{cases}$

那么

$T r (ϕ ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T}))) {\begin{cases} = 0, A x {(t)}^{m - 1} - λ (t) D x (t) = 0, \\ > 0, A x {(t)}^{m - 1} - λ (t) D x (t) \neq 0. \end{cases}$

参数 $γ_{1} > 0$ ，故 $L (t)$ 关于时间t的导数满足

$\frac{d L (t)}{d t} {\begin{cases} = 0, A x {(t)}^{m - 1} - λ (t) D x (t) = 0, \\ < 0, A x {(t)}^{m - 1} - λ (t) D x (t) \neq 0. \end{cases}$

因 $L (t)$ 是正定函数， $\dot{L} (t)$ 是负定函数，满足Lyapunov稳定性条件，故误差函数 $E (x (t), λ (t))$ 会收敛于零。换句话说，状态向量 $x (t)$ 在 $x {(t)}_{*}$ 处是渐近稳定的。证毕。

定理3.3模型(2.3)的收敛速率为 $γ_{1} β$ ，其中 $λ_{\min} (H)$ 。

证明：根据(3.1)，有

$\begin{matrix} \frac{d L (t)}{d t} = - γ_{1} T r (ϕ ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T}))) \\ \leq - γ_{1} β T r ((A x {(t)}^{m - 1} - λ (t) D x (t)) (A x {(t)}^{m - 1} - λ (t) D x {(t)}^{T})) \\ \leq - 2 γ_{1} β L (t) . \end{matrix}$ (3.2)

求解(3.2)得

$L (t) \leq L (0) e^{- 2 γ_{1} β} .$

因此

${‖ E (x (t), λ (t)) ‖}_{2} \leq {‖ E (x (t_{0}), λ (t_{0})) ‖}_{2} e^{- γ_{1} β t} .$

显然，模型的收敛速率为 $γ_{1} β$ 。证毕。

4. 数值实验

本小节，我们用一些数值例子来表明提出的梯度神经网络求解该问题的有效性和可行性。例4.1和例4.2均在Python上实验。

例4.1[14]令张量 $A \in S^{[4, 2]}$ ，其具体值如下

$\begin{array}{l} a_{1111} = a_{2222} = \frac{4}{\sqrt{3}}, a_{1112} = a_{1211} = a_{1121} = 1, \\ a {}_{2122}= a_{1222} = a_{2212} = a_{2221} . \end{array}$

用梯度神经网络来求解例4.1时，选择误差 $ε = 10^{- 6}$ 和最大迭代步数 $k_{\max} = 1000$ 。同时，为了方便，取 $α = α_{1} = α_{2}$ ，初始特征值 $λ_{0} = 0$ 和特征向量 $x_{0} = {(1, 0)}^{T}$ ，获得了部分数值结果见表1。

Table1.Partial results calculated by layered neural networks (1)

表1.梯度神经网络计算出的部分结果(1)

$λ$	x	CPU(s)	IT	$α_{1}$	error
−3.1547	${(- 0.7071, - 0.7071)}^{T}$	0.0117	19	1	6.72 × 10⁻⁸
−3.2525	${(- 0.8919, - 0.4520)}^{T}$	0.0053	17	1.1	4.62 × 10⁻⁸
−3.2525	${(- 0.8919, - 0.4520)}^{T}$	0.0076	18	1.08	4.01 × 10⁻⁸

例4.2[15]令张量 $A (t) \in S^{[3, 3]}$ ，其具体值如下

$\begin{array}{l} a_{111} = {(t - 20)}^{2} + 2, \\ a_{211} = a_{121} = a_{112} = \cos (t - 20), \\ a_{311} = a_{131} = a_{113} = - t + 21. \end{array}$

其他 $a_{i j k} = 0$ ，其中 $t \in [0, 20]$ 。

用梯度神经方法求解张量 $A (t)$ 在 $t = 20$ 时的特征值和特征向量，选择初始特征值 $λ_{0} = 1$ ，初始特征向量 $x_{0} = {(1, 1, 1)}^{T}$ 且误差 $ε = 10^{- 7}$ 。为了简便，取 $α = α_{1} = α_{2}$ 。获得了部分数值结果见表2。

Table 2.Partial results calculated by layered neural networks (2)

表2.梯度神经网络计算出的部分结果(2)

$λ$	x	CPU(s)	IT	$α_{1}$	error
2	${(1, 0, 0)}^{T}$	0.0024	10	0.9	1.02 × 10⁻⁷
2	${(1, 0, 0)}^{T}$	0.0003	1	1	0
2	${(1, 0, 0)}^{T}$	0.0024	11	1.08	1.02 × 10⁻⁷

5. 总结

在本文中，利用梯度神经网络方法求解含有绝对值形式的张量特征值和特征向量，数值实验表明了该方法的有效性，不足之处有两点：第一，梯度神经网络方法中的参数 $α$ 是影响收敛时间和误差的，选择最佳的参数 $α$ 是目前急需解决的问题；第二，新形式的张量特征值问题涉及到绝对值函数 $| x |$ ，由于 $| x |$ 是非光滑函数，根据已有研究张量绝对值方程的工作，绝对值函数可以用光滑函数逼近。能否用光滑函数逼近 $| x |$ ，然后再用神经网络方法求解，这也是一个值得思考的问题。

参考文献

[1]	Qi, L. (2005) Eigenvalues of a Real Supersymmetric Tensor.Journal of Symbolic Computation, 40, 1302-1324. https://doi.org/10.1016/j.jsc.2005.05.007
[2]	Li, H., Du, S. and Wang, Y. (2020) An Inexact Levenberg-Marquardt Method for Tensor Eigenvalue Complementarity Problem.Pacific Journal of Optimization, 16, 87-99.
[3]	Du, S., Zhang, L., Chen, C. and Qi, L. (2018) Tensor Absolute Value Equations.Science China Mathematics, 61, 1695-1710. https://doi.org/10.1007/s11425-017-9238-6
[4]	Zhang, Y. (2006) A Set of Nonlinear Equations and Inequalities Arising in Robotics and Its Online Solution via a Primal Neural Network.Neurocomputing, 70, 513-524. https://doi.org/10.1016/j.neucom.2005.11.006
[5]	Stanimirovic, P.S., Zivkovic, I.S. and Wei, Y. (2015) Recurrent Neural Network for Computing the Drazin Inverse.IEEE Transactions on Neural Networks and Learning Systems, 26, 2830-2843. https://doi.org/10.1109/tnnls.2015.2397551
[6]	Zhang, Y., Chen, Z. and Chen, K. (2009) Convergence Properties Analysis of Gradient Neural Network for Solving Online Linear Equations.ActaAutomaticaSinica, 35, 1136-1139. https://doi.org/10.3724/sp.j.1004.2009.01136
[7]	Xiao, L. and Zhang, Y. (2014) Solving Time-Varying Inverse Kinematics Problem of Wheeled Mobile Manipulators Using Zhang Neural Network with Exponential Convergence.Nonlinear Dynamics, 76, 1543-1559. https://doi.org/10.1007/s11071-013-1227-7
[8]	Chen, K. (2013) Implicit Dynamic System for Online Simultaneous Linear Equations Solving.Electronics Letters, 49, 101-102. https://doi.org/10.1049/el.2012.3501
[9]	Yi, C. and Zhang, Y. (2008) Analogue Recurrent Neural Network for Linear Algebraic Equation Solving.Electronics Letters, 44, 1078-1080. https://doi.org/10.1049/el:20081390
[10]	Zhang, Y. and Chen, K. (2008) Global Exponential Convergence and Stability of Wang Neural Network for Solving Online Linear Equations.Electronics Letters, 44, 145-146. https://doi.org/10.1049/el:20081928
[11]	Ding, F. and Chen, T.W. (2005) Gradient Based Iterative Algorithms for Solving a Class of Matrix Equations.IEEE Transactions on Automatic Control, 50, 1216-1221. https://doi.org/10.1109/tac.2005.852558
[12]	Wang, X., Che, M. and Wei, Y. (2020) Neural Network Approach for Solving Nonsingular Multi-Linear Tensor Systems.Journal of Computational and Applied Mathematics, 368, Article ID: 112569. https://doi.org/10.1016/j.cam.2019.112569
[13]	Wilkinson, J.H. (1965) The Algebraic Eigenvalue Problem. Clarendon.
[14]	Chang, K.C., Pearson, K.J. and Zhang, T. (2013) Some Variational Principles for Z-Eigenvalues of Nonnegative Tensors.Linear Algebra and Its Applications, 438, 4166-4182. https://doi.org/10.1016/j.laa.2013.02.013
[15]	Mo, C., Wang, X. and Wei, Y. (2020) Time-Varying Generalized Tensor Eigenanalysis via Zhang Neural Networks.Neurocomputing, 407, 465-479. https://doi.org/10.1016/j.neucom.2020.04.115

为你推荐

友情链接