耦合Sylvester转置矩阵方程的多迭代因子梯度算法

期刊菜单

耦合Sylvester转置矩阵方程的多迭代因子梯度算法
Multi-Iterative Factors Gradient Algorithm for the Coupled Sylvester-Transpose Matrix Equations

DOI: 10.12677/aam.2025.144148, PDF, HTML, XML,
作者: 冯文慧：广东工业大学数学与统计学院，广东广州
关键词: 耦合Sylvester转置矩阵方程；迭代算法；多迭代因子；收敛性分析；Coupled Sylvester-Transpose Matrix Equation； Iterative Algorithm； Multi-Iterative Factors； Convergence Analysis

摘要: 本文研究了耦合Sylvester转置矩阵方程的数值求解问题。通过充分利用方程的耦合性，引入了多个参数，并提出了多迭代因子梯度(MGI)算法。此外，还推导出了确保算法生成的迭代解对于任意初始矩阵都收敛到精确解的充要条件。最后，通过一个数值例子验证了所提算法的有效性。

Abstract: This paper investigates the numerical solution of coupled Sylvester-transpose matrix equations. By fully exploiting the coupling of the equations, several parameters are introduced, and an multi-iterative factors gradient algorithm is proposed. Additionally, the necessary and sufficient conditions that ensure the convergence of the iterative solutions generated by the algorithm to the exact solution for any initial matrix are derived. Finally, the effectiveness of the proposed algorithm has been verified through a numerical example.

文章引用：冯文慧. 耦合Sylvester转置矩阵方程的多迭代因子梯度算法[J]. 应用数学进展, 2025, 14(4): 155-165. https://doi.org/10.12677/aam.2025.144148

1. 引言

矩阵方程作为矩阵理论的重要组成部分，在数学与工程科学的多个领域中发挥着至关重要的作用，广泛应用于信号处理、稳定性分析、控制和系统理论等方面[1]-[4]。深入研究Sylvester矩阵方程的数值求解方法，不仅能够丰富矩阵理论的应用领域，还可以推动相关数学理论的发展。因此，提出高效的数值求解算法，对于提高解决实际工程问题的效率和精度至关重要。本文主要研究耦合Sylvester转置矩阵方程，这对实际问题中的观测器设计[5]等方面具有重要意义。

早期对矩阵方程的研究，主要通过克罗内克积和向量化算子，将矩阵方程转化为非齐次线性方程以获取解析解。然而，随着问题规模的不断扩大，矩阵维数呈指数增加，导致计算复杂度显著上升，存储需求也随之增大。因此，一些迭代方法来求矩阵方程的数值解成为了主流研究。在文献[6] [7]中，基于层次识别原理，Ding和Chen等人提出了一种基于梯度的迭代(GI)算法和一种基于最小二乘的迭代(LSI)算法来求解广义Sylvester矩阵方程 $A X B = F$ 和 $A X B + C X D = F$ 。文献[8]用梯度法求解Sylvester转置矩阵方程 $A X B + C X^{T} D = F$ 。后来，一些研究者对梯度法进行了一系列的改进，以加快算法的收敛速度。文献[9]提出了一种求解Sylvester矩阵方程的基于松弛梯度的迭代(RGI)算法。文献[10]提出了一种基于加速梯度的迭代(AGI)算法求解Sylvester矩阵方程。这两种改进的算法通过引入松弛因子和权重因子来调整算法参数和迭代格式，有效提升了收敛速度与精度，并在不同类型的矩阵方程中得到应用。在耦合Sylvester

转置矩阵方程的研究方面，也取得了一些成果。文献[11]求解方程 $\sum_{i = 1}^{r} A_{i} X B_{i} + \sum_{j = 1}^{s} C_{j} X^{T} D_{j} = E$ ，通过共轭梯度法得到了方程的最小二乘解和最小范数解。文献[12]利用层次识别原理，引入了单个迭代因子，提出了一种求解方程 $\sum_{η = 1}^{p} (A_{i η} X_{η} B_{i η} + C_{i η} X_{η}^{T} D_{i η}) = F_{i}, i \in I [1, N]$ 的迭代算法。

基于上述研究，本文继续研究耦合Sylvester转置矩阵方程的数值算法。针对此类方程的特点，基于梯度算法和单因子收敛法，引入多个参数，进而提出了多迭代因子梯度算法。

2. 主要问题和预备知识

本文我们主要通过构造MGI算法来求解如下形式的耦合Sylvester转置矩阵方程：

$\sum_{j = 1}^{p} (A_{i j} X_{j} B_{i j} + C_{i j} X_{j}^{T} D_{i j}) = F_{i}$ ， $i = [1, s]$ (1)

$A_{i j} \in R^{m_{i} \times r_{j}}$ ， $C_{i j} \in R^{m_{i} \times t_{j}}$ ， $B_{i j} \in R^{t_{j} \times n_{i}}$ ， $D_{i j} \in R^{r_{j} \times n_{i}}$ ， $F_{i} \in R^{m_{i} \times n_{i}}$ ， $X_{j} \in R^{r_{j} \times t_{j}}$ ， $i = [1, s]$ ， $j = [1, p]$ ，其中 $X_{j}$ 为未知待测矩阵。

首先我们介绍一些符号，定义实矩阵 $A \in R^{m \times m}$ ， $B \in R^{n \times n}$ ， $A^{T}$ ， $\bar{A}$ ， $A^{H}$ ， $t r (A)$ ， $λ (A)$ ， $ρ (A)$ 分别表示矩阵A的转置，共轭，共轭转置，迹，特征值，谱范数。矩阵A的2-范数和F-范数定义为 ${‖ A ‖}_{2} = \sqrt{λ_{\max} (A^{T} A)} = σ_{\max} (A)$ ， $‖ A ‖ = \sqrt{〈 A, A 〉} = \sqrt{tr (A^{T} A)}$ 。 $〈 A, B 〉 = tr (A^{T} B) = tr (B^{T} A)$ 为矩阵A和B内积的定义，同时克罗内克积定义为 $A \otimes B = (a_{i j} B)$ ，即

$A \otimes B = (\begin{matrix} a_{11} b_{11} & a_{11} b_{12} & \dots & a_{11} b_{1 p} & \dots & \dots & a_{1 n} b_{11} & a_{1 n} b_{12} & \dots & a_{1 n} b_{1 p} \\ a_{11} b_{21} & a_{11} b_{22} & \dots & a_{11} b_{2 p} & \dots & \dots & a_{1 n} b_{21} & a_{1 n} b_{22} & \dots & a_{1} b_{2 p} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ a_{11} b_{p 1} & a_{11} b_{p 1} & \dots & a_{11} b_{p p} & \dots & \dots & a_{1 n} b_{p 1} & a_{1 n} b_{p 1} & \dots & a_{1 n} b_{p p} \\ ⋮ & ⋮ & ⋮ & ⋱ \\ ⋮ & ⋮ & ⋮ & ⋱ \\ a_{m 1} b_{11} & a_{m 1} b_{12} & \dots & a_{m 1} b_{1 p} & \dots & \dots & a_{m n} b_{11} & a_{m n} b_{12} & \dots & a_{m n} b_{1 p} \\ a_{m 1} b_{21} & a_{m 1} b_{22} & \dots & a_{m 1} b_{2 p} & \dots & \dots & a_{m n} b_{21} & a_{m n} b_{22} & \dots & a_{m n} b_{2 p} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ a_{m 1} b_{p 1} & a_{m 1} b_{p 2} & \dots & a_{m 1} b_{p p} & \dots & \dots & a_{m n} b_{p 1} & a_{m n} b_{p 2} & \dots & a_{m n} b b_{p p} \end{matrix})$

其次，我们将提供一些有用的结果，这些结果将在后续部分中发挥重要作用。参考[13]的工作，设 $P_{m n} \in R^{m n \times m n}$ 为一个给定的方阵，可以划分为 $m \times n$ 个子矩阵，且有

$P (m, n) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} E_{i j} \otimes E_{i j}^{T}$ ， $E_{i j} = e_{i} e_{j}^{T}$ 。

则根据定义，我们有

$vec (X^{T}) = P (m, n) vec (X)$ ， $P (m, n) P (n, m) = I_{m n}$ ， $P {(m, n)}^{T} = P {(m, n)}^{- 1} = P (n, m)$ 。

在此基础上，我们给出了所求矩阵方程的可解条件，通过运用克罗内克积，我们可以将方程(1)的两边同时列向量化，可以得到：

$vec (F_{i}) = \sum_{j = 1}^{p} [B_{i j}^{T} \otimes A_{i j} + (D_{i j}^{T} \otimes C_{i j}) P_{r_{i} t_{j}}] vec (X_{j})$ ， $i = [1, s]$ ， $j = [1, p]$ (2)

展开可以写成 $S x = f$ ，其中

$S = [\begin{matrix} (D_{11}^{T} \otimes C_{11}) P_{r_{1} t_{1}} + B_{11}^{T} \otimes A_{11} & \dots & (D_{1 l}^{T} \otimes C_{1 l}) P_{r_{l}, t_{l}} + B_{1 l}^{T} \otimes A_{1 l} \\ (D_{21}^{T} \otimes C_{21}) P_{r_{1} t_{1}} + B_{21}^{T} \otimes A_{21} & \dots & (D_{2 l}^{T} \otimes C_{2 l}) P_{r_{l}, t_{l}} + B_{2 l}^{T} \otimes A_{2 l} \\ ⋮ & ⋮ \\ (D_{s 1}^{T} \otimes C_{s 1}) P_{r_{1} t_{1}} + B_{s 1}^{T} \otimes A_{s 1} & \dots & (D_{s l}^{T} \otimes C_{s l}) P_{r_{l}, t_{l}} + B_{s l}^{T} \otimes A_{s l} \end{matrix}]$ ， $x = [\begin{matrix} vec (X_{1}) \\ vec (X_{2}) \\ ⋮ \\ vec (X_{l}) \end{matrix}]$

$f = [\begin{matrix} vec (F_{1}) \\ vec (F_{2}) \\ ⋮ \\ vec (F_{s}) \end{matrix}]$

当S为方阵，即满足

$\sum_{i = 1}^{s} m_{i} n_{i} = \sum_{j = 1}^{p} t_{j} r_{j}$

则方程(1)有唯一解当且仅当S非奇异，此时方程(1)的解可以表示为 $x = R^{- 1} f$ 。

此外，我们将给出几个引理，简要回顾一下之前使用梯度型算法来求解矩阵方程的一些工作。对于矩阵方程的求解，如果系数矩阵是方阵，早期的方法是将系数矩阵利用“雅可比迭代和高斯–赛德尔迭代”的思想分解进行求解。后来，Ding等人提出了GI算法和LSI算法，这两种算法将矩阵方程系数矩阵的适用性扩展到了非方阵进行求解，对于此类算法的一些收敛定理由引理3.1给出：

引理3.1 [14] 考虑以下矩阵方程：

$A X B = F$ ，

其中 $A \in R^{m \times r}$ ， $B \in R^{s \times n}$ 和 $F \in R^{m \times n}$ 是未知矩阵， $X \in R^{r \times s}$ 是未知待测矩阵。对于这个矩阵方程，可以构造一种如下所示的迭代格式：

$X (k + 1) = X (k) + μ A^{T} (F - A X (k) B) B^{T}$ ，

其中

$0 < μ < \frac{2}{{‖ A ‖}_{2}^{2} {‖ B ‖}_{2}^{2}}$ 。

接下来给出的引理3.2和引理3.3讨论了块矩阵的谱范数与弗罗比尼乌斯范数之间的关系，并分析了算法的收敛性。

引理3.2 [15] 对于任意矩阵A，有以下关系成立

${‖ A ‖}_{2} = σ_{\max} (A) \leq ‖ A ‖$ 。

引理3.3 [15] 设矩阵 $A = {[A_{i j}]}_{m \times n}$ 为一个分块矩阵，其中矩阵 $A_{i j}$ ， $i = [1, m]$ ， $j = [1, n]$ 的维数是兼容的，则对于任何P-范数，有

${‖ A ‖}_{p} \leq {‖ {[{‖ A_{i j} ‖}_{p}]}_{n \times n} ‖}_{p}$ 。

3. 多迭代因子梯度算法

3.1. MGI算法的构造

基于前面对梯度迭代算法的分析，本节我们提出了MGI算法来求解方程(1)，并讨论了该算法的收敛性和收敛速率。对于方程(1)的求解，之前一些研究中提出的单因子收敛法因为没有充分利用好方程组的耦合性和子方程的独立性之间的关系，导致收敛性的证明结果以及算法的收敛速度不太理想。因此针对此类方程的特点，基于梯度算法和单因子收敛法，我们引入多个参数，提出了改进的多迭代因子梯度算法。

其主要思想是搜索矩阵组 $X = (X_{1}, X_{2}, \dots, X_{l})$ ，最小化以下目标函数：

$G (X) = \frac{1}{2} \sum_{i = 1}^{ϖ} μ_{i} {‖ R_{i} ‖}^{2}$ ， (3)

其中， $μ_{i} > 0$ ， $R_{i} = \sum_{j = 1}^{p} (A_{i j} X_{j} B_{i j} + C_{i j} X_{j}^{T} D_{i j}) - F_{i}$ ， $i = [1, s]$ 。

我们提出mMGI算法如下：

步骤1 输入初始矩阵 $A_{i j} \in R^{m_{i} \times r_{j}}$ ， $C_{i j} \in R^{m_{i} \times t_{j}}$ ， $B_{i j} \in R^{t_{j} \times n_{i}}$ ， $D_{i j} \in R^{r_{j} \times n_{i}}$ ， $F_{i} \in R^{m_{i} \times n_{i}}$ ， $X_{j} \in R^{r_{j} \times t_{j}}$ ， $i = [1, s]$ ，

$j = [1, p]$ 。给定任意小的正数 $ε$ ，和合适的正数 $ω_{i}$ ， $i = [1, s]$ ，且满足 $\sum_{i = 1}^{s} ω_{i} = 1$ 。选取初始矩阵 $X_{j} (0)$ ，

$j = [1, p]$ ，设置 $k : = 1$ 。

步骤2 如果：

$δ_{k} = \frac{\sum_{i = 1}^{s} {‖ F_{i} - \sum_{j = 1}^{p} (A_{i j} X_{j} B_{i j} + C_{i j} X_{j}^{T} D_{i j}) ‖}_{F}}{\sum_{i = 1}^{s} {‖ F_{i} ‖}_{F}} < ε$ ， (4)

停止计算；否则，转到步骤3。

步骤3 计算对于， $i = [1, s]$ ， $l = [1, p]$ ，更新序列：

$\begin{matrix} X_{l}^{i} (k + 1) = X_{l}^{i} (k) + μ_{i} A_{i l}^{T} [F_{i} - \sum_{j = 1}^{p} (A_{i j} X_{j} (k) B_{i j} + C_{i j} {(X_{j} (k))}^{T} D_{i j})] B_{i l}^{T} \\ + μ_{i} D_{i l} [F_{i}^{T} - \sum_{j = 1}^{p} (B_{i j}^{T} X_{j}^{T} (k) A_{i j}^{T} + D_{i j}^{T} X_{j} (k) C_{i j}^{T})] C_{i l}, \end{matrix}$

$X_{l} (k + 1) = ω_{1} X_{l}^{1} (k + 1) + \dots + ω_{s} X_{l}^{s} (k + 1)$ 。 (5)

步骤4 令 $k : = k + 1$ ，返回步骤2继续计算。

3.2. mMGI算法的收敛性

首先，我们给出MGI算法的收敛性分析，给出了使算法收敛的充分条件。

定理3.1 假设耦合Sylvester转置矩阵方程(1)存在唯一解，如果选取迭代因子 $μ_{i}$ 满足不等式

$0 < μ_{i} < \frac{2}{s ω_{i} \sum_{l = 1}^{p} ({‖ A_{i l} ‖}_{2}^{2} {‖ B_{i l} ‖}_{2}^{2} + {‖ C_{i l} ‖}_{2}^{2} {‖ D_{i l} ‖}_{2}^{2})}$ ， (6)

则由mMGI算法生成的迭代解 $X (k) = (X_{1} (k), X_{2} (k), \dots, X_{l} (k))$ 在任意初始条件下都收敛于方程的唯一解

$X_{j}^{*}$ ， $j = [1, p]$ ，即 $\lim_{k \to \infty} X_{j} (k) = X_{j}^{*}$ ， $j \in \bar{1, p}$ 。

证明首先，我们定义迭代误差矩阵

${\tilde{X}}_{l} (k) = X_{l} (k) - X_{l}^{*}$ ， ${\tilde{X}}_{l}^{(i)} (k) = X_{l}^{(i)} (k) - X_{l}^{*}$ ， $i = [1, s]$ ， $l = [1, p]$ 。 (7)

将mMGI算法中的(5)前两行的两边同时减去 $X_{l}^{*}$ ，有

$\begin{matrix} {\tilde{X}}_{l}^{(i)} (k) = X_{l}^{(i)} (k) - X_{l}^{*} \\ = X_{l}^{(i)} (k - 1) - X_{l}^{*} + μ_{i} {A_{i l}^{T} [\sum_{j = 1}^{p} (A_{i j} X_{j}^{*} B_{i j} + C_{i j} {(X_{j}^{*})}^{T} D_{i j}) \\ - \sum_{j = 1}^{p} (A_{i j} X_{j} (k - 1) B_{i j} + C_{i j} X_{j}^{T} (k - 1) D_{i j}) B_{i l}^{T} + D_{i l} [\sum_{j = 1}^{p} (A_{i j} X_{j}^{*} B_{i j} + C_{i j} {(X_{j}^{*})}^{T} D_{i j}) \\ {- \sum_{j = 1}^{p} (A_{i j} X_{j} (k - 1) B_{i j} + C_{i j} X_{j}^{T} (k - 1) D_{i j})]}^{T} C_{i l}} \\ = {\tilde{X}}_{l}^{(i)} (k - 1) - μ_{i} {A_{i l}^{T} [\sum_{j = 1}^{p} (A_{i j} {\tilde{X}}_{j} (k - 1) B_{i j} + C_{i j} {\tilde{X}}_{j}^{T} (k - 1) D_{i j})] B_{i l}^{T}, l = [1, p] . \end{matrix}$

则

$\begin{array}{l} {\tilde{X}}_{l} (k) = X_{l} (k) - X_{l}^{*} = \sum_{i = 1}^{s} ω_{i} {\tilde{X}}_{l}^{(i)} (k) \\ = {\tilde{X}}_{l} (k - 1) - \sum_{i = 1}^{s} μ_{i} ω_{i} {A_{i l}^{T} [\sum_{j = 1}^{p} (A_{i j} {\tilde{X}}_{j} (k - 1) B_{i j} + C_{i j} {\tilde{X}}_{j}^{T} (k - 1) D_{i j})] B_{i l}^{T} \\ + D_{i l} {[\sum_{j = 1}^{p} (A_{i j} {\tilde{X}}_{j} (k - 1) B_{i j} + C_{i j} {\tilde{X}}_{j}^{T} (k - 1) D_{i j})]}^{T} C_{i l}} \\ = {\tilde{X}}_{l} (k - 1) - \sum_{i = 1}^{s} \sum_{j = 1}^{p} μ_{i} ω_{i} (A_{i l}^{T} A_{i j} {\tilde{X}}_{j} (k - 1) B_{i j} B_{i l}^{T} + A_{i l}^{T} C_{i j} {\tilde{X}}_{j}^{T} (k - 1) D_{i j} B_{i l}^{T} \\ + D_{i l} B_{i j}^{T} {\tilde{X}}_{j}^{T} (k - 1) A_{i j}^{T} C_{i l} + D_{i l} D_{i j}^{T} {\tilde{X}}_{j} (k - 1) C_{i j}^{T} C_{i l}), l = [1, p] . \end{array}$

定义

$\begin{matrix} θ_{i} (k) = F_{i} - \sum_{j = 1}^{p} (A_{i j} X_{j} (k) B_{i j} + C_{i j} X_{j}^{T} (k) D_{i j}) \\ = - \sum_{j = 1}^{p} (A_{i j} {\tilde{X}}_{j} (k) B_{i j} + C_{i j} {\tilde{X}}_{j}^{⊤} (k) D_{i j}), \end{matrix}$

则

${\tilde{X}}_{l} (k) = {\tilde{X}}_{l} (k - 1) + \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l})$ 。 (8)

取(8)两边F范数的平方，可以得到：

$\begin{matrix} {‖ {\tilde{X}}_{l} (k) ‖}_{F}^{2} = {‖ {\tilde{X}}_{l} (k - 1) + \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l}) ‖}_{F}^{2} \\ = {‖ {\tilde{X}}_{l} (k - 1) ‖}_{F}^{2} + {‖ \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l}) ‖}_{F}^{2} \\ + tr [{\tilde{X}}_{l}^{T} (k - 1) \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l})] \\ + tr [\sum_{i = 1}^{s} μ_{i} ω_{i} (B_{i l} θ_{i}^{T} (k - 1) A_{i l} + C_{i l}^{T} θ_{i} (k - 1) D_{i l}^{T}) {\tilde{x}}_{l} (k - 1)] \\ = {‖ {\tilde{X}}_{l} (k - 1) ‖}_{F}^{2} + {‖ \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l}) ‖}_{F}^{2} \\ + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} {\tilde{X}}_{l}^{T} (k - 1) A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T}) + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} {\tilde{X}}_{l}^{T} (k - 1) D_{i l} θ_{i}^{T} (k - 1) C_{i l}) \\ + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} B_{i l} θ_{i}^{T} (k - 1) A_{i l} {\tilde{X}}_{l} (k - 1)) + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} C_{i l}^{T} θ_{i} (k - 1) D_{i l}^{T} {\tilde{X}}_{l}^{T} (k - 1)) . \end{matrix}$

由于 $t r (A B) = t r (B A)$ ，则上式可以进一步转化为

$\begin{matrix} {‖ {\tilde{X}}_{l} (k) ‖}_{F}^{2} = {‖ {\tilde{X}}_{l} (k - 1) + \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l}) ‖}_{F}^{2} \\ + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} B_{i l}^{T} {\tilde{X}}_{l}^{T} (k - 1) A_{i l}^{T} θ_{i} (k - 1)) + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} θ_{i}^{T} (k - 1) C_{i l} {\tilde{X}}_{l}^{T} (k - 1) D_{i l}) \\ + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} θ_{i}^{T} (k - 1) A_{i l} {\tilde{X}}_{l} (k - 1) B_{i l}) + tr (\sum_{i = 1}^{s} μ_{i} ω_{i} D_{i l}^{T} {\tilde{X}}_{l}^{T} (k - 1) C_{i l}^{T} θ_{i} (k - 1)) \\ = {‖ {\tilde{X}}_{l} (k - 1) + \sum_{i = 1}^{s} μ_{i} ω_{i} (A_{i l}^{T} θ_{i} (k - 1) B_{i l}^{T} + D_{i l} θ_{i}^{T} (k - 1) C_{i l}) ‖}_{F}^{2} \\ + tr [\sum_{i = 1}^{s} μ_{i} ω_{i} (B_{i l}^{T} {\tilde{X}}_{l}^{T} (k - 1) A_{i l}^{T} + D_{i l}^{T} {\tilde{X}}_{l} (k - 1) C_{i l}^{T}) θ_{i} (k - 1)] \\ + tr [\sum_{i = 1}^{s} μ_{i} ω_{i} θ_{i}^{T} (k - 1) (A_{i l} {\tilde{X}}_{l} (k - 1) B_{i l} + C_{i l} X_{l}^{T} (k - 1) D_{i l})] . \end{matrix}$ (9)

将(9)两侧所有的 ${‖ {\tilde{X}}_{l} (k) ‖}_{F}^{2}$ ， $l = [1, p]$ 相加，可得：

$\begin{matrix} \sum_{l = 1}^{p} {‖ {\tilde{X}}_{l} (k) ‖}_{F}^{2} \leq {‖ {\tilde{X}}_{l} (k - 1) ‖}_{F}^{2} + \sum_{i = 1}^{s} μ_{i} ω_{i} tr [\sum_{l = 1}^{p} (B_{i l}^{T} {\tilde{X}}_{l}^{T} (k - 1) A_{i l}^{T} + D_{i l}^{T} {\tilde{X}}_{l} (k - 1) C_{i l}^{T}) θ_{i} (k - 1)] \\ + \sum_{i = 1}^{s} μ_{i} ω_{i} tr [\sum_{l = 1}^{p} θ_{i}^{T} (k - 1) (A_{i l} {\tilde{X}}_{l} (k - 1) B_{i l} + C_{i l} X_{l}^{T} (k - 1) D_{i l})] \\ \leq {‖ {\tilde{X}}_{l} (k - 1) ‖}_{F}^{2} - 2 \sum_{i = 1}^{s} μ_{i} ω_{i} {‖ θ_{i} (k - 1) ‖}_{F}^{2} \\ + s \sum_{i = 1}^{s} μ_{i}^{2} ω_{i}^{2} \sum_{l = 1}^{p} ({‖ A_{i l} ‖}_{2}^{2} {‖ B_{i l} ‖}_{2}^{2} + {‖ C_{i l} ‖}_{2}^{2} {‖ D_{i l} ‖}_{2}^{2}) {‖ θ_{i} (k - 1) ‖}_{F}^{2} \\ \leq \sum_{l = 1}^{P} {‖ {\tilde{X}}_{l} (0) ‖}_{F}^{2} - 2 \sum_{i = 1}^{s} μ_{i} ω_{i} [1 - \frac{s}{2} μ_{i} ω_{i} \sum_{l = 1}^{p} ({‖ A_{i l} ‖}_{2}^{2} {‖ B_{i l} ‖}_{2}^{2} + {‖ C_{i l} ‖}_{2}^{2} {‖ D_{i l} ‖}_{2}^{2})] \sum_{j = 0}^{k} {‖ θ_{i} (j) ‖}_{F}^{2} . \end{matrix}$

显然，如果收敛因子 $μ_{i}$ 满足(6)，我们可以推断出：

$2 \sum_{i = 1}^{s} μ_{i} ω_{i} [1 - \frac{s}{2} μ_{i} ω_{i} \sum_{l = 1}^{p} ({‖ A_{i l} ‖}_{2}^{2} {‖ B_{i l} ‖}_{2}^{2} + {‖ C_{i l} ‖}_{2}^{2} {‖ D_{i l} ‖}_{2}^{2})] \sum_{j = 0}^{k} {‖ θ_{i} (j) ‖}_{F}^{2} \leq \sum_{l = 1}^{P} {‖ {\tilde{X}}_{l} (0) ‖}_{F}^{2}$ 。

从级数收敛的必要条件可知当 $k \to \infty$ 时，

$\lim_{k \to \infty} {‖ θ_{i} (k) ‖}_{F}^{2} = 0$ 。

因此，可以得到：

$\lim_{k \to \infty} {\tilde{X}}_{j} (k) = 0$ ， $j = [1, p]$ 。

所以，MGI算法生成的迭代解收敛于方程(1)的精确解，即

$\lim_{k \to \infty} X_{j} (k) = X_{j}^{*}$ ， $j = [1, p]$ 。

定理证明完毕。

在证明了MGI算法收敛的充分性后，我们进一步分析了迭代因子 $μ_{i}$ 与算法的收敛速度之间的关系，提出了定理3.2为算法的收敛提供了充分必要条件，扩展了迭代因子的范围，在保持算法稳定性的同时加快了算法的收敛速度，接下来提供了定理3.2的证明。

定理3.2 假设耦合Sylvester转置矩阵方程(1)存在唯一解，则由MGI算法生成的迭代解 $X (k) = (X_{1} (k), X_{2} (k), \dots, X_{l} (k))$ 在任意初始条件下都收敛于方程的唯一解 $X_{j}^{*}$ ， $j = [1, p]$ ，即

$\lim_{k \to \infty} X_{j} (k) = X_{j}^{*}$ ， $j = [1, p]$ ，当且仅当迭代因子 $μ_{i}$ 满足不等式

$0 < μ_{i} < \frac{2}{{‖ T^{\frac{1}{2}} S ‖}_{2}^{2}}$ ， (10)

证明首先，用向量化算子对(8)的两侧进行列向量化，得到

$vec [{\tilde{X}}_{l} (k)] = vec [{\tilde{X}}_{l} (k - 1)] - \sum_{i = 1}^{s} μ_{i} ω_{i} [B_{i l} \otimes A_{i l}^{T} + P_{r_{l} t_{l}}^{T} (D_{i l} \otimes C_{i l}^{T})]$

$\sum_{j = 1}^{p} [B_{i j}^{T} \otimes A_{i j} + (D_{i j}^{T} \otimes C_{i j}) P_{r_{j} t_{j}}] vec [{\tilde{X}}_{j} (k - 1)]$ ， $l = [1, p]$ 。 (11)

令

$vec [\tilde{X} (k)] = {[{[vec ({\tilde{X}}_{1} (k))]}^{T}, {[vec ({\tilde{X}}_{2} (k))]}^{T}, \dots, {[vec ({\tilde{X}}_{p} (k))]}^{T}]}^{T}$ ，

定义 $T = blkdiag {ω_{1} I_{m_{1} n_{1}}, ω_{2} I_{m_{2} n_{2}}, \dots, ω_{s} I_{m_{s} n_{s}}}$ ，则(11)可以写成

$vec [\tilde{X} (k + 1)] = vec [\tilde{X} (k)] - μ_{i} S^{T} T S vec [\tilde{X} (k)] = [I - μ_{i} S^{T} T^{\frac{1}{2}} T^{\frac{1}{2}} S] vec [\tilde{X} (k)]$ ， (12)

显然(12)是一个迭代方程，它收敛当且仅当

$ρ (I - μ_{i} S^{T} T^{\frac{1}{2}} T^{\frac{1}{2}} S) < 1$ ，

因此，当且仅当迭代因子 $μ_{i}$ 满足(10)，即(12)谱半径小于1，方程(1)具有唯一解。

定理证明完毕。

注释3.1 在证明了我们所提出的MGI算法是收敛的之后，为了定量分析MGI算法的收敛速度，我们进行理论分析来估计其收敛阶数。收敛阶数描述了迭代误差随着迭代步数增加而减少的速率，能很好地衡量迭代算法的收敛效率。

假设迭代误差在第k步和第 $(k + 1)$ 步之间的关系可以表示为：

$e_{(k + 1)} = α e_{k}^{p}$ ，

其中 $e_{k}$ 是第k步的误差， $α$ 是一个常数，p是收敛阶数。

对于MGI算法，我们可以通过分析迭代公式(5)来推导误差之间的关系。假设初始误差 $e_{0}$ 已知，通过迭代公式，可以得到 $e_{1}, e_{2}, \dots, e_{k}$ 的表达式。通过数学归纳法，可以得到：

$e_{k + 1} = α {(\prod_{i = 1}^{k} μ_{i})}^{p} e_{0}^{p}$ ，

其中 $μ_{i}$ 是第i步的迭代因子。

为了使算法收敛，我们需要 $α {(\prod_{i = 1}^{k} μ_{i})}^{p} < 1$ 对所有的k成立。即需要 $p > 1$ ，这表明算法具有超线性收敛性。

可以通过选择迭代因子 $μ_{i}$ 来进一步确定p的值。例如选择 $μ_{i} = \frac{2}{i + 2}$ 时，则 $p = 1.5$ 。此时，MGI算法具有1.5阶的收敛速度，这表明算法在每次迭代中能显著减少误差，即算法具有较好的收敛性。

3.3. 迭代因子的选择方法

在本节中，我们将讨论如何选择多迭代因子以优化算法的性能。迭代因子的选择对算法的收敛速度和稳定性有重要影响。我们提出以下几种方法来选择迭代因子：

3.3.1. 理论分析

基于算法的收敛性分析，选择满足定理3.2中不等式(10)的迭代因子。

3.3.2. 根据经验

通过数值实验，观察不同迭代因子对算法收敛速度的影响，并选择表现最佳的因子。

3.3.3. 优化方法

使用优化算法(如梯度下降法)来自动调整迭代因子，以最小化目标函数(3)。

具体方法可以根据实际问题的需求和计算资源来确定。

4. 数值例子

4.1. 数值实验验证算法收敛性

我们给出了一个数值例子来说明所提算法的收敛性。考虑以下耦合Sylvester转置矩阵方程，

${\begin{array}{l} A_{11} X_{1} B_{11} + C_{11} X_{1}^{T} D_{11} + A_{12} X_{2} B_{12} + C_{12} X_{2}^{T} D_{12} = F_{1}, \\ A_{21} X_{1} B_{21} + C_{21} X_{1}^{T} D_{21} + A_{22} X_{2} B_{22} + C_{22} X_{2}^{T} D_{22} = F_{2}, \end{array}$

其中系数矩阵的取值来自于文献[16]：

$\begin{array}{l} A_{11} = [\begin{array}{l} - 1 & 2 \\ - 2 & 3 \end{array}], B_{11} = [\begin{matrix} 0 & - 1 \\ 0.5 & 3 \end{matrix}], C_{11} = [\begin{matrix} 1 & - 2 \\ 3 & 3 \end{matrix}], D_{11} = [\begin{matrix} - 2 & 0 \\ 1 & 2 \end{matrix}], \\ A_{21} = [\begin{array}{l} 2 & 3 \\ 1 & 2 \end{array}], B_{21} = [\begin{matrix} 4 & 1 \\ 0.5 & - 2 \end{matrix}], C_{21} = [\begin{array}{l} 1 & 2 \\ 2 & 0 \end{array}], D_{21} = [\begin{matrix} 0 & - 2 \\ - 1 & - 1 \end{matrix}], \\ A_{12} = [\begin{matrix} 1 & - 3 \\ 0 & 2 \end{matrix}], B_{12} = [\begin{matrix} 2 & 3 \\ 1 & - 2 \end{matrix}], C_{12} = [\begin{matrix} 2.5 & - 4 \\ - 2 & 0 \end{matrix}], D_{12} = [\begin{matrix} 1 & 0 \\ 3 & - 1 \end{matrix}], \\ A_{22} = [\begin{matrix} - 1 & 0 \\ 3 & 1 \end{matrix}], B_{22} = [\begin{matrix} 0 & 2 \\ 2 & - 2 \end{matrix}], C_{22} = [\begin{array}{l} 2 & 3 \\ 1 & 2 \end{array}], D_{22} = [\begin{matrix} 1 & - 3 \\ 2 & - 1 \end{matrix}], \\ F_{1} = [\begin{matrix} - 26 & 35 \\ - 21 & - 25 \end{matrix}], F_{2} = [\begin{matrix} 19 & - 29 \\ 3 & 11 \end{matrix}] . \end{array}$

此方程的精确解为：

$X_{1}^{*} = [\begin{matrix} 1 & 2 \\ - 1 & 0 \end{matrix}], X_{2}^{*} = [\begin{matrix} 2 & - 2 \\ 0 & 3 \end{matrix}]$ 。

在本例中，我们将初始矩阵设为：

$X_{1}^{(i)} (0) = X_{2}^{(i)} (0) = 10^{- 6} \times I_{2}$ ， $i = 1, 2$ ，

迭代误差设为：

$δ (k) = \sqrt{\frac{{‖ X_{1} (k) - X_{1}^{*} ‖}^{2} + {‖ X_{2} (k) - X_{2}^{*} ‖}^{2}}{{‖ X_{1}^{*} ‖}^{2} + {‖ X_{2}^{*} ‖}^{2}}}$ 。

接下来，我们对所提出的MGI算法的收敛性进行了验证。首先，我们设定参数 $ω_{1} = 0.4, ω_{2} = 0.6$ ，选定两个参数后，迭代因子的选择方法我们结合上一节的3.3.1和3.3.2的两种方法，图1中选取的三组迭代因子为： $μ_{1} = 2 \times 10^{- 5}, μ_{2} = 1.5 \times 10^{- 5}; μ_{1} = 3 \times 10^{- 5}, μ_{2} = 2 \times 10^{- 5}; μ_{1} = 1.5 \times 10^{- 5}, μ_{2} = 1 \times 10^{- 5}$ 。

Figure 1. Iteration error

图1. 迭代误差

从图1可以看出，随着迭代步数的增加，迭代误差持续减小，这表明迭代解正在逐渐接近精确解，从而证明了本文所提出的算法的收敛性。此外，我们发现迭代因子的数值越大，算法的收敛速度越快，然而，如果迭代因子选取过大，算法将直接发散。因此，如何选择最佳的迭代因子以优化收敛性能，仍需进一步研究。

4.2. MGI算法的优势

1) 收敛速度更快：通过引入多个迭代因子，MGI算法能够更灵活地调整迭代步长，从而加速收敛。

2) 计算复杂度更低：MGI算法避免了复杂的矩阵分解操作，仅需进行矩阵乘法和加法运算，因此计算复杂度远低于克罗内克积的直接解法。

3) 适用范围更广：MGI算法不仅适用于方阵，还可以处理非方阵情况，扩展了算法的应用范围。

5. 结论

本文针对耦合Sylvester转置矩阵方程的数值求解问题，引入了多个参数，并提出了一种多迭代因子梯度算法。通过分析矩阵范数之间的递推关系以及系数矩阵列向量化后的谱半径，推导出了确保算法生成的迭代解对于任意初始矩阵都能收敛到精确解的充分条件和充分必要条件。此外，我们还提供了一个具体的数值例子来验证算法的有效性和理论结果的正确性。值得注意的是，不同参数的选择对收敛速率有着显著的影响。因此，如何选取最优参数以提高收敛速率，仍是一个需要进一步研究的问题。

参考文献

[1]	Costa, O.L.V. and Fragoso, M.D. (1993) Stability Results for Discrete-Time Linear Systems with Markovian Jumping Parameters. Journal of Mathematical Analysis and Applications, 179, 154-178. https://doi.org/10.1006/jmaa.1993.1341
[2]	Zhou, B. (2015) Global Stabilization of Periodic Linear Systems by Bounded Controls with Applications to Spacecraft Magnetic Attitude Control. Automatica, 60, 145-154. https://doi.org/10.1016/j.automatica.2015.07.003
[3]	Ding, F. (2023) Least Squares Parameter Estimation and Multi-Innovation Least Squares Methods for Linear Fitting Problems from Noisy Data. Journal of Computational and Applied Mathematics, 426, Article ID: 115107. https://doi.org/10.1016/j.cam.2023.115107
[4]	Zhou, B. (2020) Finite-Time Stabilization of Linear Systems by Bounded Linear Time-Varying Feedback. Automatica, 113, Article ID: 108760. https://doi.org/10.1016/j.automatica.2019.108760
[5]	Dai, L. (1989) Singular Control Systems. Springer.
[6]	Ding, F. and Chen, T. (2005) Iterative Least-Squares Solutions of Coupled Sylvester Matrix Equations. Systems & Control Letters, 54, 95-107. https://doi.org/10.1016/j.sysconle.2004.06.008
[7]	Ding, F., Liu, P.X. and Ding, J. (2008) Iterative Solutions of the Generalized Sylvester Matrix Equations by Using the Hierarchical Identification Principle. Applied Mathematics and Computation, 197, 41-50. https://doi.org/10.1016/j.amc.2007.07.040
[8]	Xie, L., Ding, J. and Ding, F. (2009) Gradient Based Iterative Solutions for General Linear Matrix Equations. Computers & Mathematics with Applications, 58, 1441-1448. https://doi.org/10.1016/j.camwa.2009.06.047
[9]	Niu, Q., Wang, X. and Lu, L. (2010) A Relaxed Gradient Based Algorithm for Solving Sylvester Equations. Asian Journal of Control, 13, 461-464. https://doi.org/10.1002/asjc.328
[10]	Xie, Y. and Ma, C. (2016) The Accelerated Gradient Based Iterative Algorithm for Solving a Class of Generalized Sylvester-Transpose Matrix Equation. Applied Mathematics and Computation, 273, 1257-1269. https://doi.org/10.1016/j.amc.2015.07.022
[11]	Li, Z., Wang, Y., Zhou, B. and Duan, G. (2010) Least Squares Solution with the Minimum-Norm to General Matrix Equations via Iteration. Applied Mathematics and Computation, 215, 3547-3562. https://doi.org/10.1016/j.amc.2009.10.052
[12]	Song, C., Chen, G. and Zhao, L. (2011) Iterative Solutions to Coupled Sylvester-Transpose Matrix Equations. Applied Mathematical Modelling, 35, 4675-4683. https://doi.org/10.1016/j.apm.2011.03.038
[13]	Al Zhour, Z. and Kiliçman, A. (2007) Some New Connections between Matrix Products for Partitioned and Non-Partitioned Matrices. Computers & Mathematics with Applications, 54, 763-784. https://doi.org/10.1016/j.camwa.2006.12.045
[14]	Wang, W. and Song, C. (2021) Iterative Algorithms for Discrete-Time Periodic Sylvester Matrix Equations and Its Application in Antilinear Periodic System. Applied Numerical Mathematics, 168, 251-273. https://doi.org/10.1016/j.apnum.2021.06.006
[15]	Khalil, I., Doyle, J. and Glover, K. (1996) Robust and Optimal Control. Vol. 2, Prentice Hall.
[16]	Huang, B. and Ma, C. (2022) On the Relaxed Gradient-Based Iterative Methods for the Generalized Coupled Sylvester-Transpose Matrix Equations. Journal of the Franklin Institute, 359, 10688-10725. https://doi.org/10.1016/j.jfranklin.2022.07.051

为你推荐

友情链接