本文提出了一种杂交三阶投影HS-PRP共轭梯度法求解凸约束优化问题并证明了该算法的全局收敛性,该方法是求解无约束优化问题的三阶HS共轭梯度法的推广。数值实验结果表明,该算法是有效的。 In this paper, we propose a hybrid third-term projected HS-PRP conjugate gradient method for solving convex constrained optimization problems and establish its global convergence, which is a generalization of the third-term HS conjugate gradient method for unconstrained optimization. Numerical experimental results show that the algorithm is effective.
本文提出了一种杂交三阶投影HS-PRP共轭梯度法求解凸约束优化问题并证明了该算法的全局收敛性,该方法是求解无约束优化问题的三阶HS共轭梯度法的推广。数值实验结果表明,该算法是有效的。
投影,共轭梯度法,线搜索,全局收敛
Jiaoli Zhou
School of Mathematics and Statistics, Changsha University of Science and Technology, Changsha Hunan
Received: Jul. 15th, 2022; accepted: Aug. 9th, 2022; published: Aug. 18th, 2022
In this paper, we propose a hybrid third-term projected HS-PRP conjugate gradient method for solving convex constrained optimization problems and establish its global convergence, which is a generalization of the third-term HS conjugate gradient method for unconstrained optimization. Numerical experimental results show that the algorithm is effective.
Keywords:Projected, Conjugate Gradient Method, Line Search, Global Convergence
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
自共轭梯度法被提出以来,因其具有良好的收敛性质,且所需存储量小,因此被广泛用于求解大规模无约束优化问题。
共轭梯度法的基本迭代格式如下:
x k + 1 = x k + α k d k ,
d k = { − g k , k = 0 − g k + β k d k , k > 0 ,
其中 α k 为步长因子,由某种线搜索确定; d k 为搜索方向, β k 为共轭参数, g k = ∇ f ( x k ) 。
共轭参数 β k 的经典选取方式有Fletcher-Reeves [
β k F R = ‖ g k ‖ 2 ‖ g k − 1 ‖ 2 , β k P R R = g k T ( g k − g k − 1 ) ‖ g k − 1 ‖ 2 , β k H S = g k T ( g k − g k − 1 ) d k − 1 T ( g k − g k − 1 ) ,
β k D Y = ‖ g k ‖ 2 d k − 1 T ( g k − g k − 1 ) , β k C D = − ‖ g k ‖ 2 g k − 1 T d k − 1 , β k L S = − g k T ( g k − g k − 1 ) g k − 1 T d k − 1 .
其中 ‖ ⋅ ‖ 表示Euclidean范数, y k − 1 = g k − g k − 1 。由于分子不同,可将这六种经典的共轭梯度法分为两类。第一类如FR、CD和DY方法,其共轭参数 β k 有共同的分子 ‖ g k ‖ 2 ,虽然它们具有良好的全局收敛性,但数值表现一般;第二类如PRP、HS和LS方法,其共轭参数 β k 有共同的分子 g k T ( g k − g k − 1 ) ,虽然它们拥有良好的数值表现,但对全局收敛的条件要求较强。为得到数值实验和理论结果都较好的共轭梯度法,许多学者对这些经典方法做了修正 [
2007年,Zhang等人在 [
d k = − g k + β k H S d k − 1 + θ k y k − 1 , θ k = g k T d k − 1 d k − 1 T y k − 1 .
该方法的优点在于:生成的搜索方向 d k 总满足 g k T d k = − ‖ g k ‖ 2 ,即不依赖任何线搜索而具有充分下降性。为了得到TTHS方法在标准Wolf线搜索下的全局收敛性,Zhang等人提出了以下两种算法。一种是截断TTHS方法(CTTHS方法):
d k = { − g k , if s k T y k ≥ ε 1 ‖ g k ‖ r s k T s k , − g k + β k H S d k − 1 + θ k y k − 1 , if s k T y k ≥ ε 1 ‖ g k ‖ r s k T s k ,
其中 ε 1 和 γ 是任意正常数。另一种是改进的TTHS方法(MTTHS方法):
d k = { − g k if k = 0 , − g k + β k M H S d k − 1 − θ k M z k − 1 if k > 0 ,
其中
β k M H S = g k T z k − 1 d k − 1 T z k − 1 , θ k M = g k T d k − 1 d k − 1 T z k − 1 , z k − 1 = y k − 1 + t ‖ g k ‖ γ s k − 1 .
t和 γ 为任意正常数, y k − 1 = g k − g k − 1 , s k − 1 = x k − x k − 1 。
为保证MTTHS方法在修改的Armijo线搜索下的全局收敛性,考虑做如下修改:
d k = { − g k if k = 0 , − g k + β k M H S d k − 1 − θ k M z k − 1 if k > 0 ,
其中
β k M H S = g k T z k − 1 d k − 1 T z k − 1 , θ k M = g k T d k − 1 d k − 1 T z k − 1 , z k = y k + t k s k ,
其中
y k = g k +1 − g k , s k = x k + 1 − x k , r ≥ 0 , t k = 1 + max { − y k T s k ‖ s k ‖ 2 , 0 } .
1990年,Touati-Ahmed和Storey首次引入了杂交共轭梯度法 [
在杂交共轭梯度法的启发下,本文考虑杂交三项HS-PRP共轭梯度法:
d k = { − g k if k = 0 , − g k + β k s k − 1 − θ k z k − 1 if k > 0 ,
其中
β k = g k T z k − 1 max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } , θ k = g k T s k − 1 max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } , z k = y k + t k s k .
其中
y k = g k +1 − g k , s k = x k + 1 − x k , t k = 1 + max { − y k T s k ‖ s k ‖ 2 , 0 } > 0 , μ 为任意正常数。
我们注意到,上述共轭梯度法旨在求解无约束优化问题,该方法并不适合直接用于求解约束优化问题。2021年,Zhou提出了一种求解凸约束优化问题的投影PRP方法 [
本文其余部分组织如下:第二部分详细介绍了求解凸约束优化问题的杂交三阶投影HS-PRP共轭梯度法;第三部分证明该算法的全局收敛性;第四部分给出数值实验结果。
本文的目的是推广求解无约束优化问题的杂交三阶HS-PRP共轭梯度法用于求解以下凸约束优化问题:
min x ∈ Ω f ( x ) . (1)
其中 Ω ⊆ R n 是闭凸集, f ( x ) 为 R n → R 的光滑函数。显然,若 x * 是问题(1)的局部极小点,那么 x * 一定是满足定义2.1的稳定点。
定义2.1. x * ∈ Ω 是问题(1)的稳定点当且仅当: g ( x * ) T ( x − x * ) ≥ 0 , ∀ x ∈ Ω 。
定义2.2. 从 R n 到闭凸集 Ω 的投影算子为:
P Ω = arg min y ∈ Ω ‖ y − x ‖ . (2)
令
r k = P Ω ( x k − g k ) − x k . (3)
显然, x k 是问题(1)的稳定点当且仅当 r k = 0 。
算法1. (杂交三阶投影HS-PRP方法)
步0. 取初始点 x 0 ∈ Ω , δ > 0 , μ > 0 , ρ ∈ ( 0 , 1 ) , 0 < λ min < λ max < ∞ 。选取一个正序列 { η k } 满足: ∑ k = 0 ∞ η k ≤ η < ∞ 。令
d 0 = − g 0 , k : = 0 . (4)
步1. 若 r k = 0 , 则停止计算;否则,转步2。
步2. 按如下公式计算 d k
d k = { − g k if k = 0 , − g k + β k s k − 1 − θ k z k − 1 if k > 0 , (5)
其中
β k = g k T z k − 1 max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } , θ k = g k T s k − 1 max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } , z k = y k + t k s k . (6)
其中
y k = g k +1 − g k , s k = x k + 1 − x k , t k = 1 + max { − y k T s k ‖ s k ‖ 2 , 0 } > 0 . (7)
步3. 计算 α k = max { σ k ρ j , j = 0 , 1 , 2 , ⋯ } 满足:
f ( P Ω ( x k + α k d k ) ) ≤ f ( x k ) − δ ‖ α k d k ‖ 2 + η k , (8)
其中 σ k ∈ [ λ min , λ max ] 。
步4. 令 x k + 1 : = P Ω ( x k + α k d k ) , k : = k + 1 , s k = x k + 1 − x k = P Ω ( x k + α k d k ) − x k ,转步1。
注2.2.
1) 由(3)可知,若 g k = 0 ,则 r k = 0 ,则 x k 是问题(1)的稳定点;
2) 若 max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } = 0 ,则 ‖ g k − 1 ‖ = 0 ,这也就意味着 x k − 1 是问题(1)的稳定点;
3) 由 d k 的定义可知:
d k T g k = − ‖ g k ‖ 2 ; (9)
4) 由投影算子的连续性和 η k > 0 可知线搜索(8)对任意充分小的 α > 0 都成立。线搜索(8)来自文献 [
接下来我们将介绍投影算子的一些重要性质,这些性质对我们后面证明该算法的全局收敛性非常有用。引理2.3和引理2.4来自文献 [
引理2.3. 若 z ∈ Ω ,则有:
( P Ω ( x ) − x ) T ( z − P Ω ( x ) ) ≥ 0 , ∀ x ∈ R n , (10)
‖ P Ω ( x ) − P Ω ( y ) ‖ ≤ ‖ x − y ‖ , ∀ x , y ∈ R n , (11)
引理2.4. 对任意 x ∈ Ω , ‖ P Ω ( x − α g ( x ) ) − x ‖ α 在 α > 0 上非增。
引理2.5. 对任意 x k ∈ Ω 。有:
g k T ( x k − P Ω ( x k − α g k ) ) ≥ ‖ P Ω ( x k − α g k ) − x k ‖ 2 α , ∀ α > 0 , (12)
证明:由(10)和 x k ∈ Ω 可知:
g k T ( x k − P Ω ( x k − α g k ) ) = 1 α ( x k − P Ω ( x k − α g k ) + P Ω ( x k − α g k ) − ( x k − α g k ) ) T ( x k − P Ω ( x k − α g k ) ) = ‖ P Ω ( x k − α g k ) − x k ‖ 2 α + 1 α ( P Ω ( x k − α g k ) − ( x k − α g k ) ) T ( x k − P Ω ( x k − α g k ) ) ≥ ‖ P Ω ( x k − α g k ) − x k ‖ 2 α
证毕。
在这一部分,我们将讨论算法1在以下假设条件下的全局收敛性。首先,我们定义水平集:
Ω 1 = { x | f ( x ) ≤ f ( x 0 ) + η } ∩ Ω , (13)
其中 η 满足(4)。显然 x k ∈ Ω 1 对任意 k ≥ 0 都成立。
假设A.
1) 由(13)定义的水平集 Ω 1 是有界的;
2) 存在 Ω 1 的某些凸邻域N,使得梯度函数 g ( x ) 在 N ∩ Ω 上Lipschitz连续,即存在常数 L > 0 ,使得:
‖ g ( x ) − g ( y ) ‖ ≤ L ‖ x − y ‖ , ∀ x , y ∈ N ∩ Ω (14)
由假设A可知存在常数 M > 0 ,使得:
g ( x ) ≤ M , ∀ x ∈ N ∩ Ω (15)
显然,由线搜索(8)和(4)我们可以得到:
lim k → ∞ α k d k = 0 (16)
引理3.1. 设 { x k } 是由算法1产生的序列且假设A成立,则对任意的 k ≥ 0 ,有:
‖ z k ‖ ≤ ‖ y k ‖ + t k ‖ s k ‖ ≤ ( L + t k ) ‖ s k ‖ . (17)
s k T z k = s k T y k + t k ‖ s k ‖ 2 = { s k T y k + ‖ s k ‖ 2 ≥ ‖ s k ‖ 2 , s k T y k ≥ 0 s k T y k + ‖ s k ‖ 2 − s k T y k = ‖ s k ‖ 2 , s k T y k < 0 . (18)
由(18)可知: s k T z k ≥ ‖ s k ‖ 2 。
引理3.2. 若假设A成立,则存在常数 C > 0 使得:
‖ d k ‖ ≤ C , ∀ k ≥ 0 . (19)
证明:由(5)、(6)、(15)、(17)、(18)可知:
‖ d k ‖ ≤ ‖ g k ‖ + 2 ‖ g k ‖ ‖ z k − 1 ‖ max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } ‖ s k − 1 ‖ ≤ ‖ g k ‖ + 2 ‖ g k ‖ ‖ z k − 1 ‖ s k − 1 T z k − 1 ‖ s k − 1 ‖ ≤ M + 2 M ( L + t k − 1 ) ‖ s k − 1 ‖ ‖ s k − 1 ‖ 2 ‖ s k − 1 ‖ = M + 2 M ( L + t k − 1 )
令 C = M + 2 M ( L + t k − 1 ) 即得(19),证毕。
定理3.3. 设 { x k } 是由算法1产生的序列且假设A成立,则有:
lim inf k → ∞ ‖ r k ‖ = 0 . (20)
证明:反证法,假设结论不成立,则存在常数 τ > 0 使得:
‖ r k ‖ ≥ τ , ∀ k ≥ 0 . (21)
由(21)可知存在常数 ε > 0 ,使得:
‖ g k ‖ ≥ ε , ∀ k ≥ 0 . (22)
否则存在无限子集 K ⊆ { 0 , 1 , 2 , ⋯ } 使得:
lim k ∈ K , k → ∞ ‖ r k ‖ = lim k ∈ K , k → ∞ ‖ P Ω ( x k − g k ) − x k ‖ ≤ lim k ∈ K , k → ∞ ‖ g k ‖ = 0 . (23)
最后一个不等式由(11)和 P Ω ( x k ) = x k 可得,因此上式与(21)矛盾,即(22)成立。
1) 若 lim sup k → ∞ α k > 0 ,由(9)和(16)可得: lim inf k → ∞ ‖ g k ‖ = 0 。这与(22)式矛盾。
2) 若 lim sup k → ∞ α k = 0 ,则存在 α ′ k = α k ρ 不满足不等式(8),即:
f ( P Ω ( x k + α ′ k d k ) ) − f ( x k ) > − δ ‖ α ′ k d k ‖ 2 + η k > − δ ‖ α ′ k d k ‖ 2 . (24)
由拉格朗日中值定理和引理2.5可得:
f ( P Ω ( x k + α ′ k d k ) ) − f ( x k ) α ′ k = g ( ξ k ) T ( P Ω ( x k + α ′ k d k ) − x k ) α ′ k = g k T ( P Ω ( x k − α ′ k g k ) − x k ) α ′ k + ( g ( ξ k ) − g k ) T ( P Ω ( x k + α ′ k d k ) − x k ) α ′ k + g k T ( P Ω ( x k + α ′ k d k ) − P Ω ( x k − α ′ k g k ) ) α ′ k = g k T ( P Ω ( x k − α ′ k g k ) − x k ) α ′ k + Δ k ≤ − ‖ P Ω ( x k − α ′ k g k ) − x k ‖ 2 α ′ k 2 + Δ k ,
其中 ξ k 介于 x k 和 P Ω ( x k + α ′ k d k ) 之间。上述不等式结合(24)可得:
‖ P Ω ( x k − α ′ k g k ) − x k ‖ 2 α ′ k 2 ≤ | Δ k | + δ α ′ k ‖ d k ‖ 2 . (25)
由(11)和(15)可得:
| Δ k | ≤ ‖ g ( ξ k ) − g k ‖ ‖ P Ω ( x k + α ′ k d k ) − x k α ′ k ‖ + ‖ g k ‖ ‖ P Ω ( x k + α ′ k d k ) − P Ω ( x k − α ′ k g k ) α ′ k ‖ ≤ ‖ g ( ξ k ) − g k ‖ ‖ d k ‖ + M ‖ d k + g k ‖ ≤ C ‖ g ( ξ k ) − g k ‖ + M ‖ d k + g k ‖ ,
由(5)、(6)、(11)、(15)、(17)、(22)以及 α k → 0 可得:
lim k → ∞ ‖ d k + g k ‖ ≤ lim k → ∞ 2 ‖ g k ‖ ‖ z k − 1 ‖ max { s k − 1 T z k − 1 , μ ‖ g k − 1 ‖ 2 } ‖ s k − 1 ‖ ≤ lim k → ∞ 2 M ( L + t k − 1 ) ‖ s k − 1 ‖ μ ‖ g k − 1 ‖ 2 ‖ s k − 1 ‖ ≤ lim k → ∞ 2 M ( L + t k − 1 ) ‖ α k − 1 d k − 1 ‖ 2 μ ε 2 = 0 (26)
因此,由 g ( x ) 的连续性和 α ′ k → 0 以及(26)可知: Δ k → 0 。
由(3)、(19)、(25),引理2.4以及 α ′ k → 0 ,我们可以得到:
‖ r k ‖ 2 = ‖ P Ω ( x k − g k ) − x k ‖ 2 ≤ ‖ P Ω ( x k − α ′ k g k ) − x k ‖ 2 α ′ k 2 ≤ | Δ k | + δ α ′ k ‖ d k ‖ 2 → 0 .
这与(21)矛盾,证毕。
在这一部分我们将通过数值实验来验证本文所提出算法的有效性。实验测试在PC机上完成,PC机配置:联想,Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz 3.19GHz,8Gb内存,Windows10操作系统,所有代码用Matlab R2016b编写并运行。
测试对象:函数来自文献 [
f ( x ) = 1 2 ∑ i = 1 n − 1 ( x i − x i − 1 ) 2 + 1 12 ∑ i = 1 n − 1 γ i ( x i − x i − 1 ) 4 + 1 2 x T x .
约束集 Ω = { x | − 10 ≤ x i ≤ 10 , i = 1 , 2 , ⋯ , n } ,其中 γ i ≥ 0 ( i = 1 , 2 , ⋯ , n − 1 ) 为任意常数。
令 γ = [ γ 1 , γ 2 , ⋯ , γ n − 1 ] T 。
测试参数: δ = 0.1 , ρ = 0.1 , μ = 1 , λ max = λ min = 1 , η k = 0.5 k 。
初始点: x 0 = ( − 1.2 , 1 , − 1.2 , 1 ⋯ , − 1.2 , 1 ) T 。
终止条件:迭代次数 k ≥ 500 或 ‖ r k ‖ ∞ ≤ 10 − 5 ,其中 ‖ r k ‖ ∞ 表示迭代终止时 r k 的无穷范数。
采用本文提出的算法与Zhou在文献 [
算法1 | 算法2 | |||||
---|---|---|---|---|---|---|
n | 迭代次数 | ‖ r k ‖ ∞ | 运行时间 | 迭代次数 | ‖ r k ‖ ∞ | 运行时间 |
100 | 59 | 4.8442e−06 | 0.012253 | 61 | 5.6059e−06 | 0.012401 |
500 | 60 | 5.9954e−06 | 0.034103 | 61 | 5.8328e−06 | 0.037267 |
1000 | 61 | 5.7462e−06 | 0.060199 | 66 | 5.5730e−06 | 0.068930 |
1500 | 61 | 5.6193e−06 | 0.086749 | 65 | 4.9437e−06 | 0.093655 |
2000 | 62 | 5.7995e−06 | 0.113949 | 67 | 5.7311e−06 | 0.135631 |
2500 | 62 | 5.6215e−06 | 0.143358 | 69 | 3.3973e−06 | 0.164831 |
3000 | 68 | 5.4984e−06 | 0.211251 | 67 | 5.3184e−06 | 0.235544 |
3500 | 64 | 5.0719e−06 | 0.226145 | 72 | 5.8803e−06 | 0.278549 |
4000 | 65 | 5.5317e−06 | 0.254342 | 64 | 4.8939e−06 | 0.279823 |
5000 | 63 | 5.4201e−06 | 0.323782 | 76 | 5.0309e−06 | 0.410873 |
8000 | 66 | 5.5433e−06 | 0.590516 | 78 | 5.9169e−06 | 0.690034 |
10,000 | 65 | 5.2372e−06 | 0.718816 | 78 | 5.0175e−06 | 0.866920 |
表1. 测试函数中 γ = ( 1 , 2 , ⋯ , n − 1 ) T
算法1 | 算法2 | |||||
---|---|---|---|---|---|---|
n | 迭代次数 | ‖ r k ‖ ∞ | 运行时间 | 迭代次数 | ‖ r k ‖ ∞ | 运行时间 |
100 | 59 | 5.4539e−06 | 0.011914 | 63 | 5.3978e−06 | 0.012365 |
500 | 61 | 5.9797e−06 | 0.034167 | 68 | 5.8648e−06 | 0.040849 |
1000 | 61 | 6.0657e−06 | 0.061715 | 71 | 5.0363e−06 | 0.076477 |
1500 | 62 | 6.0061e−06 | 0.087842 | 70 | 5.5089e−06 | 0.102981 |
2000 | 61 | 5.9748e−06 | 0.111671 | 70 | 5.2283e−06 | 0.133247 |
2500 | 70 | 5.9399e−06 | 0.169478 | 73 | 5.2351e−06 | 0.186600 |
3000 | 66 | 5.8496e−06 | 0.208617 | 77 | 5.7209e−06 | 0.236102 |
3500 | 71 | 6.0309e−06 | 0.278274 | 76 | 5.2187e−06 | 0.30158 |
4000 | 72 | 5.8991e−06 | 0.326091 | 74 | 5.5217e−06 | 0.309192 |
5000 | 63 | 5.9061e−06 | 0.339857 | 73 | 4.3854e−06 | 0.405272 |
8000 | 65 | 5.1095e−06 | 0.541414 | 83 | 4.9824e−06 | 0.75573 |
10,000 | 67 | 5.2209e−06 | 0.708486 | 86 | 5.4213e−06 | 0.959144 |
表2. 测试函数中 γ = 1 n ( 1 2 , 2 2 , ⋯ , ( n − 1 ) 2 ) T
由表1和表2的数据我们可以知道,在迭代次数和运行时间两个方面,本文提出的算法优于 [
本文提出了一种求解凸约束优化问题的杂交三阶投影HS-PRP共轭梯度法,它是求解无约束优化问题的共轭梯度法的推广。利用投影的相关性质,我们证明了该算法在修改的Armijo线搜索下的全局收敛性。数值结果表明,本文所提出的算法较投影PRP算法更优。
周姣利. 凸约束优化问题的杂交三阶投影HS-PRP方法A Hybrid Three-Term Projected HS-PRP Method for Optimization with Convex Constraint[J]. 应用数学进展, 2022, 11(08): 5750-5759. https://doi.org/10.12677/AAM.2022.118607
https://doi.org/10.1093/comjnl/7.2.149
https://doi.org/10.1016/0041-5553(69)90035-4
https://doi.org/10.6028/jres.049.044
https://doi.org/10.1137/S1052623497318992
https://doi.org/10.1007/BF00940464
https://doi.org/10.1080/10556788.2013.811241
https://doi.org/10.1137/030601880
https://doi.org/10.1093/imanum/drl016
https://doi.org/10.1007/s00211-006-0028-z
https://doi.org/10.1016/S0377-0427(00)00540-9
https://doi.org/10.1080/10556780701223293
https://doi.org/10.1007/BF00939455
https://doi.org/10.1023/A:1012930416777
https://doi.org/10.1007/s11075-014-9899-8
https://doi.org/10.1007/s11590-012-0511-7
https://doi.org/10.1007/BF02592073