本文在MBFGS算法的研究基础上,对该算法进行推广,形成了一种新的MBFGS算法。同时,研究了其全局收敛性并给出相关证明。一些数值实验表明,这种改进的MBFGS方法对于给定的测试问题是有效的。对于一些无约束优化问题,新的MBFGS算法平均比单调或传统的非单调格式的BFGS方法使用更少的函数和梯度求值。 Based on the research of MBFGS algorithm, this algorithm is extended to form a new MBFGS algo-rithm. At the same time, its convergence is studied and the relevant proof is given. Some numerical experiments show that the improved MBFGS method is effective for a given test problem. For some unconstrained op-timization problems, the new MBFGS algorithm uses less function and gradient evaluation than the mono-tone or traditional non monotone BFGS method.
本文在MBFGS算法的研究基础上,对该算法进行推广,形成了一种新的MBFGS算法。同时,研究了其全局收敛性并给出相关证明。一些数值实验表明,这种改进的MBFGS方法对于给定的测试问题是有效的。对于一些无约束优化问题,新的MBFGS算法平均比单调或传统的非单调格式的BFGS方法使用更少的函数和梯度求值。
非线性搜索,拟牛顿法,全局收敛性
Yitian Zheng
College of Mathematics and Computational Science, Changsha University and Technology, Changsha Hunan
Received: Jul. 24th, 2022; accepted: Aug. 17th, 2022; published: Aug. 25th, 2022
Based on the research of MBFGS algorithm, this algorithm is extended to form a new MBFGS algorithm. At the same time, its convergence is studied and the relevant proof is given. Some numerical experiments show that the improved MBFGS method is effective for a given test problem. For some unconstrained optimization problems, the new MBFGS algorithm uses less function and gradient evaluation than the mono-tone or traditional non monotone BFGS method.
Keywords:Nonlinear Search, Quasi Newton Method, Global Convergence
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
在本文中,我们考虑以下无约束优化问题:
min f ( x ) , x ∈ R n ,其中 f : R n → R 是一个连续可微函数,其梯度用g表示。单调线搜索方法来解决此问题要求每一次的迭代,目标函数值都要有下降,而非单调线搜索就不需要目标函数值连续下降,非单调线搜索最早是由Grippo [
给定常数a>0, δ , ρ ∈ ( 0 , 1 ) 非负整数M,设定步长 α k = max { a ρ 0 , a ρ 1 , ⋯ } 满足下列不等式:
f ( x k + ρ m a d k ) ≤ max 0 ≤ j ≤ M f ( x k − j ) + δ ρ m a g k T d k
当M = 0时此不等式即变为标准的Armijo线搜索规则,非单调线搜索的一个优点是步长可以尽可能松散地选择,大量的数值实验表明,这种非单调线搜索技术是非常有效的,但也存在一些缺点,首先,由于上述不等式中的最大值函数,在任何迭代中生成的好的函数值基本上被丢弃。其次,在某些情况下,该方法数值性能非常依赖于M的选择,MBFGS [
本文其余部分组织如下:第二部分详细介绍了新的MBFGS方法;第三部分证明该算法的全局收敛性;第四部分给出数值实验结果。
1.给定 x 0 ∈ R n , B 0 = I , δ 1 ∈ ( 0 , 1 ) , δ 2 > 0 , 0 ≤ η min ≤ η max < 1 ≺ ρ , C 0 : = f ( x 0 ) , Q 0 : = 1 , k : = 0
0 ≤ η min ≤ η max ≤ 1 < ρ , η k ∈ [ η min , η max ] , μ > 0
2) 由 B K d + g k = 0 ,计算下降方向 d k ,如果 f ( x k + d k ) ≤ f ( x k ) + δ 1 g k T d k ,取步长 α k = 1 ,否则去步3。
3) 计算步长 α k = α ¯ ρ h k ,其中 h k 是使得下列不等式成立的最大整数:
f ( x k + α k d k ) ≤ C k + δ 1 α k g k T d k − δ 2 ‖ α k d k ‖ 2 , (1.1)
其中 C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 , Q k + 1 = η k Q k + 1 ,
4) 计算 x k + 1 = x k + α k d k
5) 迭代更新: s k = x k + 1 − x k , y k = g k + 1 − g k ,
B k + 1 = B k − B k s k s k T B k s k T B k s k + z k z k T z k T s k , z k = y k + C ‖ g ( x k ) ‖ r s k + max { 0 , − y k T s k ‖ s k ‖ 2 } s k
其中C,r > 0为给定常数。
在这一部分,为了建立起全局收敛性,需要先做以下几个假设 [
1) 水平集 Ω = { x ∈ R n | f ( x ) ≤ f ( x 0 ) } 是有界的。
2) 在 Ω 的某些邻域N里,f是连续可微的且其导数Lipschitz连续 [
3) 假定存在正的常数 c 1 , c 2 使得 g k T d k ≤ − c 1 ‖ g k ‖ 2 , ‖ d k ‖ ≤ c 2 ‖ g k ‖ (2.1)
引理1:假定假设2,3成立,如果 α k 是满足(1.1)的步长,那么存在一个常数c大于0使得对每个k,都有下列不等式成立:
α k ≥ min { μ ρ , c | g k T d k | ‖ d k ‖ 2 } (2.2)
证明:我们将从两个方面来证明。
情况一: ρ α k ≥ μ ,那么就有 α k ≥ μ ρ 则(2.2)成立
情况二: ρ α k < μ 在此种情况下,很明显对于获得的步长 ρ α k 不满足(1.1),因此,则有:
f ( x k + ρ α k d k ) > C k + δ 1 ρ α k g k T d k − δ 2 ‖ ρ α k d k ‖ 2 ≥ f ( x k ) + δ 1 ρ α k g k T d k − δ 2 ‖ ρ α k d k ‖ 2 (2.3)
又由于中值定理,存在 θ k ∈ ( 0 , 1 ) 使得:
f ( x k + ρ α k d k ) − f ( x k ) = ρ α k g ( x k + θ k ρ α k d k ) T d k = ρ α k g k T d k + ρ α k ( g ( x k + θ k ρ α k d k ) − g k ) T d k ≤ ρ α k g k T d k + L ρ 2 α k 2 ‖ d k ‖ 2 (2.4)
联立(2.3),(2.4),则有:
ρ α k g k T d k + L ρ 2 α k 2 ‖ d k ‖ 2 ≥ δ 1 ρ α k g k T d k − δ 2 ρ 2 ‖ α k d k ‖ 2
( L + δ 2 ) ρ α k ‖ d k ‖ 2 ≥ ( δ 1 − 1 ) g k T d k
α k ≥ ( δ 1 − 1 ( L + δ 2 ) ρ ) g k T d k ‖ d k ‖ 2 (2.5)
其中 c = δ 1 − 1 ( L + δ 2 ) ρ 。
引理2:
lim k → ∞ inf ‖ g k ‖ = 0 ,如果 η max < 1 ,那么 lim k → ∞ g k = 0 。
证明:首先需证明:
f k + 1 ≤ C k − β ‖ g k 2 ‖ , (2.5.2)
情况1: α k ≥ μ ρ
由(2.1)有:
f k + 1 ≤ C k + δ 1 α k g k T d k − δ 2 ‖ α k d k ‖ 2 ≤ C k − δ 1 α k c 1 ‖ g k ‖ 2 − δ 2 c 2 2 ‖ α k g k ‖ 2 ≤ C k − δ 1 μ c 1 ‖ g k ‖ 2 ρ − δ 2 c 2 2 μ 2 ‖ g k ‖ 2 ρ = C k − μ ( δ 1 c 1 ρ + δ 2 c 2 2 μ ) ρ 2 ‖ g k ‖ 2
于是得证。
情况2:
ρ α k < μ 则由(2.5)有 α k ≥ ( δ 1 − 1 ( L + δ 2 ) ρ ) g k T d k ‖ d k ‖ 2 。
则由(2.1)和(1.1)
f k + 1 ≤ C k + δ 1 α k g k T d k − δ 2 ‖ α k d k ‖ 2 有:
f k + 1 ≤ C k + δ 1 ( δ 1 − 1 ) ( L + δ 2 ) ρ ( g k T d k ‖ d k ‖ ) 2 − δ 2 ( δ 1 − 1 ( L + δ 2 ) ρ ) 2 ( | g k T d k | ) 2 ‖ d k ‖ 2 ≤ C k + δ 1 ( δ 1 − 1 ) ( L + δ 2 ) ρ c 1 2 c 2 2 ‖ g k ‖ 2 − δ 2 ( δ 1 − 1 ( L + δ 2 ) ρ ) 2 c 1 2 c 2 2 ‖ g k ‖ 2 = C k + [ δ 1 ( δ 1 − 1 ) ( L + δ 2 ) ρ − δ 2 ( δ 1 − 1 ( L + δ 2 ) ρ ) 2 ] c 1 2 c 2 2 ‖ g k ‖ 2
于是(2.5.2)得证。
由(1.2):
C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 , Q k + 1 = η k Q k + 1
又 f k + 1 ≤ C k − β ‖ g k ‖ 2 有:
C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 ≤ η k Q k C k + C k − β ‖ g k ‖ 2 Q k + 1 = C k − β ‖ g k ‖ 2 Q k + 1 (2.6)
由于f有下界且由 [
f k ≤ C k ≤ A k ,我们可以得出 C k 有下界的结论,
由(2.6)可得 ∑ k = 0 ∞ ‖ g k ‖ 2 Q k + 1 < ∞ 。如果 ‖ g k ‖ 在0附近则将违背此式,
因为由 [
Q k + 1 ≤ k + 2 ,于是 lim k → ∞ inf ‖ g k ‖ = 0 成立。
如果 η max < 1 ,那么由 [
Q k + 1 = 1 + ∑ j = 0 k ∏ i = 0 j η k − i ≤ 1 + ∑ j = 0 k η max j + 1 ≤ ∑ j = 0 k η max j = 1 1 − η max
因此 lim k → ∞ g k = 0 成立
于是得证。
实验环境:
硬件:R5 4600CPU、1650ti图形卡;
软件:VMware、Ubuntu系统、Matlab2016软件;
所有代码通过Matlab编程 [
相关参数取值如下:
δ 1 = δ 2 = 0.1 , ρ = 0.4 , C = 10 − 6 , r = 2
通过选取一些问题 [
通过以上实验数据可以看出,相同的无约束优化问题在使用我们的新算法进行计算时,取得了较好的数值结果,和BFGS [
在适当条件下我们证明了这个新的算法对于一些非凸函数具有全局收敛性一些得出的数值结果也表明,相较于传统的单调线搜索,我们这种新的非单调线搜索在数值性能上具有更好的表现。
郑轶天. 一种新的MBFGS算法A New MBFGS Algorithm[J]. 应用数学进展, 2022, 11(08): 5981-5985. https://doi.org/10.12677/AAM.2022.118630
https://doi.org/10.1137/0723046
https://doi.org/10.1137/S1052623403428208
https://doi.org/10.1016/j.cam.2007.07.008
https://doi.org/10.1016/j.cam.2007.12.011
https://doi.org/10.1145/355934.355936
https://doi.org/10.1137/0726042
https://doi.org/10.1023/A:1013653923062
https://doi.org/10.1137/S0036142998335704
https://doi.org/10.1137/S1052623401383455
https://doi.org/10.1007/BF00940345