设为首页
加入收藏
期刊导航
网站地图
首页
期刊
数学与物理
地球与环境
信息通讯
经济与管理
生命科学
工程技术
医药卫生
人文社科
化学与材料
会议
合作
新闻
我们
招聘
千人智库
我要投稿
办刊
期刊菜单
●领域
●编委
●投稿须知
●最新文章
●检索
●投稿
文章导航
●Abstract
●Full-Text PDF
●Full-Text HTML
●Full-Text ePUB
●Linked References
●How to Cite this Article
AdvancesinAppliedMathematics
A^
ê
Æ
?
Ð
,2022,11(12),9026-9038
PublishedOnlineDecember2022inHans.//www.abtbus.com/journal/aam
https://doi.org/10.12677/aam.2022.1112952
˜
«
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
ÁÁÁ
???
]]]
1
§§§
XXX
[[[
2
∗
1
ú
ô
“
‰
Œ
Æ1
•
Æ
§
ú
ô
7
u
2
ú
ô
“
‰
Œ
Æ
§
ú
ô
7
u
Â
v
F
Ï
µ
2022
c
11
26
F
¶
¹
^
F
Ï
µ
2022
c
12
21
F
¶
u
Ù
F
Ï
µ
2022
c
12
29
F
Á
‡
Ã
õ
Å
ì
Æ
S
.
Ô
ö
L
§
Œ
±
8
(
•
¦
)
˜
‡
`
z
¯
K
§
D
Ú
F
Ý
e
ü
Ž
{
9
Ù
C
«
Â
ñ
„
Ý
¿Ø
U
4<
÷
¿
"
©
3
‘
Å
•
~
F
Ý
Ž
{
Ä
:
þ
§
(
Ü
g
·
A
Æ
S
Ç
Ú
Ý
•
›
A
:
§
¿
|
^
1
þ
g
Ž
§
À
Œ
1
þ
“
O
Ü
?
1
Û
F
Ý
O
Ž
§
À
1
þ
?
1
ë
ê
S
“
•
#
§
J
Ñ
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
§
¿
é
Ž
{
Â
ñ
5
?
1
`
²
"
Ï
L
Ä
u
MNIST
ê
Š
¢
§
y
T
Ž
{
k
5
§
¿
&
Ä
Ñ
¢
ë
ê
é
Ž
{
-
½
5
K
•
"
'
…
c
Å
ì
Æ
S
§
g
·
A
Æ
S
Ç
§
Ý
•
›
§
1
þ
§
‘
Å
•
~
F
Ý
{
AnAdaptiveandMomentalBoundMethod
forStochasticVarianceReducedGradient
GuiyongZhu
1
,JialinLei
2
∗
1
XingzhiCollege,ZhejiangNormalUniversity,JinhuaZhejiang
2
ZhejiangNormalUniversity,JinhuaZhejiang
Received:Nov.26
th
,2022;accepted:Dec.21
st
,2022;published:Dec.29
th
,2022
∗
Ï
Õ
Š
ö
"
©
Ù
Ú
^
:
Á
?
]
,
X
[
.
˜
«
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
[J].
A^
ê
Æ
?
Ð
,2022,11(12):9026-9038.
DOI:10.12677/aam.2022.1112952
Á
?
]
§
X
[
Abstract
Thetrainingprocessofmanymachinelearningmodelscanbereducedtosolvingan
optimizationproblem,andtheconvergencespeedofthetraditionalgradientdescent
algorithmanditsvariantsisnotsatisfactory.Inthispaper,basedonthestochas-
ticvariancereductiongradientalgorithm,wecombinethecharacteristicsofadaptive
learningrateandmomentlimitation,andusethebatchideatoselectlargebatch
samplesinsteadofallsamplesforthecalculationofglobalgradient,andselectsmall
batch samples for the iterative update of parameters, then propose the batch adaptive
variancereductionalgorithmwithmomentlimitation,andillustratetheconvergence
ofthealgorithm.Theeffectiveness ofthealgorithmis verified throughMNIST-based
numericalexperiments,andtheinfluenceoftheexperimentalparametersonthesta-
bilityofthealgorithmisexplored.
Keywords
MachineLearing,AdaptiveLearningRate,MomentalBound,Mini-Batch,SVRG
Copyright
c
2022byauthor(s)andHansPublishersInc.
This work is licensed undertheCreative Commons Attribution InternationalLicense(CCBY4.0).
http://creativecommons.org/licenses/by/4.0/
1.
Ú
ó
•
Ä
X
e
Ã
å
4
z
¯
K
[1]
min
P
(
w
)
,P
(
w
) =
1
n
n
X
i
=1
ψ
i
(
w
)
,
(1)
Ù
¥
ψ
i
:
R
d
→
R,i
=1
,...n.
ù
«
.
3
Å
ì
Æ
S
¯
K
¥
š
~
Ê
H
,
'
X
3
k
i
Ò
Æ
S
¥
,
n
L
«
ê
þ
,
ψ
i
L
«
©
a
½£
8
.
¥
~
i
›
”
¼
ê
.
é
u
±
þ
8
I
¼
ê
,
Ï
~
¦
^
F
Ý
e
ü
•{
?
1
¦
)
[2–5],
F
Ý
e
ü
k
n
«
C
N
,
©
O
´
F
Ý
e
ü
Ž
{
!
‘
Å
F
Ý
e
ü
Ž
{
Ú
1
þ
‘
Å
F
Ý
e
ü
Ž
{
,
Ù
Ø
Ó
ƒ
?
3
u
¦
^
õ
5
DOI:10.12677/aam.2022.11129529027
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
O
Ž
8
I
¼
ê
F
Ý
,
Š
â
ê
þ
Ø
Ó
,
3
ë
ê
•
#
O
(
5
Ú
‰
1
•
#
¤
I
ž
m
ƒ
m
?
1
ï
.
F
Ý
e
ü
Ž
{
[6]
I
‡
O
Ž¤
k
F
Ý
5
?
1
S
“
•
#
,
U
¼
4
Ð
F
Ý
e
ü
•
•
¿
J
ø
•
ª
Â
ñ
„
Ý
y
.
FGD
Ø
U
3
‚
•
#
.
,
=
Ø
U
|
^
Ä
~
f
,
Ù
•
#
5
K
X
e
w
t
=
w
t
−
1
−
α
t
n
n
X
i
=1
∇
ψ
i
(
w
t
−
1
)
.
(2)
FGD
3
¡
é
Œ
ê
â
8
ž
¬
Ñ
y
P
{
O
Ž
œ
¹
,
Ï
•
§
3
•
z
‡
ë
ê
•
#
ƒ
c
Ñ
¬
é
ƒ
c
ƒ
Ó
-
#
O
Ž
,
‘
Å
F
Ý
e
ü
Ž
{
[7](StochasticGradientDescent,SGD)
z
g
•
I
‡
À
ü
‡
O
Ž
C
q
F
Ý
‰
1
ë
ê
•
#
5
ž
Ø
ù
«
P
{
w
t
=
w
t
−
1
−
α
t
∇
ψ
i
t
(
w
t
−
1
)
,
(3)
SGD
O
Ž
¤
=
•
FGD
1
/n
,
Ó
ž
•
Œ
^u
3
‚
Æ
S
,
d u
À
‘
Å
5
Ú
\
•
,
—
8
I
¼
ê
3
Â
ñ
L
§
¥
Ñ
y
ì
Å
Ä
.
‘
Ñ
y
U
?
1
þ
‘
Å
F
Ý
e
ü
Ž
{
[8](Mini-BatchStochasticGradientDescent,
Mini-BatchSGD)
w
t
=
w
t
−
1
−
α
t
|B|
X
i
∈|B|
∇
ψ
i
(
w
t
−
1
)
,
(4)
(4)
ª
¿
©
(
Ü
F
Ý
e
ü
Ž
{
Ú
‘
Å
F
Ý
e
ü
Ž
{
A
:
,
=
3
z
g
ë
ê
•
#
ž
l
¥
‘
Å
À
Ü
©
?
1
F
Ý
O
,
3
˜
½
§
Ý
þ
Q
y
F
Ý
e
ü
•
•
,
q
ü
$
‘
Å
À
•
.
ƒ
u
F
Ý
e
ü
ó
,
1
þ
‘
Å
F
Ý
e
ü
•
U
‘
?
Œ
5
Å
ì
Æ
S
?
Ö
‡
¦
,
E,
‘
ÖØ
Ù
Â
ñ
„
Ý
…
ú
"
:
.
(4)
ª
¿
©
(
Ü
F
Ý
e
ü
Ž
{
Ú
‘
Å
F
Ý
e
ü
Ž
{
A
:
,
=
3
z
g
ë
ê
•
#
ž
l
¥
‘
Å
À
Ü
©
?
1
F
Ý
O
,
3
˜
½
§
Ý
þ
Q
y
F
Ý
e
ü
•
•
,
q
ü
$
‘
Å
À
•
.
ƒ
u
F
Ý
e
ü
ó
,
1
þ
‘
Å
F
Ý
e
ü
•
U
‘
?
Œ
5
Å
ì
Æ
S
?
Ö
‡
¦
,
E,
‘
ÖØ
Ù
Â
ñ
„
Ý
…
ú
"
:
.
C
c
5
,
‘
Å
F
Ý
e
ü
Ž
{
®
¤
•
Å
ì
Æ
S
A
O
´
Ý
Æ
S
:
,
‘
X
é
F
Ý
e
ü
•
•
Ú
S
“
Ú
•
Ø
ä
&
¢
,
Å
ì
Z
y
Ñ
N
õ
Ä
u
SGD
U
?
Ž
{
.Momentum
Ž
{
[9]
3
D
Ú
‘
Å
F
Ý
e
ü
Ž
{
Ä
:
þ
V
\
Ä
þ
‘
,
Ä
u
F
ÝÄ
þ\
È
g
Ž
¿
(
Ü
{
¤
F
Ý
¦
^
•
ê
\
£
Ä
²
þ
5
k
;
•
,
\
„
%
C
•
`
)
,Nesterov
\
„
F
Ý
Ž
{
[10,11]
K
´
3
Momentum
Ž
{
Ä
:
þ
é
F
Ý
‘
ë
ê
‰
˜
g
S
“
•
#
.
3
F
Ý
e
ü
L
§
¥
,
du`
z
ë
ê
é
8
I
¼
ê
•
6
ˆ
Ø
ƒ
Ó
,
Ù
ð
½
Æ
S
Ç
¬
—
ë
ê
S
“
Ñ
y
F
Ý
u
Ñ
½
ö
Â
ñ
…
ú
¯
K
,
•
d
•
Ä
`
z
Ž
{
U
Ä
g
·
A
/N
!
Æ
S
Ç
Œ
.
g
·
A
F
Ý
{
[12](AdaptiveGradient,AdaGrad)
Ï
L
Å
Ú
Ú
•
5
Æ
S
;
þ
•
Š
D
Â
{
[13](Root
DOI:10.12677/aam.2022.11129529028
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
MeanSquarePropagation,RMSprop)
ò
Æ
S
Ç
©
)
¤
²
•
F
Ý
•
ê
P
~
²
þ
5
›
›
AdaGrad
Ž
{
Æ
S
Ç
e
ü
L
¯
¯
K
;
g
·
A
Ý
O
{
[14](AdaptiveMomentEstimation,Adam)
Œ
±
w
Š
Momentum
Ž
{
Ú
RMSProp
Ž
{
(
Ü
N
,
|
^
F
Ý
˜
Ý
Ú
Ý
O
5
é
Æ
S
Ç
?
1
å
;
g
·
A
Ý
•
›
{
[15](AdaptiveMomentalBound,AdaMod)
^
•
Ï
P
Á
•
›
L
p
Æ
S
Ç
,
ü
$
Adam
Ž
{
é
Æ
S
Ç
¯
a
5
.
,
‘
Å
F
Ý
e
ü
Ž
{
3
‘
Å
)
•
¿
‘
X
S
“g
ê
O
\
Ø
ä
\
È
,
?
Ã
{
ˆ
‚
5
Â
ñ
.
•
d
,
ï
Ä
ö
‚
J
Ñ
˜
X
Ä
u
•
~
‘
Å
e
ü
Ž
{
,
~
X
‘
Å
²
þ
F
Ý
e
ü
{
[16](StochasticAverageGradient,SAG)
±
/
#
F
Ý
“
O
Î
F
Ý
0
•
ª
,
¿
©
•
Ä
{
¤
F
Ý
…
ˆ
~
O
Ž
þ
8
;
‘
Å
é
ó
‹
I
þ
,
{
[17](StochasticDualCoordinate
Ascent,SDCA
¤
3
ë
ê
•
#
L
§
¥
•;
é
ó
C
þ
,
ü
$
F
Ý
•
\
„
Â
ñ
;
‘
Å
•
~
Ž
{
[18]
(StochasticVarianceReductionGradient,SVRG
¤
Ù
Ø
%
g
Ž
´
|
^
Û
F
Ý
&
E
^u
.
•
#
F
Ý
?
1?
,
n
Ø
©
Û
L
²
,
ù
A
«
•{
3
A
½
^
‡
e
Ñ
U
~
•
¿
ˆ
‚
5
Â
ñ
.
©
1
2
Ü
©
Ä
u
g
·
A
Æ
S
Ç
Ž
{
ÚÚ
•
~
Ž
{
Ä
:
þ
,
J
Ñ
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
(AnAdaptiveandMomentalBoundMethodforStochasticVarianceReduced
Gradient,AmbSVRG),
(
Ü
g
·
A
Æ
S
Ç
Ú
Ý
•
›
A
:
,
¿
|
^
1
þ
g
Ž
é
ë
ê
?
1
S
“
•
#
;
1
3
Ü
©
‰
Ñ
Ž
{
Â
ñ
5
©
Û
;
1
4
Ü
©
Ä
u
MNIST
ê
â
8
é
Ž
{
k
5
?
1
y
,
X
&
Ä
Ñ
¢
ë
ê
é
Ž
{
-
½
5
K
•
;
1
5
Ü
©
‰
Ñ
©
o
(
.
2.
Ž
{
0
2.1.
g
·
A
Æ
S
Ç
Ž
{
3
F
Ý
e
ü
L
§
¥
À
˜
‡
Ü
·
Æ
S
Ç
´
é
(
J
,
L
Æ
S
Ç
¬
—
Â
ñ
…
ú
,
L
Œ
Æ
S
Ç
¬
—
ë
ê
¬
3
•
Š
N
C
Å
Ä
½
u
Ñ
,
,
3
¡
é
Ø
Ó
ê
â
8
ž
,
A
À
Ø
Ó
Æ
S
Ç
l
·
A
ê
â
8
A
,
3
F
Ý
e
ü
Ž
{
L
§
¥
,
¤
k
ë
ê
•
#
Ñ
¦
^
´
ð
½
Æ
S
Ç
,
d
u
z
‡
ë
ê
•
#
ž
Â
ñ
„
ÝÑ
Ø
¦
ƒ
Ó
,
I
‡
Š
â
ë
ê
Â
ñ
œ
¹
©
O
˜
Ø
Ó
Æ
S
Ç
,
l
ˆ
é
Ž
{
\
„
8
.
é
u
½
Ú
•
ë
ê
•
#
ú
ª
•
w
t
=
w
t
−
1
−
αg
t
.
é
½
Ú
•
,AdaGrad
ò
z
g
•
#
F
Ý
\
\
,
¦
Æ
S
Ç
·
A
ë
ê
,
é
D
Õ
ê
â
8
‰
1
Œ
•
#
!
é
È
—
ê
â
8
‰
1
•
#
w
t
=
w
t
−
1
−
α
√
G
t
+
g
t
,
C
þ
G
t
•;
{
¤
F
Ý
²
•
Ú
,
´
•
“
Ž
©
1
•
0,
Ï
L
é
Æ
S
Ç
¦
±
ù
˜
‡
©
1
‘
5
?
U
z
‡
ë
ê
S
“
L
§
¥
Æ
S
º
Ý
,
l
ž
Ø
Ã
ÄN
Æ
S
Ç
I
‡
.
AdaGrad
Ž
{
Ì
‡
"
:
DOI:10.12677/aam.2022.11129529029
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
´
du
z
˜
‘
G
t
Ñ
´
,
©
1
¬
‘
X
Ô
ö
L
§
Ø
ä
O
\
,
‡
L
5
—
Æ
S
Ç
5
ª
C
u
0,
l
ªŽ
S
“
.
•
)û
AdaGrad
Æ
S
Ç
:
ì
e
ü
¯
K
,RMSProp
Ú
\
•
ê
\
²
þ
ê
E
g
2
t
=
βE
g
2
t
−
1
+(1
−
β
)
g
2
t
,
w
t
=
w
t
−
1
−
η
p
E
[
g
2
]
t
+
g
t
,
Ù
¥
β
•
•
ê
P
~
X
ê
,AdaGrad
¥
F
Ý
²
•
Ú
•
†
¤
F
Ý
²
•
P
~
²
þ
Ï
"
.
Adam
Ó
ž
¼
AdaGrad
Ú
RMSProp
`
:
,Adam
Ø
=
X
RMSProp
@
Ä
u
˜
Ý
O
Ž
·
A
5
ë
ê
Æ
S
Ç
,
§
Ó
ž
„
¿
©
|
^
F
Ý
Ýþ
Š
.
ä
N
L
«
•
m
t
=
β
1
m
t
−
1
+(1
−
β
1
)
g
t
,
v
t
=
β
2
v
t
−
1
+(1
−
β
2
)
g
2
t
,
Ù
¥
m
t
Ú
v
t
´
F
Ý
˜
Ý
Ú
Ý
O
,
du
§
‚
Ð
Ï
¬
k
e
é
Ä
¯
K
,
¤
±
I
‡
é
§
‚
‰
˜
?
ˆ
m
t
=
m
t
1
−
β
t
1
,
ˆ
v
t
=
v
t
1
−
β
t
2
,
¦
^
ù
ë
ê
5
S
“
•
#
Adam
•
#
5
K
w
t
=
w
t
−
1
−
α
√
ˆ
v
t
+
ˆ
m
t
.
¦
+
g
·
A
Æ
S
Ç
•{
3
N
õ
œ
¹
e
Ñ
é
É
•
H
,Adam
•
@
•
´
Ý
Æ
S
µ
e
¥
¦
^
%
@
Ž
{
,
§
E,
¬
‘
-
½
5
¯
K
µ
Ø
-
½
Ú
4
à
Æ
S
Ç
.AdaMod
æ
^
Ä
>
.
5
•
›
4
à
Æ
S
„
Ç
,
3
Ô
ö
Ó
ž
O
Ž
g
·
A
Æ
S
Ç
•
ê
•
ϲ
þ
Š
,
¿
¦
^
T
²
þ
Š
5
?
}
Ô
ö
L
§
¥
L
p
Æ
S
Ç
η
t
=
α
t
/
p
ˆ
v
t
+
,
S
t
=
β
3
S
t
−
1
+(1
−
β
3
)
η
t
,
ˆ
η
t
= min(
η
t
,s
t
)
,
Ï
L
1
‡
•
§
½
Â
c
²
w
Š
ÚL
/
•
Ï
P
Á
0
'
X
.
w
,
,
β
3
=0
ž
,AdaMod
d
u
Adam,
3
O
Ž
Ñ
c
²
w
Š
,
3
§
Ú
c
Adam
Ž
Ñ
Æ
S
Ç
η
t
¥
À
Ñ
˜
‡
•
Š
,
l
;
•
Ñ
y
L
p
Æ
S
Ç
œ
¹
.
du
SGD
‘
Å
5
Ú
\
•
¦
SGD
3
½
Ú
•
œ
¹
e
•
U
ˆ
g
‚
5
Â
ñ
„
Ý
,
©
z
3
[18]
•
Ñ
,
‘
Å
Ž
{
°
Ý
Ú
æ
•
¤
ƒ
'
,
•
ª
u
0
ž
,
Ž
{
•
¬
•
0.
X
Û
3
‘
Å
Ž
{
¥
~
‘
Å
F
Ý
•
,
ò
SGD
‰
Ú
F
Ý
e
ü
˜
‚
5
Â
ñ
Q
?
ï
Ä
ö
‚
q
J
Ñ
˜
a
•
~
Ž
{
.
DOI:10.12677/aam.2022.11129529030
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
2.2.
•
~
Ž
{
C
c
5
,
Ä
u
•
~
‘
Å
F
Ý
e
ü
Ž
{
¤
•
`
z
Ž
{
ï
Ä
¥
9
:
¯
K
,
ï
Ä
ö
‚
ƒ
U
J
Ñ
SAG
Ú
SDCA
ƒ
'
Ž
{
,
Ù
¥
SAG
Ž
{
•
#
5
K
•
d
=
d
−
y
i
+
∇
ψ
i
(
w
)
,
w
t
=
w
t
−
1
−
α
n
d.
SAG
3
S
•
¥
•
z
‡
‘
o
˜
‡
Î
F
Ý
,
‘
Å
À
J
˜
‡
5
•
#
ë
ê
d
,
•
#
‘
¥
d
´
^
#
F
Ý
O
†
Î
F
Ý
,
¤
±
z
g
O
Ž
¥•
I
‡
9
ü
‡
F
Ý
.SDCA
Ÿ
þ
Ï
L
E
é
ó
C
þ
?
1
•
~
,
•
ì
é
ó
C
þ
w
Ú
é
ó
C
þ
α
ƒ
m
'
X
,
w
•
#
Œ
±
L
«
¤
w
t
=
w
t
−
1
−
γ
(
∇
f
j
(
w
t
−
1
)+
λnα
k
j
)
,
‘
X
S
“
?
1
,(
w,α
)
ò
¬
Â
ñ
(
w
∗
,α
∗
),
u
´
(
∇
f
j
(
w
)+
λnα
j
)
→
0,
∇
f
j
(
w
)+
λnα
j
•
•
¬
ª
C
u
0.
ù
Ò
ˆ
•
~
8
.
ù
ü
«
Ž
{
Ñ
U
ˆ
‚
5
Â
ñ
„
Ý
,
3
ë
ê
•
#
L
§
¥
Ñ
‡
¦
•;
Ü
F
Ý
£
½
é
ó
C
þ
¤
,
é
S
•
˜
m
ä
k
˜
½
‡
¦
.SVRG
Ž
Ñ
SAG
Ú
SDCA
é
Œ
þ
•;
˜
m
I
¦
¯
K
˜
µ
=
1
n
n
X
i
=1
∇
ψ
i
(˜
w
)
,
w
t
=
w
t
−
1
−
α
(
∇
ψ
it
(
w
t
−
1
)
−∇
ψ
it
(˜
w
)+˜
µ
)
.
Ù
Ø
%
g
Ž
´
|
^
Û
F
Ý
&
E
é
ë
ê
S
“
•
#
¥
F
Ý
?
1?
,
z
²
{
˜
Ó
S
Ì
‚
O
Ž
˜
g
Û
F
Ý
,
z
g
•
#
•
õ
O
Ž
ü
g
F
Ý
.
3
SGD
Â
ñ
5
©
Û
¥
I
‡
b
F
Ý
•
´
k
~
ê
þ
.
,
,
´
Ï
•
ù
‡
þ
.
—
SGD
Ã
{
‚
5
Â
ñ
,
SVRG
|
^
A
Ï
F
Ý
•
#
‘
¦
•
k
˜
‡
Œ
±
Ø
ä
~
þ
.
,
l
ˆ
ü
$
•
8
,
Ï
d
•
Ò
‰
‚
5
Â
ñ
.
1
þ
‘
Å
•
~
F
Ý
Ž
{
[19]
£
BatchingSVRG
¤
|
^
Ü
©
F
Ý
C
q
Û
F
Ý
,
3
˜
½
§
Ý
þ
ü
$
SVRG
O
Ž
þ
.SVRG
Ú
BatchingSVRG
3
S
“
L
§
¥
Ñ
¦
^
½
Æ
S
Ç
?
1
`
z
¦
)
,
À
J
·
Ü
Æ
S
Ç
é
`
z
Ž
{
–
'
-
‡
.
d
,
þ
˜
g
S
“
ë
ê
l
c
S
“
ë
ê
å
l
,
c
ë
ê
l
•
`
Š
?
C
ž
,SVRG
Ú
BatchingSVRG
q
¬
L
õ/
|
^
{
¤
F
Ý
&
E
Š
é
c
F
Ý
e
ü
•
•
?
1?
,
—
Ž
{
3
•
`
Š
?
,
ü
$
Ž
{
Â
ñ
„
Ý
.
é
u
æ
^
½
Æ
S
Ç
ÚL
Ý
|
^
{
¤
F
Ý
&
E
¯
K
,
©
Ä
u
SVRG,
Š
â
F
Ý
˜
Ý
Ú
Ý
O
,
O
Ž
Ø
Ó
ë
ê
e
‡
N
g
·
A
Æ
S
„
Ç
,
J
Ñ
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
(AnAdaptiveandMomentalBoundMethodforStochasticVarianceReducedGradient,
AmbSVRG).
2.3.AmbSVRG
Ž
{
é
u
¯
K
(1),
©
ò
AdaMod
¥
˜
Ú
Ý
O
†
BatchingSVRG
¥
F
Ý
•
#
•
ª
‰
(
DOI:10.12677/aam.2022.11129529031
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
Ü
,
J
Ñ
‘
Ý
•
›
1
þ
g
·
A
•
~
Ž
{
.
AmbSVRG
Ž
{
:
Ñ
\
µ
Û
Æ
S
Ç
α
t
,
•
#
ª
Ç
m
,
Ä
þ
X
ê
β
1
,
β
2
,
β
3
∈
[0
,
1);
Ú
0
µ
Ð
©
z
˜
w
0
= 0,
m
0
= 0,
v
0
= 0,
s
0
= 0;
Ú
1
µ
é
Ì
‚
s
= 1
,
2
...T
,
-
˜
w
=˜
w
s
−
1
;
Ú
2
µ
À
J
Û
F
Ý
•
#
1
þ
º
€Œ
|
B
s
|
=
B
,
O
Ž
Û
F
Ý
:˜
µ
=
1
B
P
B
i
=1
∇
ψ
i
(˜
w
);
Ú
3
µ
-
w
0
=˜
w
,
s
:=
s
+1;
Ú
4
µ
é
S
Ì
‚
t
= 1
,
2
,...m
,
À
J
ë
ê
•
#
1
þ
º
€Œ
|
B
t
|
=
b
,
O
Ž
F
Ý
‘
:
g
t
=
1
b
P
b
i
=1
[
∇
ψ
i
(
w
t
−
1
)
−∇
ψ
i
(˜
w
)]+˜
µ
;
Ú
5
µ
O
Ž
˜
Ý
Ú
Ý
:
m
t
=
β
1
m
t
−
1
+(1
−
β
1
)
g
t
,v
t
=
β
2
v
t
−
1
+(1
−
β
2
)
g
2
t
;
Ú
6
µ
?
1
?
:ˆ
m
t
=
m
t
1
−
β
t
1
,
ˆ
v
t
=
v
t
1
−
β
t
2
;
Ú
7
µ
é
•
#
‘
?
1
•
ê
\
²
þ
,
•
›
L
p
Æ
S
Ç
:
η
t
=
α
t
/
√
ˆ
v
t
+
,S
t
=
β
3
S
t
−
1
+(1
−
β
3
)
η
t
,
ˆ
η
t
= min(
η
t
,s
t
);
Ú
8
µ
ë
ê
S
“
•
#
:
w
t
=
w
t
−
1
−
ˆ
η
t
ˆ
m
t
;
Ú
9
µ
-
t
:=
t
+1
,
e
t
=
Ú
4,
e
t
=
m
=
Ú
1.
3
AmbSVRG
Ž
{
¥
,
Ú
2
(
Ü
BatchingSVRG
Ž
{
¥
1
þ
g
Ž
,
^
Ü
©
O
Ž
F
Ý
C
q
Û
F
Ý
,
3
˜
½
^
‡
e
,
U
~
Ž
{
O
Ž
þ
,
\
¯
Â
ñ
;
3
Ú
4
¥
,
ò
1
þ
g
Ž
K
\
SVRG
F
Ý
•
#
5
K
¥
é
F
Ý
‰
Ã
O
,
l
ü
$S
“
L
§
¥
F
Ý
•
,
O
\
Â
ñ
L
§
¥
-
½
5
;
3
Ú
5
¥
q
|
^
•
ê
\
²
þ
g
Ž
,
é
˜
F
Ý
Ú
F
Ý
\
\
Ä
þ
,
¿
©
|
^
F
Ý
&
E
,
¿
3
Ú
6
é
m
t
Ú
v
t
Ð
Ï
e
é
Ä
¯
K
‰
?
,
¦
Ž
{
3
¡
é
Ø
Ó
ê
â
8
ž
U
g
Ä
N
ë
ê
Æ
S
Ç
,
ŒŒ
J
p
Ž
{
-
½
5
Ú
Ô
ö
„
Ý
;
3
Ú
7,
O
Ž
g
·
A
Æ
S
Ç
•
ê
•
ϲ
þ
Š
,
¿
À
Æ
S
Ç
“
\
ë
ê
S
“
•
§
,
³
›
L
p
Æ
S
Ç
)
,
?
˜
Ú
O
\
Ž
{
-
½
5
.
3.
Â
ñ
5
©
Û
!
?
Ø
AmbSVRG
Ž
{
Â
ñ
5
,
Ä
k
Ñ
¯
K
(1)
¤
I
‡
÷
v
Ä
b
.
b
1
é
Ã
å
4
z
¯
K
(1),
8
I
¼
ê
ψ
(
w
)
÷
v
(1)
ψ
•
à
¼
ê
;
(2)
ψ
•
3
4
Š
:
w
∗
,
=
w
∗
=
argmin
w
P
(
w
);
DOI:10.12677/aam.2022.11129529032
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
(3)
ψ
•
|
Ê
F
]
ë
Y
,
=
ψ
(
w
)
−
ψ
i
(
w
∗
)
−
L
2
k
w
−
w
∗
k
2
6
∇
ψ
i
(
w
∗
)
T
(
w
−
w
∗
)
.
(5)
Ù
¥
L>
0
•
|
Ê
F
]
~
ê
.
b
2
P
(
w
)
´
µ
-
r
à
¼
ê
P
(
w
)
−
P
(
w
∗
)
−
µ
2
k
w
−
w
∗
k
2
>
∇
P
(
w
∗
)
T
(
w
−
w
∗
)
.
(6)
½
n
3.1.
3
b
1,
b
2
^
‡
e
,
µ>
0
,
b
m
¿
©
Œ
k
α
=
b
µmR
(
b
+2
LR
)
+
2
LR
b
+2
LR
<
1
,
E
[
P
(˜
w
s
)
−
P
(
w
∗
)]
≤
α
s
E
[
P
(˜
w
0
)
−
P
(
w
∗
)]
,
@
o
AmbSVRG
Ž
{
Ò
Pk
‚
5
Â
ñ
„
Ý
.
y
²
é
?
¿
i
,
^
g
t
L
«
1
t
Ú
ž
|¢
•
•
,
K
k
g
t
=
1
b
b
X
i
=1
[
∇
ψ
i
(
w
t
−
1
)
−∇
ψ
i
(˜
w
)]+
1
B
B
X
i
=1
∇
ψ
i
(˜
w
)
,
d
©
z
[18]
Œ
•
1
n
n
X
i
=1
k∇
ψ
i
(
w
)
−∇
ψ
i
(
w
∗
)
k
2
2
6
2
L
[
P
(
w
)
−
P
(
w
∗
)]
.
(7)
é
g
t
Ù
Ï
"
E
k
g
t
k
2
2
=
E
k
1
b
b
X
i
=1
[
∇
ψ
i
(
w
t
−
1
)
−∇
ψ
i
(˜
w
)]+
1
B
B
X
i
=1
∇
ψ
i
(˜
w
)
k
2
2
6
2
E
k
1
b
b
X
j
=1
∇
ψ
i
(
w
t
−
1
)
−
1
b
b
X
i
=1
∇
ψ
i
(
w
∗
)
k
2
2
+2
E
k
1
b
b
X
i
=1
∇
ψ
i
(˜
w
)
−
1
b
b
X
i
=1
(
w
∗
)
k
2
2
−∇
p
(˜
w
)
k
2
2
= 2
E
k
1
b
b
X
j
=1
∇
ψ
i
(
w
t
−
1
)
−
1
b
b
X
i
=1
∇
ψ
i
(
w
∗
)
k
v
2
+2
E
k
1
b
b
X
i
=1
∇
ψ
i
(˜
w
)
−
1
b
b
X
i
=1
(
w
∗
)
k
2
2
−
E
[
∇
ψ
i
(˜
w
)
−∇
ψ
i
(
w
∗
)]
k
2
2
6
2
E
k
1
b
b
X
j
=1
∇
ψ
i
(
w
t
−
1
)
−
1
b
b
X
i
=1
∇
ψ
i
(
w
∗
)
k
2
2
+2
E
k
1
b
b
X
i
=1
∇
ψ
i
(˜
w
)
−
1
b
b
X
i
=1
∇
ψ
i
(
w
∗
)
k
2
2
6
4
L
b
[
P
(
w
t
−
1
)
−
P
(
w
∗
)+
P
(˜
w
)
−
P
(
w
∗
)]
.
(8)
DOI:10.12677/aam.2022.11129529033
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
1
˜
‡
Ø
ª¦
^
k
a
+
b
k
2
2
6
2
k
a
k
2
2
+2
k
b
k
2
2
,
^
˜
µ
=
1
B
P
B
i
=1
∇
ψ
i
(˜
w
)
“
O
∇
P
(˜
w
),
…
∇
P
(˜
w
)=
E
[
∇
ψ
i
(˜
w
)
−∇
ψ
i
(
w
∗
)];
1
‡
Ø
ª¦
^
é
?
¿
ξ
,
÷
v
E
k
ξ
−
E
ξ
k
2
2
=
E
k
ξ
k
2
2
−k
E
ξ
k
2
2
6
E
k
ξ
k
2
2
;
1
n
‡
Ø
ª¦
^
(7)
ª
.
d
(8)
ª
Œ
•
k
g
t
k
´
k
þ
.
,
Ø
”
•
G
,
3
AmbSVRG
Ž
{
Ú
5
¥
,
m
t
=
β
1
m
t
−
1
+
(1
−
β
1
)
g
t
,
m
0
= 0
ž
,
é
ª
f
Ð
mŒ
m
t
= (1
−
β
1
)
g
t
+
β
1
g
t
−
1
+
β
2
1
g
t
−
2
+
···
+
β
t
−
1
1
g
1
,
¦
ÙÏ
"•
E
k
ˆ
m
t
k
2
2
=
E
k
1
−
β
1
(1
−
β
t
1
)
(
g
t
+
β
1
g
t
−
1
+
β
2
1
g
t
−
2
+
···
+
β
t
−
1
1
g
1
k
2
2
=
1
−
β
1
(1
−
β
t
1
)
E
k
g
t
+
β
1
g
t
−
1
+
β
2
1
g
t
−
2
+
···
+
β
t
−
1
1
g
1
k
2
2
6
1
−
β
1
(1
−
β
t
1
)
(1+
β
1
+
β
2
1
+
···
+
β
t
−
1
1
)
G
=
G.
(9)
d
(9)
ª
Œ
•
k
ˆ
m
t
k
k
.
,
Ó
n
Ž
{
Ú
6
¥
k
ˆ
v
t
k
Ú
Ú
7
¥
k
ˆ
η
t
k
•
´
k
þ
.
,
=
•
3
R>
0,
¦
k
ˆ
η
t
k
6
R
,
k
E
k
w
t
−
w
∗
k
2
2
=
E
k
w
t
−
1
−
ˆ
η
t
ˆ
m
t
−
w
∗
k
2
2
=
k
w
t
−
1
−
w
∗
k
2
2
+2
R
(
w
t
−
1
−
w
∗
)
>
E
[
b
m
t
]+
R
2
E
k
ˆ
m
t
k
2
2
6
k
w
t
−
1
−
w
∗
k
2
2
+2
R
(
w
t
−
1
−
w
∗
)
>
∇
P
(
w
t
−
1
)
+
4
LR
2
b
[
p
(
w
t
−
1
)
−
p
(
w
∗
)+
p
(˜
w
)
−
p
(
w
∗
)]
6
k
w
t
−
1
−
w
∗
k
2
2
−
2
R
[
p
(
w
t
−
1
)
−
p
(
w
∗
)]
+
4
LR
2
b
[
p
(
w
t
−
1
)
−
p
(
w
∗
)+
p
(˜
w
)
−
p
(
w
∗
)]
=
k
w
t
−
1
−
w
∗
k
2
2
−
2
R
(1+2
LR
b
)[
p
(
w
t
−
1
)
−
p
(
w
∗
)]
+
4
LR
2
b
[
p
(˜
w
)
−
p
(
w
∗
)]
,
Ù
¥
1
˜
‡
Ø
ª
d
E
[
b
m
t
]
6
E
[
g
t
] =
∇
P
(
w
t
−
1
)
Œ
,
1
‡
Ø
ª¦
^
P
(
w
)
à
5
p
(
w
t
−
1
)
−
p
(
w
∗
)
6
(
w
t
−
1
−
w
∗
)
>
∇
P
(
w
t
−
1
)
.
DOI:10.12677/aam.2022.11129529034
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
ò
þ
ã
Ø
ª
é
t
= 1
,
2
,...,m
¦
Ú
,
Œ
E
k
w
m
−
w
∗
k
2
2
+2
mR
(1+2
LR
b
)
E
[
P
(˜
w
s
)
−
P
(
w
∗
)]
6
E
k
w
0
−
w
∗
k
2
2
+
4
mLR
2
b
E
[
P
(˜
w
)
−
P
(
w
∗
)]
=
E
k
˜
w
−
w
∗
k
2
2
+
4
mLR
2
b
E
[
P
(˜
w
)
−
P
(
w
∗
)]
6
2
µ
E
[
P
(˜
w
)
−
P
(
w
∗
)]+
4
mLR
2
b
E
[
P
(˜
w
)
−
P
(
w
∗
)]
= 2(
µ
−
1
+
2
mLR
2
b
)
E
[
P
(˜
w
)
−
p
(
w
∗
)]
,
é1
‡
Ø
ª¦
^
(7)
ª
,
d
d
Œ
±
µ
E
[
P
(˜
w
s
)
−
P
(
w
∗
)]
6
"
b
µmR
(
b
+2
LR
)
+
2
LR
b
+2
LR
#
E
[
P
(˜
w
s
−
1
)
−
P
(
w
∗
)]
,
l
Ž
{
Â
ñ
5
µ
E
[
P
(˜
w
s
)
−
P
(
w
∗
)]
≤
α
s
E
[
P
(˜
w
0
)
−
P
(
w
∗
)]
y
.
d
Ž
{
Â
ñ
5
Œ
±
w
Ñ
,
Ž
{
Â
ñ
„
Ý
†
ë
ê
b
Ú
m
k
'
,
'
u
1
þ
ë
ê
b
Ú
•
#
ª
Ç
m
é
Ž
{
Â
ñ
„
Ý
9
-
½
5
K
•
ò
3
ê
Š
¢
Ü
©
Ð
m
`
²
.
4.
ê
Š
¢
©
Ž
{
Ä
u
Python3.7
¤
,
N
ä
e
ë
•
©
z
[20],
Ù
¥
-
¹
¼
ê
•
ReLU
¼
ê
,
é
u
Ž
{
¢
y
,
ë
ê
•
CPU:Intel(R)Core(TM)i5-6200U2.40GHz,
S
•
:4.00GB.
¦
^
Ì
6
ê
â
8
MNIST
é
Ž
{
k
5
?
1
y
,
ê
â
8
Ì
‡
ë
ê
„
L
1
µ
Table1.
Datasetintroduction
L
1.
ê
â
8
0
8
ã
¡
a
.
ã
¡
Œ
Ô
ö
8
ê
þ
ÿ
Á
8
ê
þ
MNIST
•
Ý
ã
28*282000010000
ê
Š
¢
o
•
)ü
Ü
©
µ
1
1
Ü
©
Ì
‡
´
©
Ž
{
†
c
Ì
6
Ž
{
ƒ
m
é
'
;
1
2
Ü
©
K
´
Ž
{
ë
ê
é
Ž
{
-
½
5
K
•
.
4.1.
Ì
6
Ž
{
é
'
Ä
u
Python3.7
¤
AmbSVRG
Ž
{
?
,
ò
Ù
†
Ì
6
Ž
{
Mini-BatchSGD
!
Batching
SVRG
!
AdaGrad
!
RMSProp
Ž
{
?
1
é
'
.
DOI:10.12677/aam.2022.11129529035
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
l
ã
1
Œ
±
w
Ñ
µ
(1)
l
Ð
©
S
“
O
(
Ç
þ
w
,AmbSVRG
3
S
“
1
˜
‡
epoch
ž
,
Ù
ÿ
Á
8
O
(
Ç
ˆ
60%
±
þ
,
BatchingSVRG
Ú
RMSProp
©
O
ˆ
53%
Ú
48%,Mini-BatchSGD
Ú
Adagrad
•
ˆ
40%,
Œ
„
,
3
Ð
©
S
“
O
(
Ç
þ
,AmbSVRG
‡
`u
Ù
¦Ž
{
.
(2)
l
Â
ñ
L
§
þ
w
,
Ø
AdaGrad
Ž
{
Â
ñ
L
§
Ø
²
w
ƒ
,
Ù
¦Ž
{
Ñ
U
-
½/
Â
ñ
•
`
)
;
l
ÿ
Á
8
O
(
Ç
þ
,
·
Ý
5
w
,
3
S
“
Ð
Ï
,AmbSVRG
þ
,
·
Ý
•
Í
,
Œ
„
Ù
Â
ñ
„
Ý
•
¯
.
(3)
l
Ž
{
O
(
Ç
w
,AmbSVRG
Ž
{
O
(
Ç
ˆ
91.4%,RMSProp
•
'
Ù
$
0.8
‡
z
©
:
,BatchingSVRG
O
(
Ç
ˆ
85.7%,
E
'
AdaGrad
Ú
Mini-BatchSGD
Ž
{
`
D
.
Figure1.
Accuracycomparisonofmainstreamalgorithms
ã
1.
Ì
6
Ž
{
O
(
Ç
é
'
4.2.
-
½
5
&
Ä
du
Ž
{
-
½
5
Ì
‡
É
1
þ
º
€Œ
b
±
9
•
#
ª
Ç
m
K
•
,
©
ò
é
Ø
Ó
ë
ê
œ
¹
e
Ž
{
ÿ
Á
8
O
(
Ç
?
1
&
Ä
,
©
O
l
MNIST
ê
â
8
¥
À
1
þ
º
€Œ
•
100
!
300
!
500
,
“
\
•
#
ª
Ç
•
10
!
30
!
50
Ž
{
¥
,
Ñ
Ø
Ó
ë
ê
œ
¹
e
Ž
{
Ô
ö
ž
m
Ú
ÿ
Á
8
O
(
Ç
,
¢
ë
ê
9
é
A
µ
d
•
I
„
L
2.
•
;
•
¢
ó
,
5
,
é
¢
ê
â
8
3
ƒ
Ó
ë
ê
^
‡
e
?
1
n
g
Ó
¢
,
¿
n
g
¢
²
þ
Š
Š
•
•
ª
(
J
.
Table2.
Theinfluenceofexperimentalparametersontheconvergenceeffectofthealgorithm
L
2.
¢
ë
ê
é
Ž
{
Â
ñ
J
K
•
&
Ä
•
#
ª
Ç
m
b
= 100
b
= 300
b
= 500
traintimetestaccuracytraintimetestaccuracytraintimetestaccuracy
m
= 1019.34s85.2%22.26s88.9%23.86s91.4%
m
= 3024.22s87.5%28.69s89.1%35.12s89.5%
m
= 5032.05s86.0%36.71s87.2%46.89s86.7%
DOI:10.12677/aam.2022.11129529036
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
d
L
2
Œ
•
,
3
Ô
ö
ž
m
þ
,
‘
X
1
þ
º
€Œ
b
Ú
•
#
ª
Ç
m
O
\
,
Ž
{
O
Ž
“
d\
Œ
,
Ù
ƒ
é
Ô
ö
ž
m
•
Å
ì
O
\
;
3
ÿ
Á
8
O
(
Ç
þ
,
^
‡
b
= 500
ž
Ž
{
ÿ
Á
8
O
(
Ç
o
N
‡
'
b
= 300
Ú
b
= 100
œ
¹
e
•
•
Œ
*
.
d
d
Œ
±
w
Ñ
,
1
þ
º
€Œ
b
é
Ž
{
ÿ
Á
8
O
(
Ç
k
†
K
•
,
…
ä
k
˜
½
'
~
'
X
;
3
b
†
m
'
X
&
Ä
þ
,
Œ
±
w
m
=10
Ú
m
=30
ž
,
‘
X
b
O
\
,
Ž
{
ÿ
Á
8
O
(
Ç
•
Å
ì
O
\
,
m
=50
ž
,
b
O
\
Œ
U
¬
‘
5
O
(
Ç
e
ü
,
Œ
U
m
O
\
—
S
Ì
‚
ë
ê
•
#
F
Ý
Ú
Ì
‚
Û
F
Ý
ƒ
C
Œ
,
é
Â
ñ
„
Ý
Ú
Â
ñ
O
(
Ç
E
¤
˜
½
K
•
.
µ
Ø
Ï
L
4.1
!
Œ
±
w
Ñ
,AmbSVRG
Ž
{
Â
ñ
„
Ý
Ú
Â
ñ
°
Ý
L
y
â
Ñ
,
Ù
Â
ñ
°
Ý
Ú
RMSProp
Ž
{
ƒ
,
¿
…
3
Ð
Ï
Ž
{
Â
ñ
„
Ý
`u
Ù
¦Ž
{
.
Ï
L
4.2
!
,
)
1
þ
º
€Œ
b
Ú
•
#
ª
Ç
m
é
Ž
{
Â
ñ
„
Ý
Ú
Â
ñ
°
Ý
K
•
,
é
Ž
{
Â
ñ
J
N
ë
ä
k
˜
½
ë
•
¿Â
.
5.
(
Ø
©
Ä
u
‘
Å
•
~
F
Ý
Ž
{
,
(
Ü
g
·
A
Æ
S
Ç
Ú
Ý
•
›
A
:
,
¿
|
^
1
þ
g
Ž
,
À
Œ
1
þ
“
O
Ü
?
1
Û
F
Ý
O
Ž
,
À
1
þ
?
1
ë
ê
S
“
•
#
,
Ž
Ñ
‘
Å
F
Ý
e
ü
Ž
{
du
À
‘
Å
5
Ú
\
p
•
¯
K
,
±
9
F
Ý
e
ü
{
ð
½
Æ
S
Ç
—
ë
ê
3
•
`
:
5
£
!
Â
ñ
„
Ý
…
ú
"
:
,
Ó
ž
é
g
·
A
Æ
S
Ç
Ž
{
³
›
L
p
Æ
S
Ç
)
.
Ï
d
AmbSVRG
Ž
{
ä
k
û
Ð
-
½
5
Ú
¯
Â
ñ
„
Ý
,
¿
…
¢
(
J
L
²
,
3
†
Ì
6
Ž
{
é
'
e
,
AmbSVRG
Ž
{
k
5
•
y
.
É
›
u
Ï
,
Ã
{
y
Ž
{
3
E
,
ä
(
þ
k
5
,
Ó
ž
du
ë
ê
À
é
Ž
{
O
Ž
Ç
k
˜
½
K
•
,
Ï
d
X
Û
À
ë
ê
é
J
p
Ž
{
O
Ž
Ç
•
ä
k
˜
½
y
¢
¿Â
.
ë
•
©
z
[1]Bottou,L.(2010)Large-ScaleMachineLearningwithStochasticGradientDescent.In:
Lechevallier,Y.andSaporta,G.,Eds.,
ProceedingsofCOMPSTAT’2010
,Physica-VerlagHD,
177-186.https://doi.org/10.1007/978-3-7908-2604-316
[2]Sebastian,R.(2016)AnOverviewofGradientDescentOptimizationAlgorithms.
Computer
ScienceMachineLearning
,1-12.
[3]Lecun, Y.and Bottou,L.(1998)Gradient-BasedLearning Appliedto Document Recognition.
ProceedingsoftheIEEE
,
86
,2278-2324.https://doi.org/10.1109/5.726791
[4]Bubeck, S.(2015) Convex Optimization:Algorithms and Complexity.
FoundationsandTrends
inMachineLearning
,
8
,231-357.https://doi.org/10.1561/2200000050
[5]Bottou,L., Curtis,F.E.andNocedal, J.(2018) OptimizationMethods forLarge-Scale Machine
Learning.
SIAMReview
,
60
,223-311.https://doi.org/10.1137/16M1080173
DOI:10.12677/aam.2022.11129529037
A^
ê
Æ
?
Ð
Á
?
]
§
X
[
[6]Nesterov,Y.(2013)GradientMethodsforMinimizingCompositeFunctions.
Mathematical
Programming
,
140
,125-161.https://doi.org/10.1007/s10107-012-0629-5
[7]Robbins, H. andMonro,S. (1951) AStochastic Approximation Method.
AnnalsofMathemat-
icalStatistics
,
22
,400-407.https://doi.org/10.1214/aoms/1177729586
[8]Li,M.,Zhang,T.,Chen,Y.,
etal.
(2014)EfficientMini-BatchTrainingforStochasticOp-
timization.
Proceedingsofthe20thACMSIGKDDConferenceonKnowledgeDiscoveryand
DataMining
,NewYork,24-27August2014,661-670.
[9]Qian,N.(1999)OntheMomentumTerminGradientDescentLearningAlgorithms.
Neural
Networks
,
12
,145-151.https://doi.org/10.1016/S0893-6080(98)00116-6
[10]Nesterov,Y.(1983)AMethodofSolvingaConvexProgrammingProblemwithConvergence
RateO(1/k
2
).
SovietMathematicsDoklady
,
27
,372-376.
[11]Botev,A.,Lever,G.andBarber,D.(2017)Nesterov’sAcceleratedGradientandMomentum
asApproximationstoRegularisedUpdateDescent.
2017InternationalJointConferenceon
NeuralNetworks
,Anchorage,AK,14-19May2017,1899-1903.
[12]Duchi, J., Hazan,E. and Singer, Y. (2011) Adaptive Subgradient Methods for Online Learning
andStochasticOptimization.
JournalofMachineLearningResearch
,
12
,2121-2159.
[13]Tieleman, T. and Hinton, G. (2012)Lecture 6.5-RMSProp:Dividethe Gradient by a Running
AverageofItsRecentMagnitude.
COURSERA:NeuralNetworksforMachineLearning
,
4
,
26-30.
[14]Kingma,D.andBa,J.(2015)Adam:AMethodforStochasticOptimization.
Proceedingsof
the3rdInternationalConferenceonLearningRepresentations
,San Diego,7-9May 2015, 1-13.
[15]Ding,J.,Ren,X.,Luo,R.,
etal.
(2019)AnAdaptiveandMomentalBoundMethodfor
StochasticLearning.arXiv:1910.12249
[16]Schmidt,M.,LeRoux,N.andBach,F.(2017)MinimizingFiniteSumswiththeStochastic
AverageGradient.
MathematicalProgramming
,
162
,83-112.
[17]Shalev,S.andZhang,T.(2013)StochasticDualCoordinateAscentMethodsforRegularized
LossMinimization.
JournalofMachineLearningResearch
,
14
,567-599.
https://doi.org/10.1007/s10107-016-1030-6
[18]Johnson,R.andZhang,T.(2013)AcceleratingStochasticGradientDescentUsingPredictive
VarianceReduction.
Proceedingsofthe27thNeuralInformationProcessingSystems
,Lake
Tahoe,5-10December2013,315-323.
[19]Babanezhad,R., Ahmed, M.O., Virani,A.,
etal.
(2015) Stop Wasting MyGradients:Practical
SVRG.
Proceedingsofthe28thInternationalConferenceonNeuralInformationProcessing
Systems
,
2
,2251-2259.
[20]Qiu, X.P. (2020)NeuralNetworksandDeepLearning.ChinaMachine Press,Beijing,160-169.
DOI:10.12677/aam.2022.11129529038
A^
ê
Æ
?
Ð
map