本文首先介绍一般多元高斯分布,包括随机向量高斯分布和随机矩阵高斯分布,研究了其基本性质,重点引进随机张量高斯分布,并研究了随机张量高斯分布的基本性质。 In this paper, we first introduce the multivariate Gaussian distributions, including the Gaussian distribution of a random vector and the Gaussian distribution of a random matrix. Some basic properties of those Gaussian distributions are also investigated. We then introduce the tensor Gaussian distribution of a random matrix, and present some basic properties for tensor Gaussian distribution.
何玲玲,林泽榕,吴田,徐常青*
苏州科技大学数理学院,江苏 苏州
收稿日期:2017年11月9日;录用日期:2017年11月22日;发布日期:2017年11月29日
本文首先介绍一般多元高斯分布,包括随机向量高斯分布和随机矩阵高斯分布,研究了其基本性质,重点引进随机张量高斯分布,并研究了随机张量高斯分布的基本性质。
关键词 :张量高斯分布,特征函数,矩阵高斯分布
Copyright © 2017 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
正态分布由德国数学家和天文学家Moivre于1733年提出,因德国数学家高斯率先将其应用于天文学研究,故又称高斯分布 [
高斯分布大量的运用于统计学 [
一个服从高斯分布的一元随机变量 x 对应的高斯分布密度函数(PDF)完全由其均值( μ )和方差( σ 2 )唯一确定。若随机变量 x 服从均值为 μ 、方差为 σ 2 的正态分布,那么x的概率分布密度函数(PDF)为
f x ( x ) = 1 2 π σ 2 exp [ − ( x − μ ) 2 2 σ 2 ] (1.1)
记为 x ~ N ( μ , σ 2 ) 。若 μ = 0 , σ 2 = 1 ,则称x服从标准正态分布,记为 x ∼ N ( 0 , 1 ) 。
为了得到随机向量的高斯分布,我们令 z = ( z 1 , ⋯ , z p ) ′ ∈ R p ,其中 z j ∼ N ( 0 , 1 ) 独立同分布(i.i.d)由独立性我们可以得到 z 的密度函数为
f z ( z ) = ( 2 π ) − p / 2 exp ( − 1 2 z ′ z ) (1.2)
记为 z ∼ N p ( 0 , I p ) ,并称 z 服从标准正态分布。为了得到随机向量的更一般的高斯分布,我们记随机向量 x = ( x 1 , x 2 , ⋯ , x n ) ′ ∈ R n 的均值为 μ ,且记x的协方差矩阵 Σ (正定或半正定矩阵)的一个满秩分解为
Σ = τ ′ τ , τ ∈ R p × n , r a n k ( τ ) = p (1.3)
若 x 与 y = μ + τ ′ z 具有相同分布且 z ∼ N p ( 0 , I p ) ,则称 x ∈ R n 服从向量高斯分布,表示为 x ∼ N n ( μ , Σ ) 。若(1.3)中有 n = p ,那么 Σ 为正定矩阵,可得y的密度函数 [
f y ( y ) = ( 2π ) − n / 2 ( det ∑ ) − 1 / 2 exp [ − 1 2 ( y − μ ) ′ ∑ − 1 ( y − μ ) ] (1.4)
若(1.3)中有 n > p 那么 Σ 为非满秩半正定矩阵,对应密度函数可通过矩阵广义逆给出 [
进一步考虑随机矩阵 Y = ( y i j ) ∈ R m × n ,即 Y 的每个元均为随机变量。我们有
定义1.1.1 [
Z i · ∼ N m ( 0 , I m ) , ∀ i = 1 , 2 , ⋯ , m (1.5)
Z · j ∼ N n ( 0 , I n ) , ∀ j = 1 , 2 , ⋯ , n (1.6)
其中 Z i · , Z · j 分别表示矩阵Z的第i个行向量和第j个列向量。
定义1.1.2 [
Ξ = τ 1 τ ′ 1 , Σ = τ 2 τ ′ 2 , τ 1 ∈ R m × r , τ 2 ∈ R n × s (1.7)
若 Y 与 X = μ + τ 1 Z τ ′ 2 有相同分布,则称矩阵 Y 服从矩阵高斯分布,表示为
Y ∼ N m , n ( μ , Ξ , Σ ) (1.8)
性质1.1.1 [
f Y ( y ) = ( 2π ) − m n / 2 ( det Ξ ) − m / 2 ( det Σ ) − n / 2 exp [ − 1 2 ( y − μ ) T Ξ − 1 ( y − μ ) Σ − 1 ] (1.9)
性质1.1.2 [
v e c ( Y ) ∼ N m n ( μ v , Σ v ) (1.10)
其中 μ v = v e c ( μ ) , ∑ v = Φ ⊗ Ξ 是两个(半)正定矩阵的Kronecker积。
证明:由于 Ξ , Σ 为正定或者半正定矩阵,那么 Ξ = τ 1 τ ′ 1 , Φ = τ 2 τ ′ 2 ,其中 τ 1 ∈ R m × r , τ 1 ∈ R n × s 。令 Y = μ + τ 1 Z τ ′ 2 ,其中 Z ∼ N r , s ( 0 , I r , I s ) ,则 v e c ( Y ) = v e c ( μ ) + ( τ 2 ⊗ τ 1 ) v e c ( Z ) 。
故 E [ v e c ( Y ) ] = E [ v e c ( μ ) ] + ( τ 2 ⊗ τ 1 ) E [ v e c ( Z ) ] = v e c (μ)
cov [ v e c ( Y ) ] = ( τ 2 ⊗ τ 1 ) cov [ v e c ( Z ) ] ( τ 2 ⊗ τ 1 ) ′ = ( τ 2 ⊗ τ 1 ) ( τ 2 ⊗ τ 1 ) ′ = τ 2 τ ′ 2 ⊗ τ 1 τ ′ 1 = Φ ⊗ Ξ
为了引入张量高斯分布,我们下面来介绍有关张量的一些基本概念与记号。
张量又称多维数组 [
一个0阶张量为一个标量,一个1阶张量为向量,2阶张量为一个矩阵,3阶或更高阶张量通常称为高阶张量。张量在元素表示上和矩阵相似,其下标个数与其阶数一致。如一个3阶张量 X ∈ R I × J × K 的第 ( i , j , k ) 位置的元记为 x i j k 。
本文通过引进三阶张量高斯分布,实现传统形式下的高斯分布的推广。运用高阶张量,简化随机矩阵的特征函数、矩函数和密度函数等基本概念的表述。
图1. 3阶张量 X ∈ R I × J × K
定义2.1.1 [
(2)一个随机矩阵 X ∈ R m × n 的特征函数为 ϕ X ( t ) = E [ exp t r ( i T ′ X ) ] ,矩生成函数为 m x ( t ) = E [ exp t r ( T ′ X ) ]
定义2.1.2 [
(2) 若 z ∼ N m ( 0 , I m ) ,有限的常数矩阵 Φ ∈ R n × m 满足 1 ≤ r a n k ( Φ ) = m ≤ n , y = Φ z + μ 服从向量高斯分布,记作 y ∼ N n ( μ , Σ ) ,其中 Σ = Φ Φ ′ , r a n k ( Σ ) = m 。
定理2.1.1 [
(b)一个向量高斯分布 z ∼ N m ( μ , I ) 有特征函数 ϕ z ( t ) = e i t ′ μ − t ′ t / 2 ,矩生成函数 m z ( t ) = e t ′ μ + t ′ t / 2 ,均值 E ( z ) = μ ∈ ℜ m ,协方差矩阵 ν ( z ) = I ∈ ℜ m × m 。
(c) y ∼ N n ( μ , Σ ) 的特征函数是 ϕ y ( t ) = e i t ′ μ − t ′ Σ t / 2 ,矩生成函数是 m y ( t ) = e t ′ μ + t ′ Σ t / 2 。
定理2.1.2 [
y 2 ∼ N n 2 ( C 1 μ 1 + c 0 , C 1 Σ 1 C ′ 1 )
定理2.1.3设 Y = A X B + C ,其中 X 为随机矩阵, A , B , C 为适当大小矩阵。则
ϕ Y ( T ) = ϕ X ( A ′ T B ) exp [ i t r ( T ′ C ) ] (2.1)
其中 t r ( X ) 表示方阵 X 的迹(trace), X ′ 表示矩阵 X 的转置。
证明:由特征函数定义知
ϕ Y ( T ) = E [ exp { t r [ i T ′ ( A X B + C ) ] } ] = E { exp [ t r ( i T ′ A X B ) + t r ( i T ′ C ) ] } = E { exp [ t r ( i ( A ′ T B ′ ) ′ X ) ] } exp [ i t r ( T ′ C ) ] = ϕ X ( A ′ T B ′ ) exp [ i t r ( T ′ C ) ]
定义2.1.3 [
cov [ c o l i ( Y ) ] = Ξ , cov [ v e c ( r o w i ( Y ) ) ] = Σ
定义 2.1.4 [
(1) v e c ( Y ) ∼ N n p [ v e c ( M ) , Σ ⊗ Ξ ] ;
(2) v e c ( Y ′ ) ∼ N n p [ v e c ( M ′ ) , Ξ ⊗ Σ ] ;
(3) Y = Ψ Z Φ ′ + M ,其中 Z ∼ N n 1 , p 1 ( 0 , I n 1 , I p 1 ) , Ξ = Ψ Ψ ′ , Ψ ∈ R n × n 1 。
r a n k ( Ψ ) = n 1 , Σ = Φ Φ ′ , Φ ∈ R p × p 1 , r a n k ( Φ ) = p 1
定理2.1.4 [
ϕ ( T ; Z ) = E { exp [ t r ( i T ′ Z ) ] } = exp [ − t r ( T ′ T ) / 2 ]
定理2.1.5 [
ϕ Y ( T ) = exp [ i t r ( T ′ M ) ] exp [ − t r ( T ′ Ξ T Σ ) / 2 ]
其中 Ξ = Ψ Ψ ′ , Σ = Φ Φ ′
定理2.1.6 [
Y = A X B + C ∼ N n , p ( A M B + C , A Ξ A ′ , B ′ Σ B ) (2.2)
证明:由定理2.1.1可知
ϕ Y ( T ) = exp [ i t r ( T ′ M ) ] exp { − t r [ ( Ψ ′ T Φ ) ′ ( Ψ ′ T Φ ) / 2 ] } = exp [ i t r ( T ′ M ) ] exp { − t r ( Φ ′ T ′ Ψ Ψ ′ T Φ ) / 2 } = exp [ i t r ( T ′ M ) ] exp [ − t r ( T ′ Ψ Ψ ′ T Φ Φ ′ ) / 2 ] = exp [ i t r ( T ′ M ) ] exp [ − t r ( T ′ Ξ T Σ ) / 2 ]
定义2.2.1 [
类似于矩阵向量化,张量同样可进行矩阵化及向量化。下面我们来定义张量的矩阵化。
定义2.2.2 [
一个3阶张量有3个不同方向的切片,因此有3种形式的矩阵化,如一个2 × 3 × 4张量的模-1方向切片形成2 × 12的矩阵,同理它在模-2方向和模-3方向切片得到3 × 8和4 × 6矩阵。记张量 X 沿模- i 方向展开得到的矩阵为 X ( i ) 。
例 2.2.1 设3阶张量 A ∈ ℝ 3 × 3 × 2 如图3所示。
则其在模-1、模-2、模-3方向上矩阵化后得到的矩阵分别为
A ( 1 ) = [ 1 2 3 10 11 12 4 5 6 13 14 15 7 8 9 16 17 18 ] , A ( 2 ) = [ 1 4 7 10 13 16 2 5 8 11 14 17 3 6 9 12 15 18 ] ,
A ( 3 ) = [ 1 4 7 2 5 8 3 6 9 10 13 16 11 14 17 12 15 18 ] .
定义2.2.3 [
图2. 3阶张量在3个不同方向上的切片
图3. 一个3 × 3 × 2张量A
Y i 1 ⋯ i n − 1 j i n + 1 ⋯ i m = ∑ i n = 1 I n x i 1 ⋯ i n ⋯ i m u j i n (2.3)
定理2.2.1 [
Y = X × n U ⇔ Y ( n ) = U X ( n ) (2.4)
定理2.2.2. [
X × n A × m B = X × m B × n A (2.5)
我们可将定理2.1.6改为张量的形式。若 X n 1 × p 1 × 1 ∼ N n 1 , p 1 , 1 ( M , Ξ , Σ ) ,常数矩阵 Ψ ∈ R n × n 1 , Φ ∈ R p × p 1 , M ∈ R n × p × 1 则 Y = X × 1 A × 2 B + C ∼ ( S ) N n , p ( M × 1 A × 2 B + C , A Ξ A ′ , B ′ Σ B ) 。
为了将定理2.1.6推广到三阶张量的一般情况, 我们从随机矩阵的高斯分布出发定义随机张量的高斯分布,并将定理2.1.6中的结论推广到三阶张量。
定义3.1.称 Α = ( a i 1 i 2 ⋯ i m ) ∈ R I 1 × ⋯ × I m 为随机张量,如果每一个 a i 1 i 2 ⋯ i m 都是随机变量。
定义3.2.称一个三阶随机张量 Α = ( a i j k ) ∈ R m × n × p 服从高斯分布,记作
Α ∼ N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) (3.1)
若满足以下三个条件
Α ( 1 ) j ∼ N m ( Μ ( 1 ) j , Σ 1 ) , Α ( 2 ) j ∼ N n ( Μ ( 2 ) j , Σ 2 ) , Α ( 3 ) j ∼ N p ( Μ ( 3 ) j , Σ 3 )
其中 Μ ∈ R m × n × p 表示均值张量, Σ i 表示张量 Α 沿第 i 个方向展开的矩阵的任意一列的协方差矩阵。
定义3.3 .如果(3.1)中的 Μ = 0 , Σ 1 = I m , Σ 2 = I n , Σ 3 = I p ,那么 Α ∼ N m , n , p ( 0 , I m , I n , I p ) 称作标准高斯张量。
定理3.1对于三阶张量 Α = ( a i j k ) ∈ R m × n × p ,若 Α ∼ N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) ,当且仅当
Α ( 1 ) ∼ N m , n p ( Μ ( 1 ) , Σ 1 , Σ 3 ⊗ Σ 2 ) (3.2)
Α ( 2 ) ∼ N n , m p ( Μ ( 2 ) , Σ 2 , Σ 3 ⊗ Σ 1 ) (3.3)
Α ( 3 ) ∼ N p , m n ( Μ ( 3 ) , Σ 3 , Σ 2 ⊗ Σ 1 ) (3.4)
证明:设水平切片(模-1方向)的第 i 个切片为矩阵 B ,左右切片(模-2方向)的第 j 个切片为矩阵 C ,前后切片(模-3方向)的第 k 个切片为矩阵 D 。
由于 B ∼ N p , n ( Μ ( i , : , : ) , Σ 3 , Σ 2 ) , C ∼ N m , p ( Μ ( : , j , : ) , Σ 1 , Σ 3 ) , D ∼ N m , n ( Μ ( : , : , k ) , Σ 1 , Σ 2 )
则 v e c ( B ′ ) ∼ N m p [ v e c ( Μ ( j , : , : ) ) , Σ 3 ⊗ Σ 2 ] , v e c ( C ) ∼ N m p [ v e c ( Μ ( : , j , : ) ) , Σ 3 ⊗ Σ 1 ] ,
v e c ( D ) ∼ N m p [ v e c ( Μ ( : , : , j ) ) , Σ 2 ⊗ Σ 1 ]
故 Α ( 1 ) ∼ N m , n p ( Μ ( 1 ) , Σ 1 , Σ 3 ⊗ Σ 2 ) , Α ( 2 ) ∼ N n , m p ( Μ ( 2 ) , Σ 2 , Σ 3 ⊗ Σ 1 ) , Α ( 3 ) ∼ N p , m n ( Μ ( 3 ) , Σ 3 , Σ 2 ⊗ Σ 1 )
推论3.1.对于三阶张量 Α ∈ R m × n × p ,若 Α ∼ N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) ,则
(1) v e c ( Α ( 1 ) ) ∼ N m n p ( v e c ( Μ ( 1 ) ) , Σ 3 ⊗ Σ 2 ⊗ Σ 1 )
(2) v e c ( Α ( 2 ) ) ∼ N n m p ( v e c ( Μ ( 2 ) ) , Σ 3 ⊗ Σ 1 ⊗ Σ 2 )
(3) v e c ( Α ( 3 ) ) ∼ N p m n ( v e c ( Μ ( 3 ) ) , Σ 2 ⊗ Σ 1 ⊗ Σ 3 )
证明:利用定义4即可
定理3.2 .若 Α ∼ N m 1 , n 1 , p 1 ( M , Σ 1 , Σ 2 , Σ 3 ) ,矩阵 T 1 ∈ R m × m 1 , T 2 ∈ R n × n 1 , T 3 ∈ R p × p 1 , U ∈ R m × n × p ,那么
Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U ∼ N m , n , p ( Α × 1 T 1 × 2 T 2 × 3 T + U , T 1 Σ 1 T ′ 1 , T 2 Σ 2 T ′ 2 , T 3 Σ 3 T ′ 3 ) (3.5)
证明:由于 Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U ,则 Β ( 1 ) = T 1 ( Α × 2 T 2 × 3 T 3 ) ( 1 ) + U (1)
令 Λ = Α × 2 T 2 × 3 T 3 ,则 Λ ( 1 ) = Α ( 1 ) ( T 3 ⊗ T 2 ) ′ ,则 Β ( 1 ) = T 1 Α ( 1 ) ( T 3 ⊗ T 2 ) ′ + U (1)
由定理2.1.6可知
Β ( 1 ) = T 1 Α ( 1 ) ( T 3 ⊗ T 2 ) ′ + U ( 1 ) ∼ N m , n p ( T 1 M ( 1 ) ( T 3 ⊗ T 2 ) ′ + U ( 1 ) , T 1 Σ 1 T ′ 1 , ( T 3 ⊗ T 2 ) ( Σ 3 ⊗ Σ 2 ) ( T 3 ⊗ T 2 ) ′ )
由于 T 1 M ( 1 ) ( T 3 ⊗ T 2 ) ′ = T 1 ( M × 2 T 2 × 3 T 3 ) ( 1 ) ⇔ M × 1 T 1 × 2 T 2 × 3 T 3
( T 3 ⊗ T 2 ) ( Σ 3 ⊗ Σ 2 ) ( T 3 ⊗ T 2 ) ′ = ( T 3 Σ 3 T ′ 3 ) ⊗ ( T 2 Σ 2 T ′ 2 )
故 Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U ∼ N m , n , p ( Α × 1 T 1 × 2 T 2 × 3 T + U , T 1 Σ 1 T ′ 1 , T 2 Σ 2 T ′ 2 , T 3 Σ 3 T ′ 3 )
苏州科技大学研究生科研创新项目(SKYCX16_008)。
何玲玲,林泽榕,吴 田,徐常青. 随机张量的高斯分布On Tensor Gaussian Distributions[J]. 应用数学进展, 2017, 06(08): 1010-1017. http://dx.doi.org/10.12677/AAM.2017.68121