随机张量的高斯分布
On Tensor Gaussian Distributions
DOI:10.12677/AAM.2017.68121,PDF,HTML,XML,下载: 2,066浏览: 2,865科研立项经费支持
作者:何玲玲,林泽榕,吴 田,徐常青:苏州科技大学数理学院,江苏 苏州
关键词:张量高斯分布特征函数矩阵高斯分布Tensor Gaussian DistributionCharacteristic FunctionMatrix Gaussian Distribution
摘要:本文首先介绍一般多元高斯分布,包括随机向量高斯分布和随机矩阵高斯分布,研究了其基本性质,重点引进随机张量高斯分布,并研究了随机张量高斯分布的基本性质。
Abstract:In this paper, we first introduce the multivariate Gaussian distributions, including the Gaussian distribution of a random vector and the Gaussian distribution of a random matrix. Some basic properties of those Gaussian distributions are also investigated. We then introduce the tensor Gaussian distribution of a random matrix, and present some basic properties for tensor Gaussian distribution.
文章引用:何玲玲, 林泽榕, 吴田, 徐常青. 随机张量的高斯分布[J]. 应用数学进展, 2017, 6(8): 1010-1017. https://doi.org/10.12677/AAM.2017.68121

1. 背景知识

1.1. 高斯分布的背景知识

正态分布由德国数学家和天文学家Moivre于1733年提出,因德国数学家高斯率先将其应用于天文学研究,故又称高斯分布 [1] 。德国印有高斯头像的10马克钞票上还印有正态分布密度曲线。在高斯对数学各分支的诸多贡献中,对人类文明影响最大的当属高斯分布理论。1812年,法国数学家拉普拉斯指出一个二项分布可用正态分布逼近,并将高斯分布与中心极限定理联系起来。1837年,海根正式系统的提出高斯分布理论。

高斯分布大量的运用于统计学 [2] [3] 、经济学 [4] 、自然科学和社会科学 [5] 中,并用于自然界和人类社会中出现的各类分布的近似。如一类人群的身高、动植物生长发育在不同时期的体重、一个较大群体中个体的智力、记忆力和阅读技巧、工资收入分布、一个有1000多人构成的一个同一年级学生的考试成绩分布等,都服从高斯分布;在诸如航天科学 [6] 、天文与地理 [7] 、光学和量子力学 [8] 等高尖端领域,同样涉及到高斯分布。

一个服从高斯分布的一元随机变量 x 对应的高斯分布密度函数(PDF)完全由其均值( μ )和方差( σ 2 )唯一确定。若随机变量 x 服从均值为 μ 、方差为 σ 2 的正态分布,那么x的概率分布密度函数(PDF)为

f x ( x ) = 1 2 π σ 2 exp [ ( x μ ) 2 2 σ 2 ] (1.1)

记为 x ~ N ( μ , σ 2 ) 。若 μ = 0 , σ 2 = 1 ,则称x服从标准正态分布,记为 x N ( 0 , 1 )

为了得到随机向量的高斯分布,我们令 z = ( z 1 , , z p ) R p ,其中 z j N ( 0 , 1 ) 独立同分布(i.i.d)由独立性我们可以得到 z 的密度函数为

f z ( z ) = ( 2 π ) p / 2 exp ( 1 2 z z ) (1.2)

记为 z N p ( 0 , I p ) ,并称 z 服从标准正态分布。为了得到随机向量的更一般的高斯分布,我们记随机向量 x = ( x 1 , x 2 , , x n ) R n 的均值为 μ ,且记x的协方差矩阵 Σ (正定或半正定矩阵)的一个满秩分解为

Σ = τ τ , τ R p × n , r a n k ( τ ) = p (1.3)

x y = μ + τ z 具有相同分布且 z N p ( 0 , I p ) ,则称 x R n 服从向量高斯分布,表示为 x N n ( μ , Σ ) 。若(1.3)中有 n = p ,那么 Σ 为正定矩阵,可得y的密度函数 [9]

f y ( y ) = ( ) n / 2 ( det ) 1 / 2 exp [ 1 2 ( y μ ) 1 ( y μ ) ] (1.4)

若(1.3)中有 n > p 那么 Σ 为非满秩半正定矩阵,对应密度函数可通过矩阵广义逆给出 [10] 。

进一步考虑随机矩阵 Y = ( y i j ) R m × n ,即 Y 的每个元均为随机变量。我们有

定义1.1.1 [9] 称一个随机矩阵 Z = ( z i j ) R m × n 服从矩阵标准正态分布,记为 Z N m , n ( 0 , I m , I n ) ,若满足以下两条:

Z i · N m ( 0 , I m ) , i = 1 , 2 , , m (1.5)

Z · j N n ( 0 , I n ) , j = 1 , 2 , , n (1.6)

其中 Z i · , Z · j 分别表示矩阵Z的第i个行向量和第j个列向量。

定义1.1.2 [9] 设随机矩阵 Z N m , n ( 0 , I m , I n ) 。令 μ R m × n ,且

Ξ = τ 1 τ 1 , Σ = τ 2 τ 2 , τ 1 R m × r , τ 2 R n × s (1.7)

Y X = μ + τ 1 Z τ 2 有相同分布,则称矩阵 Y 服从矩阵高斯分布,表示为

Y N m , n ( μ , Ξ , Σ ) (1.8)

性质1.1.1 [9] 设随机矩阵 Y N m , n ( μ , Ξ , Σ ) ,其中 Ξ , Σ 都是正定矩阵。那么 Y 的密度函数为

f Y ( y ) = ( ) m n / 2 ( det Ξ ) m / 2 ( det Σ ) n / 2 exp [ 1 2 ( y μ ) T Ξ 1 ( y μ ) Σ 1 ] (1.9)

性质1.1.2 [9] 设 Y R m × n 为随机矩阵。那么 Y N m , n ( μ , Ξ , Φ ) 当且仅当

v e c ( Y ) N m n ( μ v , Σ v ) (1.10)

其中 μ v = v e c ( μ ) , v = Φ Ξ 是两个(半)正定矩阵的Kronecker积。

证明:由于 Ξ , Σ 为正定或者半正定矩阵,那么 Ξ = τ 1 τ 1 , Φ = τ 2 τ 2 ,其中 τ 1 R m × r , τ 1 R n × s 。令 Y = μ + τ 1 Z τ 2 ,其中 Z N r , s ( 0 , I r , I s ) ,则 v e c ( Y ) = v e c ( μ ) + ( τ 2 τ 1 ) v e c ( Z )

E [ v e c ( Y ) ] = E [ v e c ( μ ) ] + ( τ 2 τ 1 ) E [ v e c ( Z ) ] = v e c (μ)

cov [ v e c ( Y ) ] = ( τ 2 τ 1 ) cov [ v e c ( Z ) ] ( τ 2 τ 1 ) = ( τ 2 τ 1 ) ( τ 2 τ 1 ) = τ 2 τ 2 τ 1 τ 1 = Φ Ξ

为了引入张量高斯分布,我们下面来介绍有关张量的一些基本概念与记号。

1.2. 张量的背景知识

张量又称多维数组 [11] [12] 。一个 m × n 矩阵为2阶张量,一个 m 阶张量具有m个方向(mode, m-way),记为 A R I 1 × I 2 × × I m 。一个3阶张量 X R I × J × K 的几何表示如图1

一个0阶张量为一个标量,一个1阶张量为向量,2阶张量为一个矩阵,3阶或更高阶张量通常称为高阶张量。张量在元素表示上和矩阵相似,其下标个数与其阶数一致。如一个3阶张量 X R I × J × K 的第 ( i , j , k ) 位置的元记为 x i j k

本文通过引进三阶张量高斯分布,实现传统形式下的高斯分布的推广。运用高阶张量,简化随机矩阵的特征函数、矩函数和密度函数等基本概念的表述。

Figure 1. Third order tensor X R I × J × K

图1. 3阶张量 X R I × J × K

2. 预备知识

2.1. 随机向量和随机矩阵的高斯分布

定义2.1.1 [9] (1)一个随机向量 x R n 的特征函数为 ϕ x ( t ) = E [ exp ( i t x ) ] ,矩生成函数为 m x ( t ) = E [ exp ( t x ) ]

(2)一个随机矩阵 X R m × n 的特征函数为 ϕ X ( t ) = E [ exp t r ( i T X ) ] ,矩生成函数为 m x ( t ) = E [ exp t r ( T X ) ]

定义2.1.2 [10] (1)设给定随机向量 z R m ,其元素 z j N ( μ j , 1 ) 独立同分布,那么 z 服从标准非中心化向量高斯分布,记作 z N m ( μ , I m ) ,若 μ = 0 ,那么 z 称为标准中心向量高斯。

(2) 若 z N m ( 0 , I m ) ,有限的常数矩阵 Φ R n × m 满足 1 r a n k ( Φ ) = m n y = Φ z + μ 服从向量高斯分布,记作 y N n ( μ , Σ ) ,其中 Σ = Φ Φ r a n k ( Σ ) = m

定理2.1.1 [10] (a)一个标准向量高斯分布 z N m ( 0 , σ 2 I ) 有特征函数 ϕ z ( t ) = e t t / 2 ,矩生成函数 m z ( t ) = e t t / 2 ,均值 E ( z ) = 0 m ,协方差矩阵 ν ( z ) = I m × m

(b)一个向量高斯分布 z N m ( μ , I ) 有特征函数 ϕ z ( t ) = e i t μ t t / 2 ,矩生成函数 m z ( t ) = e t μ + t t / 2 ,均值 E ( z ) = μ m ,协方差矩阵 ν ( z ) = I m × m

(c) y N n ( μ , Σ ) 的特征函数是 ϕ y ( t ) = e i t μ t Σ t / 2 ,矩生成函数是 m y ( t ) = e t μ + t Σ t / 2

定理2.1.2 [10] 若 y 2 = C 1 y 1 + c 0 ,其中 C 1 R n 2 × n 1 c 0 R n 2 y 1 N n 1 ( μ 1 , Σ 1 ) 。则

y 2 N n 2 ( C 1 μ 1 + c 0 , C 1 Σ 1 C 1 )

定理2.1.3 Y = A X B + C ,其中 X 为随机矩阵, A , B , C 为适当大小矩阵。则

ϕ Y ( T ) = ϕ X ( A T B ) exp [ i t r ( T C ) ] (2.1)

其中 t r ( X ) 表示方阵 X 的迹(trace), X 表示矩阵 X 的转置。

证明:由特征函数定义知

ϕ Y ( T ) = E [ exp { t r [ i T ( A X B + C ) ] } ] = E { exp [ t r ( i T A X B ) + t r ( i T C ) ] } = E { exp [ t r ( i ( A T B ) X ) ] } exp [ i t r ( T C ) ] = ϕ X ( A T B ) exp [ i t r ( T C ) ]

定义2.1.3 [9] 一个 n × p 矩阵 Y 服从矩阵高斯分布,表为 Y N n , p ( M , Ξ , Σ ) ,其中

cov [ c o l i ( Y ) ] = Ξ , cov [ v e c ( r o w i ( Y ) ) ] = Σ

定义 2.1.4 [10] 条件 Y N n , p ( M , Ξ , Σ ) 等价于以下三条中的任意一条:

(1) v e c ( Y ) N n p [ v e c ( M ) , Σ Ξ ]

(2) v e c ( Y ) N n p [ v e c ( M ) , Ξ Σ ]

(3) Y = Ψ Z Φ + M ,其中 Z N n 1 , p 1 ( 0 , I n 1 , I p 1 ) Ξ = Ψ Ψ , Ψ R n × n 1

r a n k ( Ψ ) = n 1 , Σ = Φ Φ , Φ R p × p 1 , r a n k ( Φ ) = p 1

定理2.1.4 [10] T = [ t 1 t p 1 ] 是任意 n 1 × p 1 的实矩阵, Z n 1 × p 1 N n 1 , p 1 ( 0 , I n 1 , I p 1 ) { z j k } = [ z 1 z p 1 ] z j k 独立同分布,有 z j k N ( 0 , 1 ) ,那么Z的特征函数为

ϕ ( T ; Z ) = E { exp [ t r ( i T Z ) ] } = exp [ t r ( T T ) / 2 ]

定理2.1.5 [10] 若 Z n 1 × p 1 N n 1 , p 1 ( 0 , I n 1 , I p 1 ) ,常数矩阵 Ψ R n × n 1 Φ R p × p 1 M R n × p Y = Ψ Z Φ + M ( S ) N n , p ( M , Ξ , Σ ) 的特征函数为

ϕ Y ( T ) = exp [ i t r ( T M ) ] exp [ t r ( T Ξ T Σ ) / 2 ]

其中 Ξ = Ψ Ψ , Σ = Φ Φ

定理2.1.6 [10] 若 X ( S ) N n 1 , p 1 ( M , Ξ , Σ ) A R n × n 1 0 , B R p 1 × p 0 , C R n × p 是常数矩阵,那么

Y = A X B + C N n , p ( A M B + C , A Ξ A , B Σ B ) (2.2)

证明:由定理2.1.1可知

ϕ Y ( T ) = exp [ i t r ( T M ) ] exp { t r [ ( Ψ T Φ ) ( Ψ T Φ ) / 2 ] } = exp [ i t r ( T M ) ] exp { t r ( Φ T Ψ Ψ T Φ ) / 2 } = exp [ i t r ( T M ) ] exp [ t r ( T Ψ Ψ T Φ Φ ) / 2 ] = exp [ i t r ( T M ) ] exp [ t r ( T Ξ T Σ ) / 2 ]

2.2. 张量的预备知识

定义2.2.1 [11] (张量的切片)切片是张量的降维表示。图2给出了一个3阶张量 X I × J × K 的三种不同方向上的切片方式,即水平切片(horizontal切片)、左右切片(lateral切片)和前后切片(frontal切片)。类似矩阵A的第 i 行的表示法 A ( i , : ) 和第j列表示法 A ( : , j ) ,我们用 X ( : , , : , i k , : , , : ) 表示m阶张量 X 的模-k方向的第i个切片,如 X ( i , : , : ) 表示3阶张量 X 模-1方向的第 i i = 1 , , I 个切片, X ( : , j , : ) 表示lateral切片(模-2方向)的第 j j = 1 , , J 个切片, X ( : , : , k ) 表示frontal切片(模-3方向)的第 k k = 1 , , K 个切片。

类似于矩阵向量化,张量同样可进行矩阵化及向量化。下面我们来定义张量的矩阵化。

定义2.2.2 [12] 把一个3阶张量沿某方向的切片按一定顺序排成矩阵形式的过程称为张量的矩阵化(matricization)。

一个3阶张量有3个不同方向的切片,因此有3种形式的矩阵化,如一个2 × 3 × 4张量的模-1方向切片形成2 × 12的矩阵,同理它在模-2方向和模-3方向切片得到3 × 8和4 × 6矩阵。记张量 X 沿模- i 方向展开得到的矩阵为 X ( i )

例 2.2.1 设3阶张量 A 3 × 3 × 2 图3所示。

则其在模-1、模-2、模-3方向上矩阵化后得到的矩阵分别为

A ( 1 ) = [ 1 2 3 10 11 12 4 5 6 13 14 15 7 8 9 16 17 18 ] , A ( 2 ) = [ 1 4 7 10 13 16 2 5 8 11 14 17 3 6 9 12 15 18 ] ,

A ( 3 ) = [ 1 4 7 2 5 8 3 6 9 10 13 16 11 14 17 12 15 18 ] .

定义2.2.3 [12] 大小 I 1 × I 2 × × I m 的张量 X R I 1 × I 2 × × I m 与矩阵 U R J × I n 沿模-n的乘积为大小 I 1 × × I n 1 × J × I n + 1 × × I m 的张量 Y = X × n U R I 1 × × I n 1 × J × I n + 1 × × I m ,其元定义为

(a) horizontal切片 (b) lateral切片 (c) frontal切片

Figure 2. Slice of the third order tensor in three different directions

图2. 3阶张量在3个不同方向上的切片

Figure 3. An 3 × 3 × 2 tensor A

图3. 一个3 × 3 × 2张量A

Y i 1 i n 1 j i n + 1 i m = i n = 1 I n x i 1 i n i m u j i n (2.3)

定理2.2.1 [12] 张量 X 与矩阵 U 在模- n 方向的乘积的模- n 的矩阵化等价于矩阵 U 与张量 X 在模- n 方向矩阵化后的乘积,即

Y = X × n U Y ( n ) = U X ( n ) (2.4)

定理2.2.2. [12] 若 X R I 1 × × I N , A R J n × I n , B R J m × I m ,则有

X × n A × m B = X × m B × n A (2.5)

3. 随机张量的高斯分布

我们可将定理2.1.6改为张量的形式。若 X n 1 × p 1 × 1 N n 1 , p 1 , 1 ( M , Ξ , Σ ) ,常数矩阵 Ψ R n × n 1 Φ R p × p 1 M R n × p × 1 Y = X × 1 A × 2 B + C ( S ) N n , p ( M × 1 A × 2 B + C , A Ξ A , B Σ B )

为了将定理2.1.6推广到三阶张量的一般情况, 我们从随机矩阵的高斯分布出发定义随机张量的高斯分布,并将定理2.1.6中的结论推广到三阶张量。

定义3.1.称 Α = ( a i 1 i 2 i m ) R I 1 × × I m 为随机张量,如果每一个 a i 1 i 2 i m 都是随机变量。

定义3.2.称一个三阶随机张量 Α = ( a i j k ) R m × n × p 服从高斯分布,记作

Α N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) (3.1)

若满足以下三个条件

Α ( 1 ) j N m ( Μ ( 1 ) j , Σ 1 ) , Α ( 2 ) j N n ( Μ ( 2 ) j , Σ 2 ) , Α ( 3 ) j N p ( Μ ( 3 ) j , Σ 3 )

其中 Μ R m × n × p 表示均值张量, Σ i 表示张量 Α 沿第 i 个方向展开的矩阵的任意一列的协方差矩阵。

定义3.3 .如果(3.1)中的 Μ = 0 , Σ 1 = I m , Σ 2 = I n , Σ 3 = I p ,那么 Α N m , n , p ( 0 , I m , I n , I p ) 称作标准高斯张量。

定理3.1对于三阶张量 Α = ( a i j k ) R m × n × p ,若 Α N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) ,当且仅当

Α ( 1 ) N m , n p ( Μ ( 1 ) , Σ 1 , Σ 3 Σ 2 ) (3.2)

Α ( 2 ) N n , m p ( Μ ( 2 ) , Σ 2 , Σ 3 Σ 1 ) (3.3)

Α ( 3 ) N p , m n ( Μ ( 3 ) , Σ 3 , Σ 2 Σ 1 ) (3.4)

证明:设水平切片(模-1方向)的第 i 个切片为矩阵 B ,左右切片(模-2方向)的第 j 个切片为矩阵 C ,前后切片(模-3方向)的第 k 个切片为矩阵 D

由于 B N p , n ( Μ ( i , : , : ) , Σ 3 , Σ 2 ) , C N m , p ( Μ ( : , j , : ) , Σ 1 , Σ 3 ) , D N m , n ( Μ ( : , : , k ) , Σ 1 , Σ 2 )

v e c ( B ) N m p [ v e c ( Μ ( j , : , : ) ) , Σ 3 Σ 2 ] v e c ( C ) N m p [ v e c ( Μ ( : , j , : ) ) , Σ 3 Σ 1 ]

v e c ( D ) N m p [ v e c ( Μ ( : , : , j ) ) , Σ 2 Σ 1 ]

Α ( 1 ) N m , n p ( Μ ( 1 ) , Σ 1 , Σ 3 Σ 2 ) Α ( 2 ) N n , m p ( Μ ( 2 ) , Σ 2 , Σ 3 Σ 1 ) Α ( 3 ) N p , m n ( Μ ( 3 ) , Σ 3 , Σ 2 Σ 1 )

推论3.1.对于三阶张量 Α R m × n × p ,若 Α N m , n , p ( Μ , Σ 1 , Σ 2 , Σ 3 ) ,则

(1) v e c ( Α ( 1 ) ) N m n p ( v e c ( Μ ( 1 ) ) , Σ 3 Σ 2 Σ 1 )

(2) v e c ( Α ( 2 ) ) N n m p ( v e c ( Μ ( 2 ) ) , Σ 3 Σ 1 Σ 2 )

(3) v e c ( Α ( 3 ) ) N p m n ( v e c ( Μ ( 3 ) ) , Σ 2 Σ 1 Σ 3 )

证明:利用定义4即可

定理3.2 .若 Α N m 1 , n 1 , p 1 ( M , Σ 1 , Σ 2 , Σ 3 ) ,矩阵 T 1 R m × m 1 T 2 R n × n 1 T 3 R p × p 1 U R m × n × p ,那么

Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U N m , n , p ( Α × 1 T 1 × 2 T 2 × 3 T + U , T 1 Σ 1 T 1 , T 2 Σ 2 T 2 , T 3 Σ 3 T 3 ) (3.5)

证明:由于 Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U ,则 Β ( 1 ) = T 1 ( Α × 2 T 2 × 3 T 3 ) ( 1 ) + U (1)

Λ = Α × 2 T 2 × 3 T 3 ,则 Λ ( 1 ) = Α ( 1 ) ( T 3 T 2 ) ,则 Β ( 1 ) = T 1 Α ( 1 ) ( T 3 T 2 ) + U (1)

由定理2.1.6可知

Β ( 1 ) = T 1 Α ( 1 ) ( T 3 T 2 ) + U ( 1 ) N m , n p ( T 1 M ( 1 ) ( T 3 T 2 ) + U ( 1 ) , T 1 Σ 1 T 1 , ( T 3 T 2 ) ( Σ 3 Σ 2 ) ( T 3 T 2 ) )

由于 T 1 M ( 1 ) ( T 3 T 2 ) = T 1 ( M × 2 T 2 × 3 T 3 ) ( 1 ) M × 1 T 1 × 2 T 2 × 3 T 3

( T 3 T 2 ) ( Σ 3 Σ 2 ) ( T 3 T 2 ) = ( T 3 Σ 3 T 3 ) ( T 2 Σ 2 T 2 )

Β = Α × 1 T 1 × 2 T 2 × 3 T 3 + U N m , n , p ( Α × 1 T 1 × 2 T 2 × 3 T + U , T 1 Σ 1 T 1 , T 2 Σ 2 T 2 , T 3 Σ 3 T 3 )

基金项目

苏州科技大学研究生科研创新项目(SKYCX16_008)。

参考文献

[1] Chikuse, Y. (2008) The Matrix Angular Central Gaussian Distribution. Journal of Multivariate Analysis, 33, 265-274.
https://doi.org/10.1016/0047-259X(90)90050-R
[2] 尉迟江. 对高斯分布函数形式的推导[J]. 统计与信息论坛, 2009, 24(5): 3-6.
[3] 熊焰, 赵铁山. 金融资产收益率分布的混合高斯分布模型[J]. 统计与决策, 2004(12): 26.
[4] 张乃根. 经济学分析法学的理论基石——“高斯原理”评介[J]. 政治与法律, 1991(2): 54-56.
[5] 邓改革. 天文时间序列的分析研究[D]: [硕士学位论文]. 广州: 广州大学, 2013.
[6] 徐甲文, 徐松涛. 指数或高斯分布信号的MSE量化器的简捷设计[J]. 北京航空航天大学学报, 1997(3): 404-408.
[7] 李建泉. 正态分布高斯推证法释疑[J]. 测绘地理信息, 1991(1): 35-37.
[8] 王海涌, 费峥红, 王新龙. 基于高斯分布的星像点精确模拟及质心计算[J]. 光学精密工程, 2009, 17(7): 1672-1677.
[9] Kollo, T. and Von Rosen, D. (2005) Advanced Multivariate Statistics with Matrices. Springer Netherlands, 81-82, 123-135.
[10] Muller, K.E. and Stewart, P.W. (2006) Linear Model Theory. Wiley-Interscience [John Wiley & Sons], Hoboken, NJ, 7-8.
https://doi.org/10.1002/0470052147
[11] Kolda, T.G. and Badel, B.W. (2009) Tensor Decompositions and Ap-plications. Sandia Report, 51, 455-500.
https://doi.org/10.1137/07070111X
[12] Qi, L. and Luo, Z. (2017) Tensor Analysis: Spectral Theory and Spectral Tensors. SIAM.
https://doi.org/10.1137/1.9781611974751

为你推荐



Baidu
map