在挖掘生物疾病数据的过程中经常受到强噪声扰动,会使得数据挖掘不准确,此时一些用于挖掘临界点信号的传统方法失效。本文中采取基于个体特定网络的概率分布嵌入的方法研究肝癌和前列腺癌两个时序列数据,检测疾病恶性突变的临界信号,进而预测疾病的突变点。这一工作的理论基础在于通过概率分布嵌入变换将原系统的样本状态的大噪声数据变成样本概率分布的小噪声数据,再建立个体特定网络。发现可以很好的降低数据受到的噪声干扰并且解决了样本数据少的问题。然后基于动态网络生物标志物来检测疾病突变的信号,最后对这些生物标志物进行功能分析,发现能够很好地反映临界信号。 In the process of mining biological disease data, it is often disturbed by strong noise, which makes data mining inaccurate. At this time, some traditional methods for mining critical point signals are invalid. In this paper, we adopt the method of probability distribution embedding based on individual specific network to study the two time series data of liver cancer and prostate cancer, detect the critical signal of malignant mutation of disease, and then predict the mutation point of disease. The theoretical basis of this work is to transform the big noise data of the sample state of the original system into the small noise data of the sample probability distribution by the probability distribution embedding transformation, and then establish the individual specific network. It is found that it can reduce interference of data noise and solve the problem of fewer sample data. Then, based on the dynamic network biomarkers to detect the signal of disease mutation, the functional analysis of these biomarkers shows that they can well reflect the critical signal.
王年赢
华南理工大学,数学学院,广东 广州
收稿日期:2018年12月23日;录用日期:2019年1月4日;发布日期:2019年1月11日
在挖掘生物疾病数据的过程中经常受到强噪声扰动,会使得数据挖掘不准确,此时一些用于挖掘临界点信号的传统方法失效。本文中采取基于个体特定网络的概率分布嵌入的方法研究肝癌和前列腺癌两个时序列数据,检测疾病恶性突变的临界信号,进而预测疾病的突变点。这一工作的理论基础在于通过概率分布嵌入变换将原系统的样本状态的大噪声数据变成样本概率分布的小噪声数据,再建立个体特定网络。发现可以很好的降低数据受到的噪声干扰并且解决了样本数据少的问题。然后基于动态网络生物标志物来检测疾病突变的信号,最后对这些生物标志物进行功能分析,发现能够很好地反映临界信号。
关键词 :个体特定网络,概率分布嵌入,矩展开,动态网络生物标志物
Copyright © 2018 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
当复杂系统的阈值被越过时,会有突然的、长期的变化发生,称为临界转变。近来,对于复杂疾病系统的临界信号的研究也越来越多,如果能够很好的检测复杂疾病的临界信号,对于疾病的掌控是非常有用的。一个疾病系统的随时间或参数动力学过程 [
传统多样本降噪的方法 [
动力系统理论的研究表明,临界慢化法(CSD) [
d x ( t ) d t = f ( x ( t ) ) + η ( t ) (1)
其中 f ( x ( t ) ) = ( f 1 ( x ( t ) ) , ⋯ , f n ( x ( t ) ) ) 是非线性函数,状态变量 x ( t ) = ( x 1 ( t ) , ⋯ , x n ( t ) ) ,噪声 η ( t ) = ( η 1 ( t ) , ⋯ , η n ( t ) ) ,其中 η ( t ) 是强高斯白噪声,即 〈 η i ( t ) 〉 = 0 , 〈 η i ( t ) , η j ( t ) 〉 = σ i , j 。在这里 〈 ⋅ 〉 表示计算平均值的运算符。
在本文中,将系统(1)通过对变量矩展开 [
d m ( t ) d t = g ( m ( t ) ) + ϵ ( t ) (2)
其中 g ( m ( t ) ) = ( g 1 ( m ( t ) ) , ⋯ , g N ( m ( t ) ) ) 表示由非线性函数 f ( x ( t ) ) 通过矩展开产生的,矩变量 m ( t ) = ( m 1 ( t ) , ⋯ , m N ( t ) ) ,其中矩系统的噪声 ϵ ( t ) = ( ϵ 1 ( t ) , ⋯ , ϵ N ( t ) ) ,这里 ϵ ( t ) 是弱高斯白噪声,即 〈 ϵ i ( t ) 〉 = 0 , 〈 ϵ i ( t ) , ϵ j ( t ) 〉 = θ i , j ,并且有 θ ≪ σ ,其中
将确定动力系统的样本状态方程,如何转化为样本的一阶矩和二阶矩的矩系统方程。首先考虑一个m个分子带有n个反应的生物化学主方程系统,令 X = ( X 1 , X 2 , ⋯ , X m ) 表示分子在时间t的状态,定义 P ( X ; t ) 表示分子X的概率分布函数,此时通常概率分布动力系统方程可以由主方程 [
∂ P ( X ; t ) ∂ t = ∑ k = 1 n [ ω k ( X − θ k ) P ( X − θ k ; t ) − ω k ( X ) P ( X ; t ) ] (3)
其中 X ( 0 ) = 0 , θ k = ( θ k , 1 , θ k , 2 , ⋯ , θ k , m ) 表示分子状态改变值,是一列正向量,即 θ k , j 表示第j个分子在第k个反应方程上的改变量, ω k ( X ) 表示在第k个反应方程的分子状态从X到 X + θ k 的转化率。通过对 ω k ( X − θ k ) P ( X − θ k ; t ) 进行泰勒展开到2阶可以得到以下Fokker-Plank方程 [
∂ P ( X ( t ) ; t ) ∂ t = ∑ k = 1 n [ − ∑ i = 1 m θ k , i ∂ ∂ X i + ∑ i , j = 1 m θ k , i θ k , j 2 ∂ 2 ∂ X i ∂ X j ] ( ω ( X ( t ) ) P ( X ( t ) ; t ) ) (4)
根据方程(3)和(4)我们得到其概率状态方程对应的Langevin方程:
d X i ( t ) d t = F i + ξ i ( t ) (5)
其中 F i = ∑ k = 1 n θ k , i ω k ( X ( t ) ) , ξ i 是高斯白噪声,并且均值 〈 ξ i ( t ) 〉 = 0 ,协方差 〈 ξ i ( t ) , ξ j ( t ) 〉 = F i j = ∑ k = 1 n θ k , i θ k , j ω k ( X ( t ) ) 。
因此对于更一般Langevin方程,令 g ( X ( t ) , s ) = ∏ i = 1 m X i s i ( t ) ,根据陈的文章 [
d 〈 g ( X ( t ) , s ) 〉 d t = 〈 ∑ i = 1 m F i ∂ g ∂ X i 〉 + ∑ i , j = 1 m 〈 F i , j ∂ 2 g ∂ X i ∂ X j 〉 (6)
进一步,当通过对系统(1)矩展开到二阶时,令一阶原点矩 N = { N 1 , N 2 , ⋯ , N m } ,其中 N i = 〈 x i ( t ) 〉 ,二阶中心距(协方差) M = { M i j } i , j = 1 , 2 , ⋯ , m 其中 M i j = 〈 x i − 〈 N i 〉 〉 〈 x j − 〈 N j 〉 〉 ,通过(6)我们可以得到:
d N i ( t ) d t = G i ( N ( t ) , M ( t ) ) (7)
d M i j ( t ) d t = G i j ( N ( t ) , M ( t ) ) (8)
其中,
G i j ( N ( t ) , M ( t ) ) = 〈 ( x i ( t ) − N i ( t ) ) f j ( x ( t ) ) + ( x j ( t ) − N j ( t ) ) f i ( x ( t ) ) 〉 + σ i j (10)
对于一个非线性系统来说,当矩样本展开到无穷阶即 时 [
根据刘 [
(A)中(a, b)表示单变量动态系统在不同噪声下随着参数或时间的表现行为。(a)表示单变量系统在小噪声下时,临界点和系统分岔点位置非常接近,此时传统方法(如临界慢化方法)可以检测预警信号。(b)表
图1. 概率分布嵌入模型与个体特定网络
示单变量系统在大噪声下时,此时临界点随机的远离系统分岔点,通过CSD方法无法检测预警信号。(c)通过矩展开,带有大噪声的观测数据通过矩展开的方式转变为高维空间的小噪声分布数据,这里的样本矩对应着一个概率分布,样本状态过渡转变为概率分布过渡,通过预测分布的动态行为,可以发现CSD方法是有效的。(d)可以物理的解释为将原系统的大噪声分解到升维的两个矩平面,此时样本X大噪声动力系统,变成了小噪声的矩样本动力系统。(B)中表示当加入测试样本的时候的个体特定网络,即可以通过扰动网络和参考网络的相关系数差计算 Δ P C C i n 。
当生物数据测试样本比较少时,甚至只有一个样本。对于大噪声的数据,此时我们采取个体特定网络概率分布嵌入模型,即结合概率分布嵌入法和个体特定网络。首先通过概率分布嵌入法,将样本状态数据转化为概率分布动态数据。然后引入个体特定网络,将正常样本作为参考网络,当加入测试样本形成新的扰动网络,扰动网络与参考网络之间的差异我们称为个体特定网络。基于前面的理论分析,类似多样本降噪法 [
1) 显著组中的每个变量的表达均值差的绝对值( Δ E D )明显增加;
2) 显著组中的变量之间的皮尔逊相关系数差的绝对值( Δ P C C i n )明显增加;
3) 显著组中的变量与非显著组中的变量之间的皮尔逊相关系数差绝对值( Δ P C C o u t )明显增加。
引入个体特定网络标志物综合指标 Δ I S C I :
Δ I S C I = Δ E D × Δ P C C i n Δ P C C o u t + ε (11)
对于同时满足以上三个条件,此时 Δ I S C I 值达到最大或者急剧增加,即该时刻达到临界状态,从而得到动态网络生物标志物。
动态网络生物标志物(DNB)提供了一个观察小噪声系统预警信号的理论基础,并且通过DNB预警疾病系统信号是成功证实的 [
基于上述理论基础,对于给定数据,当样本数据只有一个样本时,此时我们结合了概率分布嵌入法和个体特定网络,计算个体特定网络概率嵌入法动态网络标志物综合指标 Δ I S C I ,具体步骤如下:
第一步:标准化
N = D 正 常 − M e a n ( D 正 常 ) S t d ( D 正 常 ) (12)
D = D 疾 病 − M e a n ( D 正 常 ) S t d ( D 正 常 ) (13)
D 正 常 表示正常样本的数据, D 疾 病 表示疾病样本的数据,N和D分别表示标准化正常样本和疾病样本的数据, M e a n ( D 正 常 ) , S t d ( D 正 常 ) 分别表示正常样本的均值和标准差。
第二步:筛选基因
在每个时间点,设置显著性水平p < 0.05或者p < 0.01对数据进行T-检验,以及差异表达挑选出在正常样本和疾病样本间具有显著差异的基因。
第三步:矩升维
计算每个样本每个时间点的一阶矩和二阶矩。
第四步:计算基因表达偏差 Δ E D
Δ E D = | g − g ¯ | (14)
计算每个基因表达偏差值,设置合理的阈值筛选基因,其中g表示疾病样本基因的表达值, g ¯ 正常样本基因的表达值均值。
第五步:确定DNB和计算 Δ I S C I
首先利用皮尔逊相关系数差值的绝对值对基因聚类。根据理论可知,当新的测试样本是疾病样本的时候,表达偏差会突然增大,同时皮尔逊相关系数差值也会显著增大,此时找出聚类结果满足 Δ I S C I 综合指标三个条件即可确定备选的DNB,从而确定DNB。
计算综合指标 Δ I S C I ,
Δ I S C I = Δ E D × Δ P C C i n Δ P C C o u t + ε (15)
其中, 是基因表达偏差,
接下来我们将上面方法应用在肝癌数据(GSE80018)和前列腺癌数据(GSE5345) (https://www.ncbi.nlm.nih.gov/gds/?term=),数据下载自NCBI的GEO数据库,当样本数据少,基于个体特定网络概率嵌入法能够依据少量样本数据检测临界信号确定临界点,根据计算两个数据的个体特定网络标志物综合指标 确定时间点。根据肝癌数据,利用个体特定网络概率嵌入法检测到5个样本均在第3天的时候发生突变(图2(a)),并且此时分别有动态网络标志物235,298,210,271,260个,其中包含转录因子,他们两两之间共同基因分别有162,142,162,154,145,173,157,152,152,166,并且对这237个基因进行生存分析等功能分析,并通过肝癌动态网络标志物以及STRING得到的蛋白质交互网络,利用CytoScape画出疾病基因动态变化过程圆盘图和翻转网络(图2(c),图2(d),结果与实验观测吻合,实验数据是苯巴比妥(PB)介导的体内肝肿瘤促进早期阶段的分子和病理扰动的时间序列,在自由采食PB (饮用水中0.05% [wt/vol])给药的小鼠中进行动力学研究(治疗1,3,7,14,28,57和91天),PB处理影响肝脏中大量基因的转录,在研究的至少一个时间点内显着失调的约2000个基因。因为细胞周期/有丝分裂相关基因的瞬时上调,在PB处理1天后检测到最大数量的转录变化。同时药物代谢基因被强烈上调以及在整个13周的研究中它们的表达仍然很高。并且和转录分析一致,PB诱导的异生素代谢酶(包括CYP450酶和还原酶POR)的蛋白质水平变化明显,检测到的最显着的组织病理学异常是从PB治疗7天开始观察到的肝细胞肥大,并且在稍后的时间点严重程度增加 [
针对于数据受到强噪声的干扰和实验数据样本少的情况,结合了概率分布嵌入法和个体特定网络,首先通过概率分布嵌入,将样本状态数据转化为概率状态数据,此时低维的大噪声数据转化为高维的小噪声数据,再通过利用正常样本建立的参考网络与加入实验样本建立的扰动网络,构造个体特定网络,通过验证综合指标,找出动态网络生物标志物,可以很好的探测疾病的临界信号。
对于一些实际数据,很难用确定性方程表达刻画,个体特定网络概率分布嵌入法同样适用于非确定性复杂系统,此时用于肝癌数据和前列腺癌数据,都成功的探测出了临界信号(图2(a),图2(b))。对于肝癌数据,利用动态网络生物标志物和生存分析找出23个基因(ATG9A, BDH1, CENPW, DPY19L2, GXYLT1, INHBA, MLF1, NEDD4, PA2D4, PAH, PKIA, POU2F1, PTPN12, RGS5, RUSC2, SEH1L, SV2A, TCP1, THAP4, TRPM6, TUBGCP, TXLNA, VAX1)当这些表达异常时,肝癌患者存活率下降,生存时间变短(图3(a))。这些基因中很多被证明和癌症的发展以及病变有关,含有TCP1的伴侣蛋白CCT8会促进肝癌细胞增殖 [
图2. 基于个体特定网络分布嵌入法检测真实数据集的临界信号和肝癌圆盘图以及翻转网络
图3. 基于个体特定网络概率嵌入法生物标志物的肝癌和前列腺癌生存分析
SMARCA4)当这些表达异常时,前列腺癌患者存活率下降,生存时间变短(图3(b))。同样这些基因很多被研究证实与前列腺癌的病变有关,其中CCNA2的下调可以有效抑制癌细胞的增殖和迁移,并诱导细胞凋亡和细胞周期停滞 [
王年赢. 基于个体特定网络和矩升维降噪法来探测疾病系统临界信号 Detection of Critical Signals in Disease Systems Based on Individual Specific Networks and Moment Expansion Noise Re-duction Method[J]. 计算生物学, 2018, 08(04): 70-79. https://doi.org/10.12677/HJCB.2018.84009
https://doi.org/10.1038/srep00342
https://doi.org/10.1103/PhysRevA.38.1649
https://doi.org/10.1093/bioinformatics/bti392
https://doi.org/10.1038/srep17501
https://doi.org/10.1063/1.4950767
https://doi.org/10.1093/nar/gkw772
https://doi.org/10.1007/s00422-014-0607-5
https://doi.org/10.1063/1.2915501
https://doi.org/10.1007/978-3-642-61544-3
https://doi.org/10.1049/iet-syb:20070031
https://doi.org/10.1093/toxsci/kfs303
https://doi.org/10.1186/1741-7007-5-4
https://doi.org/10.1111/apm.12258
https://doi.org/10.1371/journal.pgen.1006787
https://doi.org/10.1111/asj.13041
https://doi.org/10.2147/OTT.S183925