本文的目的在于找出影响糖尿病患者糖化血红蛋白含量的主要危险因素。通过收集某医院在2015年1月至2016年12月间的糖尿病患者的临床及实验室数据资料,从中随机抽取10例具代表性、完善性的数据资料,然后使用超拉丁方抽样的方法对这些数据资料进行加工处理,得到一组全新的抽样数据。之后使用minitab软件工具对抽样数据作多元线性回归分析,得出同时具有医学意义和统计学意义的可靠结论。 The aim of this study is to identify the major risk factors for HbA1c in diabetic patients. Through the collection of a hospital from January 2015 to December 2016 in diabetic patients with clinical and laboratory data, 10 cases were randomly sampled from representative and perfect data. Then using the method of Latin hypercube sampling processing of these data, we derived a new data sampling group. After that, the Minitab software was used to analyze the sampling data by multiple linear regression analysis, and the reliable conclusions of both medical significance and statistical significance were obtained.
江峻瑜,张天芳*
江西师范大学数学与信息科学学院,江西 南昌
收稿日期:2017年10月3日;录用日期:2017年10月20日;发布日期:2017年10月30日
本文的目的在于找出影响糖尿病患者糖化血红蛋白含量的主要危险因素。通过收集某医院在2015年1月至2016年12月间的糖尿病患者的临床及实验室数据资料,从中随机抽取10例具代表性、完善性的数据资料,然后使用超拉丁方抽样的方法对这些数据资料进行加工处理,得到一组全新的抽样数据。之后使用minitab软件工具对抽样数据作多元线性回归分析,得出同时具有医学意义和统计学意义的可靠结论。
关键词 :糖化血红蛋白,超拉丁方,相关系数,回归分析
Copyright © 2017 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
糖尿病是以持续高血糖为其基本生化特征的一种慢性全身性代谢性疾病,主要是由于体内胰岛素分泌绝对或相对不足,从而导致以糖代谢紊乱为主的糖、蛋白质、脂肪代谢紊乱的一种综合病症 [
考虑到HbA1c ≥ 6.5%被作为糖尿病的诊断切点。本文对影响糖尿病患者糖化血红蛋白(HbA1c)含量的主要危险因素统计分析,为临床合理治疗与护理以及应用药物提供科学依据。
数据来源于某医院计算机系统中2015~2016年糖尿病患者的临床及实验室数据资料,包括糖化血红蛋白(Y, %)、年龄(X1,岁)、体重指数(X2, kg/m2)、总胆固醇(X3, mmol/L)、收缩压(X4, mm/Hg)和舒张压(X5, mm/Hg)等数据资料 [
当试验点之间有负相关时,方差Var(y(x)) = n可以减少,即可以提高估计总体均值的精度。基于这种思想,McKay et al. (1979)提出了超拉丁方抽样方法(LHS),该方法是采用两步随机化,可以给出总体均值的无偏估计,且其渐近方差比SRD的小,其本质是分层抽样方法。假如试验次数为n,LHS方法首先对区域进行分层,即区域的每一维都等分为n个小区间,这样试验域就等分为 n s 个小方格,然后在 n s 个方格中选取n个方格,使得任一行和任一列都仅有一个方格被选中,最后在选中的n个方格中各自随机选取一个点组成最后的n个试验点,这种方法使试验域 C s 内任一点都可能被抽到 [
编号 | X1 | X2 | X3 | X4 | X5 | Y |
---|---|---|---|---|---|---|
1 | 49 | 32.19 | 6.0 | 148 | 90 | 7.8 |
2 | 64 | 25.24 | 7.0 | 151 | 80 | 7.4 |
3 | 66 | 24.26 | 4.8 | 156 | 87 | 7.2 |
4 | 48 | 26.18 | 7.6 | 139 | 86 | 7.5 |
5 | 47 | 32.07 | 5.7 | 157 | 89 | 7.7 |
6 | 59 | 25.19 | 6.6 | 156 | 81 | 7.1 |
7 | 76 | 27.26 | 5.4 | 140 | 85 | 6.9 |
8 | 74 | 24.94 | 7.3 | 150 | 82 | 7.9 |
9 | 65 | 24.34 | 2.5 | 142 | 93 | 6.8 |
10 | 53 | 24.43 | 7.1 | 145 | 84 | 7.3 |
表1. 10例糖尿病患者的数据资料
步骤1取s个独立的 { 1 , ⋯ , n } 的随机置换 π j ( 1 ) , ⋯ , π j ( n ) , j = 1 , ⋯ , s ,将它们作为列向量组成一个 n × s 设计矩阵,称为超拉丁方设计(Latin hypercube design, LHD),记为LHD(n,s),它的第k行第j列的元素记为 π j ( k ) 。
步骤2取[0,1]上ns个均匀分布的独立抽样, U i j ~ U ( 0 , 1 ) , i = 1 , ⋯ , n , j = 1 , ⋯ , s 。记 x k = ( x k 1 , ⋯ , x k s ) ′ ,其中
x k j = π j ( k ) − U k j n , k = 1 , ⋯ , n ; j = 1 , ⋯ , s 。 (2.1)
则设计 D = { x 1 , ⋯ , x n } 即为一个LHS设计,并记为LHS(n,s)。
对抽样数据进行处理,令 x k j = π j k − X j ¯ n ,其中 n = 20 , k = 1 , ⋯ , 20 , j = 1 , ⋯ , 6 ,并且使 Y = X 6 , X j ¯
是组 X j 数据的均值。
为了减小误差,对六组数据的处理有所不同, X 1 组数据是每组的每个数据减去该组均值然后除以2得到一个新的[0,10]上的取值, X 2 、 X 3 、 X 4 、 X 5 四组数据是每组的每个数据减去该组均值然后得到一个新的[0,10]上的取值, X 6 (即Y)组数据是每组的每个数据减去该组均值然后乘以10得到一个新的[0,10]上的取值。其中 X 1 ¯ = 60.1 、 X 2 ¯ = 26.61 、 X 3 ¯ = 6 、 X 4 ¯ = 148.4 、 X 5 ¯ = 86.7 、 Y ¯ = X 6 ¯ = 7.36 。由超拉丁方抽样的构造过程可知:1) 它很容易产生;2) 它可以处理试验次数n与因素个数s较大的问题;3) 与完全随机抽样相比,它估计y的样本均值的样本方差更小。而且它的表现比完全随机抽样稳定,故在实际中大量使用,能够很好的配合计算机试验,帮助我们高速、有效地处理越来越复杂的问题。
表2给出了根据表1数据所得到的超拉丁方(LHS)设计。
对于表2的数据资料用minitab统计软件计算的主要结果见表3和表4。
由上表3可见,F = 2.72, P ≤ 0.01,此回归方程有统计学意义。由上表4可见,自变量 X 2 、 X 3 、 X 4 按 α = 0.05 水平有统计学意义,但 X 1 和 X 5 无统计学意义。
编号 | X1 | X2 | X3 | X4 | X5 | Y |
---|---|---|---|---|---|---|
1 | 5.55 | 5.58 | 0 | 0.4 | 3.3 | 4.4 |
2 | 1.95 | 1.37 | 1 | 2.6 | 6.7 | 0.4 |
3 | 2.95 | 2.35 | 1.2 | 7.6 | 0.3 | 1.6 |
4 | 6.05 | 0.43 | 1.6 | 9.4 | 0.7 | 1.4 |
5 | 6.55 | 5.46 | 0.3 | 8.6 | 2.3 | 3.4 |
6 | 0.55 | 1.42 | 0.6 | 6.6 | 5.7 | 2.6 |
7 | 7.95 | 0.65 | 0.6 | 8.4 | 1.7 | 4.6 |
8 | 6.95 | 1.67 | 1.3 | 1.6 | 4.7 | 5.4 |
9 | 2.45 | 2.27 | 3.5 | 6.4 | 6.3 | 5.6 |
10 | 3.55 | 2.18 | 1.1 | 3.4 | 2.7 | 0.6 |
表2. 由10例糖尿病患者的数据资料生成的超拉丁方设计
变异来源 | 自由度 | SS | MS | F | p |
---|---|---|---|---|---|
回归 | 5 | 20.524 | 4.105 | 1.18 | 0.009448 |
残差误差 | 4 | 13.876 | 3.469 | ||
合计 | 9 | 34.400 |
表3. 回归方程的方差分析表
自变量 | 偏回归系数 | 系数标准误差 | T | P |
---|---|---|---|---|
常数项 | −0.01300 | 0.01712 | −0.76 | 0.180 |
X1 | 0.01119 | 0.01822 | 0.61 | 0.549 |
X2 | 0.02565 | 0.03720 | 0.69 | 0.046 |
X3 | 0.05274 | 0.03694 | 1.43 | 0.006 |
X4 | 0.04701 | 0.01685 | 2.79 | 0.014 |
X5 | −0.00836 | 0.01723 | −0.49 | 0.635 |
表4. 偏回归系数估计结果
结果:体重指数、总胆固醇和收缩压对于糖尿病患者糖化血红蛋白的含量具有统计学意义上的显著影响,是影响糖尿病患者糖化血红蛋白含量的主要危险因素。
与前作参考文献 [
结论:多个相关的研究显示,糖化血红蛋白可反映患者近2个月的平均血糖水平,研究发现其与糖尿病并发症的发生有关 [
总之,体重指数、总胆固醇、收缩压和糖化血红蛋白是糖尿病慢性并发症发生的危险因素,特别是糖化血红蛋白含量更是糖尿病临床诊断的代表性指标,而且体重指数、总胆固醇、收缩压又是影响糖尿病患者糖化血红蛋白含量的主要危险因素,所以各危险因素相辅相成,时刻威胁着糖尿病患者的身体健康。除此之外,虽然影响糖尿病患者糖化血红蛋白(HbAlc)的主要危险因素我们已经找到,是体重指数、总胆固醇和收缩压,但是年龄、病程、高血压、高血糖、血脂紊乱也是影响糖化血红蛋白含量特别是糖尿病慢性并发症发生的危险因素。所以说严格控制所有的这些因素是提高糖尿病患者健康生活质量、预防和延缓糖尿病患者慢性并发症发生发展的重要措施,能最大限度地降低糖尿病对机体健康的危害。
本项目由国家自然科学基金(基金号:11601201,11661076)支持。
江峻瑜,张天芳. 影响糖尿病患者糖化血红蛋白含量的主要危险因素统计分析Statistical Analysis of Major Risk Factors Affecting Glycosylated Hemoglobin Levels in Diabetic Patients[J]. 统计学与应用, 2017, 06(04): 455-459. http://dx.doi.org/10.12677/SA.2017.64051