Analysis of Factors Affecting Incubation Period of Virus—Based on Log-Normal
Given the severity of infectious diseases, pandemics, and other sudden illnesses, their emergence undoubtedly poses a grave impact on people’s lives and production. If not controlled effectively, it will lead to a series of issues concerning survival and development, such as the strain on medical resources and a decline in economic quality. Therefore, it is crucial to conduct in-depth research on the regularity of the source of the disease. By grasping the development pattern of the disease, doctors can promptly formulate corresponding medical treatment plans, implement effective interventions, and thereby curb the further spread of the disease and control medical costs. Since the outbreak of the COVID-19 pandemic in 2019, the virus has had a tremendous impact on various fields such as global economy, health, and medical care, while also posing severe challenges to human survival and safety. Based on the real data of the number of infections in various provinces and cities announced by the National Health Commission, this article has strictly screened for information completeness and selected 78 patients’ medical record data as research samples according to the criteria of only one exposure to the source of the disease, clear exposure source, and complete exposure information records. Through in-depth analysis, the latent period of the novel coronavirus was explored, and the results showed that the average latent period of the virus in the human body is approximately 16 days. Additionally, the study found that the length of the latent period was not significantly associated with the patient’s gender or age, but was closely related to the mode of contact with infected individuals and the regional concentration of the virus.
Incubation Period of Virus
在二零一九年的十二月份,中国湖北省武汉市由于不明原因的肺炎疫情而按下了暂停键,全市所有人员居家静默,非必要不得流动,务工人员不得返乡等规定随之到来,全国上下所有成员都为之担忧,随着专家组的不断介入与调查,COVID-19的真实面貌也被人们所认识,它是一种由新型冠状核胞病毒感染导致的肺部炎症,此次疫情的病毒毒株是人类历史上从未出现过的,因此对它的病理研究是十分必要的。
病毒感染人体的时候并不会马上就使机体免疫做出相应的免疫应答,换句话说它并不会立刻让受感染的机体察觉到它的存在,由于病毒进入人体的时候其信息载体是核糖核酸,病发前需要一定的时间在宿主体内进行转录、繁殖,当宿主机体病毒载荷量达到一定限度时其免疫系统才会发觉病原体的存在,继而引起免疫系统的一系列反应,与此同时为了保证免疫系统的正常运行,机体感觉器官会发生异常,也就是说此时病理状态被揭露出来了。此次疫病源作为病毒家族的一员也具有相同的暴露历程,医学上将这种机体内有病原体进入,但机体并不会立刻暴露病理状态的时间段叫做病原体的潜伏期,由于此次疫情病毒具有自然疫源性并且具有与一些流感病毒的相似身体反应特征,以及由于该病毒复制快、合胞体嗜性广、在宿主体内存活能力强等原因,使其传播速度极快、变异能力极强,从而导致人们无法及时对传染源进行识别切断,也因此此次疫情对国家多个层面都受到了巨大的冲击,遇上了前所未有的挑战。因此对该病毒的病理研究在帮助人们把握该病毒特性,减少相关损失上是格外重要的,也是必要的。
迄今为止对于病毒潜伏期的研究已经有很多医务工作者,流行病学专家在重多领域根据病患临床表现对其进行了相应的探索式研究,早期在新型冠状病毒的研究中郭德银等人
本次研究所用到的数据是来自新冠肺炎疫情爆发初期卫生健康委员会在官网发布的新增感染人员的数据公示,从多个数据中剔除了患病期间数据记录不完整,溯源不清楚,发病日期记录模糊,数据信息不精确的一些有缺陷的数据,并删去了数据准确度 < 5的数据之后,最终得到了78条完整数据信息,其中提取了感染人员的年龄特征,性别特征,感染方式,感染地点等重要信息,研究了潜伏期的长短是否与这些因素具有潜在的联系。
本次研究所用到的数据共有78条。其中在性别特征上有男性感染者45人,女性患者33人。男性感染者占比58%,女性感染者占比42%,从初步的统计数据来看有男性患者高于女性患者的趋势,见
在年龄特征上在所有感染者中,年龄最小感染者为9岁,年龄最大感染者为69岁,感染者的平均感染年龄为43.2岁,从初步统计的数据来看感染对象以青壮年群体为主,其次是中年,老年,幼儿居后的特征,见
记录了四种感染方式,即① 外出感染、② 聚会感染、③ 家庭内部接触感染、④ 其他方式感染;感染的地点记录有① 武汉感染、② 湖北非武汉感染、③ 其他地区感染的三种感染地点,根据离武汉的远近程度,可以解释为湖北武汉感染为病毒浓度最高区,湖北非武汉为病毒浓度中高区,其他地区为病毒浓度最低区,见
潜伏期数据初步统计显示,COVID-19感染者的数据中有最短潜伏期天数为0天,也就是说从感染到发病是一个很快的过程,最长潜伏期天数为16天,平均潜伏期天数为5.54天的特征。也就是说大部分患者潜伏期天数在5、6天左右的波动是最小的,见
对选定样本数据做了初步统计分析,如下
病毒潜伏期数字特征统计分析 |
||||||||
样本个数 |
中位数 |
众数 |
均值 |
方差 |
最大值 |
最小值 |
偏度 |
峰度 |
78 |
5 |
3 |
5.54 |
13.78 |
16 |
0 |
0.59 |
−0.36 |
为了检验样本是否服从对数正态分布,对潜伏期样本做了非正态分布的Shapior-Wilk检验,于是得到检验值w为0.94951,得到p值为0.3747,他们均大于置信水平0.05,也就是说潜伏期的分布函数和对数正态分布的分布函数是没有差异的,因此选用对数正态分布来描述潜伏期天数的分布,见
1. 正态分布:正态分布也称常态分布,又称高斯分布,是连续型随机变量中重要的一种分布,统计学中的很多分布都是正态分布的衍生,并且正态分布也是很多分布的极限分布。正态分布是德国数学家C.F.Gauss在误差描述上的重大发现。正态分布的曲线高峰位于中央位置,两侧逐渐下降并且完全对称。正态分布的概率密度函数中记
为总体均数,
为总体标准差,
和
是正态分布的两个参数,若随机变量x服从正态分布,记为
。不同的
值和不同的
值对应不同的正态分布曲线,如下
若随机变量 服从一个数学期望为 ,方差为 的正态分布,则数学期望决定了其分布位置,标准差决定了其分布幅度,特别的,当数学期望为0,方差为1时的正态分布叫做标准正态分布。正态分布的概率密度函数定义为:
(1)
正态分布的性质:① 概率密度曲线在均值处达到最大,并且曲线左右对称。② 标准差决定了概率密度曲线的“陡峭”或“扁平”程度,标准差越大,曲线越扁平;标准差越小,曲线越陡峭。这是因为,标准差越小,意味着大多数变量距离均值的距离越短,也就是说大多数变量都紧密地聚集在均值周围,图形所能覆盖的变量值就少些,图形上呈现瘦高型。相反,标准差越大,数据跨度就越大,分散程度越大,所覆盖的变量就越多,图形呈现“矮胖型”③ 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。
2. 对数正态分布:对数正态分布是正态分布的一种衍生,设X是取值为正数的连续随机变量,如果X取对数后服从正态分布,即 ,X的概率密度函数定义为:
(2)
则称这个随机变量X是服从对数正态分布,记为 ,对数正态分布中的期望和方差可以通过极大似然估计来求得。若总体X服从对对数正态分布,即:
是来自总体X的样本,令 ,则 的分布函数为:
(3)
X的概率密度为:
(4)
因此样本的似然函数为:
,
(5)
分别对关于和分别求偏导,并令其等于0,于是有:
(6)
求解得到:
由于 ,于是有:
(7)
根据最大似然估计的不变性原理,EX的最大似然估计为 ,
其中 , 。
为了更直观的描述潜伏期的规律,本文引入平均超出量函数进行统计描述。平均超出量函数在统计推断中是用最大值的模型来研究的,在每一组观测数据中用最大值来建立模型,但是有一个弊端就是在每一组观测数据中只取数据的最大值,这对于其他数据来说会造成部分数据的浪费,因此就要用超出某一个大一点的数的所有的数据来进行建模。设 是独立同分布的,其分布函数是F,对某个固定的值 ,称u为这组值的阈值,如果 ,则称Xi为这组数据的超阈值,称 为超出量,于是有:
(8)
其中称 为随机变量X的超过阈值u的超出量分布函数,简称超出量分布。
称:
(9)
称为随机变量X的超阈值的分布函数。
(10)
称为X的平均超出量函数。
首先对筛选病患数据进行整理,进而对潜伏期特征进行了初步特征分析。
从分位数图可以知道数据的分布情况,从
对于新型冠状病毒的潜伏期的影响因素,为了探究本文提取的性别,年龄,感染方式,感染地点等因素是否会对潜伏期长短有显著的影响,因此分别对各类因素进行方差分析。
对所选取的样本数据按照年龄分布将其分成了四个群体,分别为少年群体,青年群体,中年群体,和老年群体这四个群体,其中少年群体年龄分布为七周岁到十五周岁,青年群体为十六周岁到四十周岁,中年群体为四十一周岁到六十五周岁,老年群体为六十六周岁及以上。本文数据来源是最初确诊数据,可能由于少年和老年群体作为社会重点保护对象的原因,初期感染人数是较少的,因此也就导致了本文筛选的数据中少年群体和老年群体都比较少,不足以体现统计随机性,因此本文着重对青年和中年群体进行关于潜伏期的方差分析。
群体 |
样本数 |
最大值 |
最小值 |
均值 |
方差 |
偏度 |
峰度 |
K-S检验D值 |
K-S检验P值 |
青年 |
31 |
13 |
0 |
4.839 |
14.340 |
0.696 |
−0.596 |
0.77683 |
0.221 |
中年 |
42 |
16 |
0 |
5.571 |
12.007 |
0.746 |
0.463 |
0.88201 |
0.226 |
由上
将本文所选的数据按照男性,女性进行分组,并分别进行数据特征分析和正态K-S检验。
组别 |
样本数 |
最大值 |
最小值 |
均值 |
方差 |
偏度 |
峰度 |
K-S检验D值 |
K-S检验P值 |
男性 |
33 |
12 |
0 |
4.889 |
10.328 |
0.432 |
−0.855 |
0.94125 |
0.2624 |
女性 |
45 |
16 |
0 |
6.424 |
17.564 |
0.449 |
−0.674 |
0.61403 |
0.772 |
由上
在对感染方式进行相关探究时,本文筛选出来的数据中对于四种感染方式即外出感染,聚会感染,家庭内部接触感染,以及其他地方感染考虑到感染方式上多数为生活接触和普通接触,于是将病患接触方式归为生活接触和普通接触两类进行讨论。
感染方式 |
样本数 |
最大值 |
最小值 |
均值 |
方差 |
偏度 |
峰度 |
K-S检验D值 |
K-S检验P值 |
生活接触 |
33 |
16 |
0 |
6.727 |
18.955 |
0.219 |
−0.978 |
0.653 |
0.084 |
普通接触 |
45 |
11 |
0 |
4.667 |
8.500 |
0.496 |
−0.507 |
0.561 |
0.247 |
由上
根据本文所筛选的病患信息记录的数据,将地点数据分成了三组来进行研究,分组即在湖北武汉感染,在湖北感染了但是并不是在武汉所感染感染,以及感染了COVID-19但是并不是在湖北感染,也就是说在除武汉省以外的地方感染了病毒。
感染地点 |
样本数 |
最大值 |
最小值 |
平均值 |
方差 |
偏度 |
峰度 |
K-S检验D值 |
K-S检验P值 |
武汉 |
58 |
16 |
0 |
4.500 |
13.784 |
0.591 |
−0.358 |
0.678 |
0.251 |
湖北非武汉 |
12 |
16 |
1 |
8.167 |
14.973 |
0.7026 |
−0.346 |
0.890 |
0.331 |
其他 |
8 |
13 |
4 |
9.125 |
12.210 |
0.1023 |
−0.863 |
0.472 |
0.069 |
由上
本文依据武汉地区COVID-19感染患者的初步数据信息,经过筛选,聚焦于性别、年龄、感染方式及感染地点等关键变量,旨在深入探究COVID-19感染后潜伏期的长短问题。研究结果显示,潜伏期的长短与感染方式及感染地点存在显著关联,而与性别、年龄等因素并无直接联系,这表明该病毒对宿主呈现出无差别感染的特性。本研究所使用的数据源自武汉疫情初期的记录,鉴于当时湖北省武汉市病毒浓度相对较高,患者数量众多,故在分析潜伏期长短影响因素时,感染地点和感染方式被认定为显著因素。然而,需要指出的是,本文关于病毒潜伏期长短的研究仅限于武汉疫情初期的数据。鉴于COVID-19病毒的高度变异性及其不同变体所展现的免疫逃逸性,加之人们疫苗接种率的提升,影响因素正持续变化。因此,对于COVID-19感染后潜伏期的影响因素,尚需进一步的研究与探索。