分层抽样技术是在实际工作中应用得非常广泛的抽样技术之一。但在文献中,还没有方便地可以用于在分层随机抽样中仅给定基本的样本数据时就能解决总体均值和总体比例的点估计和区间估计问题,计算总体均值时样本量的确定及分配问题,计算总体比例时样本量的确定及分配问题,事后分层抽样下总体均值和总体比例的点估计和区间估计等问题通用的R函数。本文自编了九个通用的R函数:Compute_Y_bar_st()、Compute_Y_bar_prop_from_y_bar_h_s_h_st()、Compute_Y_bar_srs_pst()、Compute_P_st()、Compute_P_from_a_h_st()、Compute_P_srs_pst()、Compute_nh_given_n_Y_bar_st()、Compute_n_nh_Y_bar_st()及Compute_n_nh_P_st(),它们将会为需要使用分层抽样技术以提高估计精度进行实际问题分析的使用者提供极大的方便。 Stratified sampling technique is one of the sampling techniques widely used in practical work. But in the literature, there are no convenient generic R functions to solve the problem of point estimation and interval estimation of population mean and population proportion, the problem of total sample size and each layer sample size when calculating population mean, the problem of total sample size and each layer sample size when calculating population proportion, and the problem of point estimation and interval estimation of population mean and population proportion in post-stratification sampling, in stratified random sampling when only basic sample data are given. We compile nine generic R functions: Compute_Y_bar_st(), Compute_Y_bar_prop_from_y_bar_h_s_h_st(), Compute_Y_bar_srs_pst(), Compute_P_st(), Compute_P_from_a_h_st(), Compute_P_srs_pst(), Compute_nh_given_n_Y_bar_st(), Compute_n_nh_Y_bar_st(), and Compute_n_nh_P_st(), which will provide great convenience for users who need to use stratified sampling technology to improve the estimation accuracy for practical problem analysis.
分层抽样技术是在实际工作中应用得非常广泛的抽样技术之一。但在文献中,还没有方便地可以用于在分层随机抽样中仅给定基本的样本数据时就能解决总体均值和总体比例的点估计和区间估计问题,计算总体均值时样本量的确定及分配问题,计算总体比例时样本量的确定及分配问题,事后分层抽样下总体均值和总体比例的点估计和区间估计等问题通用的R函数。本文自编了九个通用的R函数:Compute_Y_bar_st()、Compute_Y_bar_prop_from_y_bar_h_s_h_st()、Compute_Y_bar_srs_pst()、Compute_P_st()、Compute_P_from_a_h_st()、Compute_P_srs_pst()、Compute_nh_given_n_Y_bar_st()、Compute_n_nh_Y_bar_st()及Compute_n_nh_P_st(),它们将会为需要使用分层抽样技术以提高估计精度进行实际问题分析的使用者提供极大的方便。
分层随机抽样,总体均值和总体比例,点估计和区间估计,样本量的确定及分配,R函数
Ya Cui1*, Yingying Zhang1,2*#
1Department of Statistics and Actuarial Science, College of Mathematics and Statistics, Chongqing University, Chongqing
2Chongqing Key Laboratory of Analytic Mathematics and Applications, Chongqing University, Chongqing
Received: Dec. 26th, 2021; accepted: Jan. 21st, 2022; published: Jan. 28th, 2022
Stratified sampling technique is one of the sampling techniques widely used in practical work. But in the literature, there are no convenient generic R functions to solve the problem of point estimation and interval estimation of population mean and population proportion, the problem of total sample size and each layer sample size when calculating population mean, the problem of total sample size and each layer sample size when calculating population proportion, and the problem of point estimation and interval estimation of population mean and population proportion in post-stratification sampling, in stratified random sampling when only basic sample data are given. We compile nine generic R functions: Compute_Y_bar_st(), Compute_Y_bar_prop_from_y_bar_h_s_h_st(), Compute_Y_bar_srs_pst(), Compute_P_st(), Compute_P_from_a_h_st(), Compute_P_srs_pst(), Compute_nh_given_n_Y_bar_st(), Compute_n_nh_Y_bar_st(), and Compute_n_nh_P_st(), which will provide great convenience for users who need to use stratified sampling technology to improve the estimation accuracy for practical problem analysis.
Keywords:Stratified Random Sampling, The Population Mean and Population Proportion, Point Estimation and Interval Estimation, Determination and Distribution of Sample Size, R Function
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
分层抽样技术 [
我们推荐分层随机抽样中九个非常实用的R函数。R函数1~3用于解决给定各种样本信息时分层随机抽样下总体均值的点估计和区间估计问题。R函数4~6用于解决给定各种样本信息时分层随机抽样下总体比例的点估计和区间估计问题。R函数7~9用于解决给定各种样本信息时分层随机抽样下总体均值和总体比例的样本量的确定及分配问题。
R函数1:Compute_Y_bar_st()
对于分层随机抽样,给定样本单位的观察值组成的矩阵y_matrix等信息,得到计算总体均值的分层随机抽样的点估计和区间估计的R函数(程序) Compute_Y_bar_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中(下载链接:https://pan.baidu.com/s/1y0UvE24vfVm8dTVAUYnskg,提取码:1234)。
下面我们举一个例子来说明该R函数的使用方法。
例1 ( [
层(h) | 居民户 总数/户 | 家庭成员数( y h i )/人 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
城市 | 250 | 3 | 2 | 3 | 4 | 3 | 3 | 4 | 5 | 2 | 3 |
乡村 | 500 | 3 | 4 | 5 | 5 | 4 | 3 | 6 | 2 | 4 | 4 |
表1. 家庭成员数调查数据
解:对于分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1.959964 , N = ∑ h = 1 2 N h = 750
y ¯ s t = ∑ h = 1 2 W h y ¯ h ≈ 3 .733333 , v ( y ¯ s t ) = ∑ h = 1 2 W h 2 ( 1 − f h ) s h 2 n h ≈ 0 .06708148
s e ( y ¯ s t ) = v ( y ¯ s t ) ≈ 0 .2590009 , Δ = t ⋅ s e ( y ¯ s t ) ≈ 0 .5076325 , γ = Δ y ¯ s t ≈ 0 .135973
L Y ¯ = y ¯ s t − Δ ≈ 3 .225701, U Y ¯ = y ¯ s t + Δ ≈ 4 .240966
代入数据,调用R函数Compute_Y_bar_st()进行计算,详细的R程序输入及输出结果请见附录A.1。
因此,估计得该地区住户的平均家庭成员数为3.733人,抽样标准误为0.259人,平均家庭成员数的95%置信区间为(3.226,4.241)人。
R函数2:Compute_Y_bar_prop_from_y_bar_h_s_h_st()
对于按比例分配的分层随机抽样,给定各层的样本均值y_bar_h和各层的样本标准差s_h等信息,得到计算总体均值的分层随机抽样的点估计和区间估计的R函数(程序) Compute_Y_bar_prop_from_y_bar_ h_s_h_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例2 ( [
序号 | 层权 W h /% | 样本量 n h | 样本平均 y ¯ h /元 | 样本标准差 s h |
---|---|---|---|---|
1 | 8.2 | 16 | 89 | 105 |
2 | 6.5 | 13 | 56 | 74 |
3 | 13.7 | 27 | 102 | 186 |
4 | 5.6 | 11 | 76 | 97 |
5 | 11.8 | 24 | 97 | 106 |
6 | 11.6 | 23 | 79 | 89 |
7 | 17.0 | 34 | 83 | 112 |
8 | 9.8 | 20 | 52 | 73 |
9 | 8.8 | 18 | 36 | 44 |
10 | 7.0 | 14 | 52 | 65 |
表2. 样本户购买冷冻食品支出
解:对于按比例分配的分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , n = ∑ h = 1 10 n h = 200, y ¯ s t = ∑ h = 1 10 W h y ¯ h ≈ 75.792
v ( y ¯ s t ) = 1 − f n ∑ h = 1 10 W h s h 2 ≈ 59.46035 , s e ( y ¯ s t ) = v ( y ¯ s t ) ≈ 7.711054
L Y ¯ = y ¯ s t − t ⋅ s e ( y ¯ s t ) ≈ 60 .67861, U Y ¯ = y ¯ s t + t ⋅ s e ( y ¯ s t ) ≈ 90 .90539
代入数据,调用R函数Compute_Y_bar_prop_from_y_bar_h_s_h_st()进行计算,详细的R程序输入及输出结果请见附录A.2。
故该开发区居民户购买冷冻食品的平均支出为75.792元,标准误差为7.711元,其95%置信区间为(60.679,90.905)元。
R函数3:Compute_Y_bar_srs_pst()
对于事后分层抽样,给定各层的样本均值y_bar_h和各层的样本标准差s_h等信息,得到计算总体均值的事后分层抽样和简单随机抽样的点估计和区间估计的R函数(程序) Compute_Y_bar_srs_pst()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例3 ( [
层(h) | 层权( W h ) | 样本量( n h )/人 | 样本均值( y ¯ h )/元 | 样本标准差( s h )/元 |
---|---|---|---|---|
本科生 | 0.7 | 120 | 253.4 | 231.00 |
研究生 | 0.3 | 80 | 329.4 | 367.00 |
合计 | 1 | n = 200 | y ¯ = 283.8 | s ≈ 294.57 |
表3. 在校学生课外进修开支调查结果
解:由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , n = ∑ h = 1 2 n h = 200 , f = n N = 0.025 , y ¯ = 1 n ∑ h = 1 2 n h y ¯ h = 283.8
s 2 = ∑ h = 1 2 n h − 1 n − 1 s h 2 + ∑ h = 1 2 n h n − 1 ( y ¯ h − y ¯ ) 2 ≈ 86772.05 , s = s 2 ≈ 294.571
采用事后分层估计,则
v ( y ¯ p s t ) = 1 − f n ∑ h = 1 2 W h s h 2 + 1 n 2 ∑ h = 1 2 ( 1 − W h ) s h 2 ≈ 381.8343
y ¯ p s t = ∑ h = 1 2 W h y ¯ h = 276.2 , s e ( y ¯ p s t ) = v ( y ¯ p s t ) ≈ 19.54058
L Y ¯ p s t = y ¯ p s t − t ⋅ s e ( y ¯ p s t ) ≈ 237 .9012, U Y ¯ p s t = y ¯ p s t + t ⋅ s e ( y ¯ p s t ) ≈ 314 .4988
采用简单随机估计,则
v ( y ¯ ) = 1 − f n s 2 ≈ 423 .0137, s e ( y ¯ ) = v ( y ¯ ) ≈ 20 .5673
L Y ¯ s r s = y ¯ − t ⋅ s e ( y ¯ ) ≈ 243 .4888, U Y ¯ s r s = y ¯ + t ⋅ s e ( y ¯ ) ≈ 324 .1112
代入数据,调用R函数Compute_Y_bar_srs_pst()进行计算,详细的R程序输入及输出结果请见附录A.3。
因此,采用事后分层估计的平均开支为276.2元,其抽样标准误为19.541元,总体均值的事后分层抽样的95%置信区间为(237.901,314.499)元。而采用简单随机估计的平均开支为283.8元,其抽样标准误为20.567元,总体均值的简单随机抽样的95%置信区间为(243.489,324.111)元。事后分层估计的抽样标准误比简单随机估计的抽样标准误要小。
R函数4:Compute_P_st()
对于分层随机抽样,给定样本单位的观察值组成的矩阵y_matrix等信息,得到计算总体比例的分层随机抽样的点估计和区间估计的R函数(程序) Compute_P_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例4 ( [
层 | 居民户 总数/户 | 样本户拥有家庭电脑情况/台 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
1 | 200 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 |
2 | 400 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
3 | 750 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 |
4 | 1500 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
表4. 样本户拥有家庭电脑情况
解:对于分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , N = ∑ h = 1 4 N h = 2850, p s t = ∑ h = 1 4 W h p h = 0.2
v ( p s t ) = ∑ h = 1 4 W h 2 v ( p h ) ≈ 0 .004998324 , s e ( p s t ) = v ( p s t ) ≈ 0 .07069883
Δ = t ⋅ s e ( p s t ) ≈ 0 .1385672 , γ = Δ p s t ≈ 0 .6928358
L P = p s t − Δ ≈ 0 .06143284, U P = p s t + Δ ≈ 0 .3385672
代入数据,调用R函数Compute_P_st()进行计算,详细的R程序输入及输出结果请见附录A.4。
因此,估计得该地区居民拥有家庭电脑的比例为0.2,抽样标准误为0.071,总体比例的分层估计的95%置信区间为(0.061,0.339)。
R函数5:Compute_P_from_a_h_st()
对于分层随机抽样,给定各层样本中具有所考虑特征的单位数a_h等信息,得到计算总体比例的分层随机抽样的点估计和区间估计的R函数(程序)Compute_P_from_a_h_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例5 ( [
行政区(h) | 居民户比例(Wh) | 在家居民户数(ah)/户 |
---|---|---|
1 | 0.18 | 27 |
2 | 0.21 | 28 |
3 | 0.14 | 27 |
4 | 0.09 | 26 |
5 | 0.16 | 28 |
6 | 0.22 | 29 |
表5. 居民户比例及在家居民户数
解:对于分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , p s t = ∑ h = 1 6 W h p h ≈ 0.924
v ( p s t ) = ∑ h = 1 6 W h 2 ( 1 − f h ) p h q h n h − 1 ≈ 0 .0003969808 , s e ( p s t ) = v ( p s t ) ≈ 0 .01992438
L P = p s t − t ⋅ s e ( p s t ) ≈ 0 .8849489, U P = p s t + t ⋅ s e ( p s t ) ≈ 0 .9630511
p h = a h n h , 即 p 1 = 0.900 , p 2 ≈ 0.933 , p 3 = 0.900 , p 4 ≈ 0.867 , p 5 ≈ 0.933 , p 6 ≈ 0.967
q h = 1 − p h , 即 q 1 = 0.100 , q 2 ≈ 0.067 , q 3 = 0.100 , q 4 ≈ 0.133 , q 5 ≈ 0.067 , q 6 ≈ 0.033
W 1 p 1 ≈ 0.162 , W 2 p 2 ≈ 0.196 , W 3 p 3 ≈ 0.126 , W 4 p 4 ≈ 0.078 , W 5 p 5 ≈ 0.149 , W 6 p 6 ≈ 0.213
代入数据,调用R函数Compute_P_from_a_h_st()进行计算,详细的R程序输入及输出结果请见附录A.5。
故该市居民在家吃年夜饭的比例为0.924,抽样标准误为0.020,95%置信区间为(0.885,0.963)。
R函数6:Compute_P_srs_pst()
对于事后分层抽样,给定各层样本中具有所考虑特征的单位数a_h等信息,得到计算总体比例的简单随机抽样和事后分层抽样的点估计和区间估计的R函数(程序) Compute_P_srs_pst()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例6 ( [
1) 用简单随机抽样的公式估计登记原始凭证的差错率,并估计抽样标准误;
2) 用事后分层的公式估计登记原始凭证的差错率,并估计抽样标准误(有限总体校正系数 1 − f ≈ 1 )。
解:1) 对于简单随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , a = ∑ h = 1 2 a h = 3 , n = ∑ h = 1 2 n h = 100
p = a n = 0.03 , q = 1 − p = 0.97
v ( p ) = 1 − f n − 1 p q ≈ p q n − 1 ≈ 0 .0002939394 , s e ( p ) = v ( p ) ≈ 0 .01714466
L P s r s = p − t ⋅ s e ( p ) ≈ − 0.003602918 , U P s r s = p + t ⋅ s e ( p ) ≈ 0 .06360292
2) 对于事后分层抽样,由理论公式,可以计算:
p p s t = ∑ h W h p h ≈ 0 .02680539
v 1 ( p p s t ) ≈ 1 − f n ∑ h W h s h 2 + 1 n 2 ∑ h ( 1 − W h ) s h 2 ≈ 0 .0002692841 , s e 1 ( p p s t ) = v 1 ( p p s t ) ≈ 0 .01640988
L P p s t , 1 = p p s t − t ⋅ s e 1 ( p p s t ) ≈ − 0 .005357385, U P p s t , 1 = p p s t + t ⋅ s e 1 ( p p s t ) ≈ 0 .05896816
v 2 ( p p s t ) = ∑ h W h 2 ( 1 − f h ) p h q h n h − 1 ≈ 0 .0003194205 , s e 2 ( p p s t ) = v 2 ( p p s t ) ≈ 0 .01787234
L P p s t , 2 = p p s t − t ⋅ s e 2 ( p p s t ) ≈ − 0 .008223753, U P p s t , 2 = p p s t + t ⋅ s e 2 ( p p s t ) ≈ 0 .06183452
代入数据,调用R函数Compute_P_srs_pst()进行计算,详细的R程序输入及输出结果请见附录A.6。
故用简单随机抽样估计的差错率为0.030,抽样标准误为0.0171,95%置信区间为(−0.004,0.064)。用事后分层估计的差错率为0.027,抽样标准误的第一种估计为0.0164 < 0.0171,95%置信区间的第一种估计为(−0.005,0.059),抽样标准误的第二种估计为0.0179 > 0.0171,95%置信区间的第二种估计为(−0.008,0.062)。
R函数7:Compute_nh_given_n_Y_bar_st()
对于按比例分配和尼曼分配的分层随机抽样,给定样本单位的观察值组成的矩阵y_matrix和样本量n等信息,得到计算总体均值时所需的各层样本量的R函数(程序) Compute_nh_given_n_Y_bar_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例7 ( [
层 | 居民户 总数/户 | 样本户豆制品年消费支出/元 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
1 | 200 | 10 | 40 | 40 | 110 | 15 | 10 | 40 | 80 | 90 | 0 |
2 | 400 | 50 | 130 | 130 | 80 | 100 | 55 | 160 | 85 | 160 | 170 |
3 | 750 | 180 | 260 | 260 | 0 | 140 | 60 | 200 | 180 | 300 | 220 |
4 | 1500 | 50 | 35 | 15 | 0 | 20 | 30 | 25 | 10 | 30 | 25 |
表6. 样本户豆制品年消费支出表
解:对于分层随机抽样,由理论公式,可以计算:
L = 4 , N = ∑ h = 1 4 N h = 2850 , y ¯ s t = ∑ h = 1 4 W h y ¯ h ≈ 78 .77193 , ∑ h = 1 4 W h s h ≈ 40 .61926
W h = N h N , 即 W 1 ≈ 0.07018 , W 2 ≈ 0.14035 , W 3 ≈ 0.26316 , W 4 ≈ 0.52632
y ¯ h = 1 n h ∑ i = 1 n h y h i , 即 y ¯ 1 = 43.5 , y ¯ 2 = 112.0 , y ¯ 3 = 180.0 , y ¯ 4 = 24.0
s h 2 = 1 n h − 1 ∑ i = 1 n h ( y h i − y ¯ h ) 2 , 即 s 1 2 ≈ 1433.61 , s 2 2 ≈ 1956.6 7 , s 3 2 ≈ 8622.22 , s 4 2 ≈ 193.33
W 1 s 1 ≈ 2.6571 , W 2 s 2 ≈ 6.2083 , W 3 s 3 ≈ 24.4358 , W 4 s 4 ≈ 7.3181
按比例分配的样本量为 n h = n W h ,即
n 1 ≈ 2.81 , n 2 ≈ 5.61 , n 3 ≈ 10.53 , n 4 ≈ 21.05
按尼曼分配的样本量为
n h = n W h s h ∑ h = 1 4 W h s h
即
n 1 ≈ 2.62 , n 2 ≈ 6.11 , n 3 ≈ 24.06 , n 4 ≈ 7.21
代入数据,调用R函数Compute_nh_given_n_Y_bar_st()进行计算,详细的R程序输入及输出结果请见附录A.7。
因此,按比例分配确定的各层样本量为3,6,10,21;按尼曼分配确定的各层样本量为3,6,24,7。
R函数8:Compute_n_nh_Y_bar_st()
对于按比例分配和尼曼分配的分层随机抽样,给定样本单位的观察值组成的矩阵y_matrix及相应的精度要求,得到计算总体均值时所需的总样本量及各层样本量的R函数(程序) Compute_n_nh_Y_bar_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例8 ( [
解:对于分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1 .959964 , L = 4 , N = ∑ h = 1 4 N h = 2850 , y ¯ s t = ∑ h = 1 4 W h y ¯ h ≈ 78 .77193
∑ h = 1 4 W h s h 2 ≈ 2745 .984, ∑ h = 1 4 W h s h ≈ 40 .61926, V = ( γ y ¯ s t t ) 2 ≈ 16 .15276
W h = N h N , 即 W 1 ≈ 0.07018 , W 2 ≈ 0.14035 , W 3 ≈ 0.26316 , W 4 ≈ 0.52632
y ¯ h = 1 n h ∑ i = 1 n h y h i , 即 y ¯ 1 = 43.5 , y ¯ 2 = 112.0 , y ¯ 3 = 180.0 , y ¯ 4 = 24.0
s h 2 = 1 n h − 1 ∑ i = 1 n h ( y h i − y ¯ h ) 2 , 即 s 1 2 ≈ 1433.61 , s 2 2 ≈ 1956.67 , s 3 2 ≈ 8622.22 , s 4 2 ≈ 193.33
W 1 s 1 2 ≈ 100.604 , W 2 s 2 2 ≈ 274.620 , W 3 s 3 2 ≈ 2269.006 , W 4 s 4 2 ≈ 101.754
W 1 s 1 ≈ 2.657 , W 2 s 2 ≈ 6.208 , W 3 s 3 ≈ 24.436 , W 4 s 4 ≈ 7.318
按比例分配确定的
n 0 = ∑ W h s h 2 V ≈ 170 .00
对 n 0 进行修正,得到修正后的样本量为
n = n 0 1 + n 0 N ≈ 160.43
且各层应分配的样本量为 n h = n W h ,即
n 1 ≈ 11.30 , n 2 ≈ 22.60 , n 3 ≈ 42.37 , n 4 ≈ 84.74
按尼曼分配确定的总样本量为
n = ( ∑ W h s h ) 2 V + ∑ W h s h 2 N ≈ 96.40
且各层样本量为
n h = n W h s h ∑ h = 1 4 W h s h
即
n 1 ≈ 6.35 , n 2 ≈ 14.83 , n 3 ≈ 58.35 , n 4 ≈ 17.48
代入数据,调用R函数Compute_n_nh_Y_bar_st()进行计算,详细的R程序输入及输出结果请见附录A.8。
因此,按比例分配确定的总样本量为161,各层样本量为11,23,42,85;按尼曼分配确定的总样本量为97,各层样本量为6,15,58,18 (程序结果为17,但由于总样本量需达到97,故该层样本量需加1成18)。
R函数9:Compute_n_nh_P_st()
对于按比例分配和尼曼分配的分层随机抽样,给定各层的总体单位数N_h,各层的样本比例p_h及相应的精度要求,得到计算总体比例时所需的总样本量及各层样本量的R函数(程序) Compute_n_nh_P_st()。由于正文版面的限制,该R函数的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明该R函数的使用方法。
例9 ( [
解:对于分层随机抽样,由理论公式,可以计算:
t = Z α / 2 ≈ 1.959964 , L = 4 , N = ∑ h = 1 4 N h = 2850 , p s t = ∑ h = 1 4 W h p h = 0.2
V = ( Δ t ) 2 ≈ 0.0006507944 , ∑ h = 1 4 W h p h q h ≈ 0.1442105 , ∑ h = 1 4 W h p h q h ≈ 0.3710258
W h = N h N , 即 W 1 ≈ 0.07018 , W 2 ≈ 0.14035 , W 3 ≈ 0.26316 , W 4 ≈ 0.52632
q h = 1 − p h , 即 q 1 = 0.8 , q 2 = 0.8 , q 3 = 0.6 , q 4 = 0.9
W 1 p 1 ≈ 0.014 , W 2 p 2 ≈ 0.028 , W 3 p 3 ≈ 0.105 , W 4 p 4 ≈ 0.053
W 1 p 1 q 1 ≈ 0.011 , W 2 p 2 q 2 ≈ 0.022 , W 3 p 3 q 3 ≈ 0.063 , W 4 p 4 q 4 ≈ 0.047
W 1 p 1 q 1 ≈ 0.028 , W 2 p 2 q 2 ≈ 0.056 , W 3 p 3 q 3 ≈ 0.129 , W 4 p 4 q 4 ≈ 0.158
按比例分配确定的
n 0 = ∑ h = 1 4 W h p h q h V ≈ 221.59
对 n 0 进行修正,得到修正后的样本量为
n = n 0 1 + n 0 N ≈ 205.61
且各层样本量为 n h = n W h ,即
n 1 ≈ 14.46 , n 2 ≈ 28.91 , n 3 ≈ 54.21 , n 4 ≈ 108.42
按尼曼分配确定的总样本量为
n = ( ∑ h = 1 4 W h p h q h ) 2 V + ∑ h = 1 4 W h p h q h N ≈ 196.27
且各层样本量为
n h = n W h p h q h ∑ h = 1 4 W h p h q h
即
n 1 ≈ 14.90 , n 2 ≈ 29.81 , n 3 ≈ 68.45 , n 4 ≈ 83.84
代入数据,调用R函数Compute_n_nh_P_st()进行计算,详细的R程序输入及输出结果请见附录A.9。
因此,按比例分配所需的总样本量为206,各层样本量为15 (程序结果为14,但由于总样本量需达到206,故该层样本量需加1成15),29,54,108;按尼曼分配所需的总样本量为197,各层样本量为15,30,68,84。
本文就分层随机抽样的R软件实现方面自编了九个非常实用的R函数,分别是Compute_Y_bar_st() (用于分层随机抽样下总体均值的点估计和区间估计)、Compute_Y_bar_prop_from_y_bar_h_s_h_st() (用于给定各层的样本均值和各层的样本标准差等信息的按比例分配的分层随机抽样下总体均值的点估计和区间估计)、Compute_Y_bar_srs_pst() (用于事后分层抽样和简单随机抽样下总体均值的点估计和区间估计)、Compute_P_st() (用于分层随机抽样下总体比例的点估计和区间估计)、Compute_P_from_a_h_st() (用于给定各层样本中具有所考虑特征的单位数等信息的分层随机抽样下总体比例的点估计和区间估计)、Compute_P_srs_pst() (用于事后分层抽样和简单随机抽样下总体比例的点估计和区间估计)、Compute_ nh_given_n_Y_bar_st() (用于给定总样本量等信息的按比例分配和尼曼分配的分层随机抽样下计算总体均值时所需的各层样本量)、Compute_n_nh_Y_bar_st() (用于按比例分配和尼曼分配的分层随机抽样下计算总体均值时所需的总样本量及各层样本量)及Compute_n_nh_P_st() (用于按比例分配和尼曼分配的分层随机抽样下计算总体比例时所需的总样本量及各层样本量)。我们相信,这九个R函数一定可以给利用分层随机抽样以提高估计精度进行实际问题分析的使用者提供极大的方便。
教育部人文社会科学研究西部和边疆地区项目:基于临床试验大数据的条件势的贝叶斯无效分析的基础研究(20XJC910001),2020.1~2022.12。国家社科基金西部项目:基于贝叶斯的八种预测势在临床试验中用于节约新药研发成本的评价研究(21XTJ001),2021.9~2024.12。国家自然科学基金面上项目:大数据驱动的中小微企业全息风险评估与介观调控机制研究(72071019),2021.1~2024.12。
崔 娅,张应应. 分层随机抽样中九个非常实用的R函数 Nine Very Practical R Functions in Stratified Random Sampling[J]. 应用数学进展, 2022, 11(01): 546-565. https://doi.org/10.12677/AAM.2022.111062
https://www.R-project.org