Analysis of Urban Registered Unemployment Rate in Southwest China Based on GEE and PGEE Methods
Southwest China, renowned for its large population and economic scale, faces increasingly prominent structural unemployment issues triggered by economic restructuring. Unemployment not only exacerbates financial burdens on residents but also threatens social stability and the efficient allocation of labor resources. As a critical indicator of regional economic health, the unemployment rate directly impacts social stability, quality of life, and economic policy planning. To scientifically predict regional unemployment trends, this study utilizes panel data from Southwest China (1997~2023) to construct a Gamma regression marginal model with a logarithmic link function. Employing R software, six methodological approaches—Generalized Estimating Equations (GEE) and Penalized Generalized Estimating Equations (PGEE) under AR (1) autocorrelation, independent, and exchangeable working correlation matrix structures—were applied for empirical analysis. Results show that the model constructed using the PGEE-AR (1) method with autocorrelation structure, with a penalty parameter set to 0.13, achieved the best prediction performance. Its test set MSE, MAE, and MAPE are 0.207, 0.32, and 8.85%, respectively, all lower than those of the other five methods. This research provides a scientific basis for unemployment rate prediction during the economic transition period.
Longitudinal Data
充分就业是我国宏观经济四大发展目标之一。然而,随着经济结构转型升级,就业市场供需结构发生变化,结构性失业已成为我国面临的重大挑战。失业率作为反映经济健康状况
纵向数据是指对一系列实验个体随着时间的演变进行跟踪测量得到的数据
在纵向数据分析中,边际模型是一种常用的模型,它对响应变量的条件均值 建模,其中 ,它表示第i个个体第j观测的设计解释向量。具体的边际模型表达式为:
(1)
其中 表示对均值 的某种变换, 是可逆函数。 是对应的系数向量, 则代表了线性预测部分。
Liang和Zeger (1986)
为了解决西南五地的城镇登记失业率预测问题,本文将使用GEE与PGEE方法,对西南五个地区城镇登记失业率进行建模和预警,希望对西南地区城镇登记失业率的预测有参考价值。
广义估计方程使用相关工作矩阵代替真实的相关系数矩阵,通过求解下式(2),来获得参数 的估计值:
, (2)
其中 。 。 。 是一个给定的工作相关矩阵,用来代替真实的相关系数矩阵 。工作相关矩阵 包括但不限于q步相依结构、等相关结构、一阶自回归结构、不确定性相关结构。
可以使用Fisher得分迭代算法求解公式(2)中的参数 ,更新迭代公式为:
, (3)
其中 , 。
SCAD (Smoothly Clipped Absolute Deviation)在LASSO惩罚的基础上进行了改进,克服了LASSO惩罚估计有偏的缺点。具体来说,SCAD惩罚函数 是由其导数 定义的:
. (4)
惩罚广义估计方程(PGEE)通过引入SCAD惩罚项的导数至广义估计方程中,实现了对纵向数据的有效变量选择。待估计的参数向量 依据以下等式进行求解:
, (5)
其中 , 是一个 维向量, 决定了惩罚的强度, 是一个 维向量, ,在这里第一个元素为0的原因是:截距项的系数不需要进行惩罚。
对于公式(5),Wang等人(2012)使用牛顿迭代算法来估计参数 ,更新迭代公式为:
, (6)
, ,e是一个大于0且非常小的数(例如e可取1 × 10−6)。
由于本文共n个个体,为了不遗失相关性信息,本文选择使用n折交叉验证法来选择惩罚参数 。假设全部数据集为T,记交叉验证训练集和交叉验证测试集分别为 与 ,这里 。在这里本文使用的损失函数为独立假设下对数似然函数的负数,即:
(7)
其中 是使用训练集 估计出的参数, 是第i个个体第j次观测的对数似然函数。最优 通过最小化公式(7)来获得,即:
. (8)
本文收集选取1997年至2023年我国西南地区(包括四川、重庆、贵州、云南及西藏)的面板数据,数据来源于《中国统计年鉴》。部分缺失值采用KNN插值法
部分指标的解释说明如下:
1) X6:总抚养比也称总负担系数 ,描述每10名劳动年龄人口大致要负担多少名非劳动年龄人口。
2) X7:15岁及以上文盲比(十分之) ,是根据抽查数据计算所得。
3) X13:普高毕业生比(千分之) 。
符号 |
变量名称 |
最大值 |
最小值 |
均值 |
标准差 |
Y |
城镇登记失业率(百分之) |
7.10 |
2.20 |
3.75 |
0.71 |
X1 |
省内GDP (万亿元) |
6.01 |
0.01 |
1.08 |
1.28 |
X2 |
人均GDP (万元) |
9.41 |
0.23 |
2.66 |
2.28 |
X3 |
城镇居民消费水平(万元) |
3.01 |
0.38 |
1.39 |
0.75 |
X4 |
年末常住人口(千万人) |
8.55 |
0.25 |
3.95 |
2.58 |
X5 |
人口自然增长率(千分之) |
16.00 |
−2.65 |
6.68 |
3.83 |
X6 |
总抚养比(十分之) |
5.76 |
3.66 |
4.45 |
0.42 |
X7 |
15岁及以上文盲比(十分之) |
6.62 |
0.15 |
1.76 |
1.35 |
X8 |
居民消费价格指数(上年 = 1) |
1.08 |
0.96 |
1.02 |
0.02 |
X9 |
商品零售价格指数(上年 = 1) |
1.07 |
0.95 |
1.01 |
0.02 |
X10 |
城镇居民人均可支配收入(万元) |
5.19 |
0.44 |
1.97 |
1.33 |
X11 |
农村居民人均可支配收入(万元) |
2.08 |
0.12 |
0.67 |
0.54 |
X12 |
普高毕业生人数(十万人) |
5.05 |
0.02 |
1.80 |
1.47 |
X13 |
普高毕业生比(千分之) |
8.82 |
0.61 |
4.45 |
2.16 |
图2. 各地区响应变量、解释变量随时间变化
虚线代表五个地区的均值。各地区省内GDP(万亿元) X1显著增长,尤其是四川,表明经济总量持续发展。各地区人均GDP (万元) X2起初较低,但至2020年,四川和重庆突破7万元大关,增速明显。城镇居民消费水平(万元) X3显示总体上升趋势,但区域差异明显,西藏增长较慢。年末常住人口(万人) X4显示总体上升趋势,但区域差异明显。人口自然增长率(千分之) X5反映了普遍下降的人口结构变化。总抚养比(十分之) X6区域波动显著,贵州值高于其他地区。15岁及以上文盲比(十分之) X7显著下降,西藏文盲率仍高于其他地区。居民消费价格指数X8和商品零售价格指数X9多数年份大于1。城镇和农村居民人均可支配收入(万元) X10和X11的增长趋势反映了西南地区经济持续向好。普通高中毕业生数(十万人) X12和普高毕业生比(千分之) X13均呈增长趋势,四川与重庆增长尤为突出,其他地区紧随其后,显示高等教育发展的显著成效。
文章使用R软件fitdistrplus包中的fitdist()函数检验响应变量Y是否服从Gamma分布,结果见
郭等人(2022)
. (9)
本文的目的是建立西南五个地区的城镇登记失业率预测模型,为了能够更加准确地预测未来失业率,本文选择这五个地区2018~2023这6年的数据作为测试集。剩余1997~2022年这21年的数据作为训练集用于参数估计。为了能够估算出更精确更有预测力的参数,本文分别采用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关,以及能够执行变量筛选的PGEE-AR (1)自相关、PGEE-独立相关、PGEE-可交换相关,这6个方法进行参数估计。本文使用测试集的MSE、MAE、MAPE来评估模型的好坏。测试集MSE、MAE、MAPE越小认为模型的预测能力越强。
在此案例中,作者设定惩罚参数
的取值范围为(0.01, 0.3),间隔为0.01。使用5折交叉验证法选择最优的
。不同
的取值造成的损失见下
使用以上6种方法的参数估计结果见下
由于PGEE-AR (1)结构得到的测试集MSE、MAE、MAPE最小,因此本文选择此模型作为预测模型:
(10)
X1 (省内GDP(万亿元))系数为正(0.028),这表明在其他因素不变的情况下,省内GDP的增加与城镇失业率的增加存在正相关关系。这看似违反直觉,可能的原因是:模型中没有考虑其他重要因素,例如产业结构升级、技术进步等。GDP增长可能伴随着产业结构调整,一些劳动密集型产业衰退,导致失业率上升。或者GDP增长主要体现在资本密集型产业,就业岗位增加有限。
X2 (人均GDP(万元))系数为负(−0.008),这表明人均GDP的增加与城镇失业率的降低存在正相关
方法 变量 |
GEE-AR (1) |
GEE-独立 |
GEE-可交换 |
PGEE-AR (1) |
PGEE-独立 |
PGEE-可交换 |
截距 |
1.303 |
1.197 |
1.288 |
0.759 |
0.751 |
0.753 |
X1 |
0.103 |
0.177 |
0.170 |
0.028 |
0.031 |
0.030 |
X2 |
0.014 |
−0.043 |
−0.204 |
−0.008 |
−0.009 |
−0.008 |
X3 |
0.108 |
0.292 |
0.475 |
0 |
0 |
0 |
X4 |
−0.039 |
−0.027 |
−0.033 |
−0.017 |
−0.017 |
−0.017 |
X5 |
0 |
−0.008 |
−0.011 |
−0.006 |
−0.006 |
−0.006 |
X6 |
−0.031 |
−0.061 |
−0.061 |
0 |
0 |
0 |
X7 |
−0.012 |
0.018 |
0.042 |
0 |
0 |
0 |
X8 |
−3.413 |
−3.932 |
−4.373 |
−3.689 |
−3.682 |
−3.681 |
X9 |
3.955 |
4.645 |
4.961 |
4.544 |
4.547 |
4.544 |
X10 |
−0.119 |
−0.217 |
−0.553 |
−0.085 |
−0.087 |
−0.087 |
X11 |
−0.433 |
−0.427 |
0.701 |
0 |
0 |
0 |
X12 |
0.096 |
0.038 |
0.026 |
0.064 |
0.063 |
0.063 |
X13 |
−0.043 |
−0.024 |
0.005 |
−0.032 |
−0.032 |
−0.031 |
方法 评判规则 |
GEE-AR (1) |
GEE-独立 |
GEE-可交换 |
PGEE-AR (1) |
PGEE-独立 |
PGEE-可交换 |
MSE |
1.303 |
1.197 |
1.288 |
0.207 |
0.209 |
0.209 |
MAE |
1.057 |
0.733 |
1.302 |
0.320 |
0.324 |
0.324 |
MAPE |
31.27% |
21.39% |
38.51% |
8.85% |
8.96% |
8.96% |
关系。这符合预期,人均GDP提高通常意味着经济发展水平提升,就业机会增加,从而降低失业率。
X4 (年末常住人口(千万人))系数为负(−0.017)这表明人口规模的增加与城镇失业率的降低存在正相关关系。这可能反映了人口增加说明该地区的经济发展状况好,吸引了外地劳动力来此发展,该地区的就业机会多。
X5 (人口自然增长率(千分之))系数为负(−0.006),这表明人口自然增长率的增加与城镇失业率的降低存在正相关关系。它与X4的解释类似。
X8 (居民消费价格指数(上一年 = 1))系数为负(−3.689),这表明居民消费价格指数的增加与城镇失业率的显著降低存在正相关关系。这可能反映了通货膨胀对失业率的影响较为复杂,需要进一步分析。一个可能的解释是,通货膨胀可能导致企业增加生产,从而增加就业机会。
X9 (商品零售价格指数(上一年 = 1))系数为正(4.544),这表明商品零售价格指数的增加与城镇失业率的显著增加存在正相关关系。这与X8形成对比,可能反映了不同价格指数对经济的影响差异,或者模型中存在遗漏变量。
X10 (城镇居民人均可支配收入(万元))系数为负(−0.085),这表明城镇居民人均可支配收入的增加与城镇失业率的降低存在正相关关系。这符合预期,收入增加通常意味着消费增加,带动经济增长,从而减少失业。
X12 (普高毕业生人数(十万人))系数为正(0.064),这表明普高毕业生人数的增加与城镇失业率的增加存在正相关关系。这可能是因为新增毕业生进入劳动力市场,增加了就业竞争压力。
X13普高毕业生比(千分之)系数为负(−0.032),这表明普高毕业生比例的增加与城镇失业率的降低存在正相关关系。这可能是因为普高毕业生比例增加可能反映了经济结构的调整和产业升级。一些高附加值产业对高技能劳动力的需求增加,而普高毕业生能够更好地适应这些产业的需求,从而降低了整体失业率。
使用PGEE-AR (1)方法分别对四川、重庆、贵州、云南、西藏的测试集数据进行预测,效果图见下
本文建立Gamma边际模型对西南地区城镇登记失业率进行拟合,本文使用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关、PGEE-AR (1)自相关、PGEE-独立相关和PGEE-可交换相关这6个方法对边际模型中的参数进行估算。实验发现当惩罚参数 设定为0.13时,使用PGEE-可交换相关方法获得的回归模型预测效果好于其他5个方法,可以用于未来的城镇登记失业率预测。但是本文最终选择的边际模型存在变量系数正负情况与实际情况不相符的情况,这可能与本文所使用的数据量小有关。在未来的研究中,可以考虑增加样本量、结合经济学理论选择更具代表的解释变量、增加解释变量的个数以及探讨变量之间的交互作用和非线性关系。