1. 引言
物联网是指按照标准的通信协议和一致的网络架构,通过信息传感设备和多种网络接入技术,把世界上所有的物品与各类网络连接起来,进行信息通信、数据交换、互操作和管理,从而实现对物品的智能化识别、定位、跟踪、监控和管理的一种能互联互通互操作的基础网络。随着当下各种无线网络的大面积覆盖,物联网应用逐渐渗透到人类活动的各个领域,传感器设备可以通过网线、手机网络、远程无线网络等方式实现全天候、全方位的连接。低轨卫星通信系统因其较低传输损耗和时延的特点,且可以通过星座方式对地球实现无缝覆盖的优势,成为辅助地面网络实现万物互联的可靠选择之一[1]。
业务建模是设计一个反映真实数据流量行为的随机过程,并能够捕捉物联网统计特征。流量建模可以分为源业务模型和聚合业务模型。目前主流的卫星物联网业务模型都是聚合业务模型。聚合业务模型反映网关(例如边缘服务器)所看到的聚合数据的特征,并且以其简单性而闻名。在研究界最被接受的聚合业务模型是泊松过程。泊松过程在建模聚合物联网业务中的准确性已经得到了验证。Z. Qu [2]等人提出了一种空时二维业务模型,可以清楚地体现卫星业务时空不均的特性,但是无法对单个物联网终端状态进行表述。而源业务模型反映单个传感器/设备的行为,例如视频、数据或语音源。例如,物联网节点的基本源业务模型可以是双状态(ON和OFF)马尔可夫链(MC),其中ON状态模型是主动传输的物联网节点,OFF状态模型是处于低传输频率睡眠模式的物联网节点。虽然源流量模型可以准确反映节点的行为,但随着系统中节点数量的增加,源业务建模的复杂性也随之增加[3]。
与此同时,传统业务模型无法反映单个时隙的准确业务量,因此进行准确的业务量预测对针对单个时隙的业务量研究有着重要作用。
Okutani和Stephanedes提出了用于交通流预测的卡尔曼滤波模型卡尔曼滤波法具有预测因子选择灵活、精度较高的优点,是最好的预测方法之一。但是由于模型的基础是线性估计模型所以当预测间隔小于5 min时,交通流量变化的随机性和非线性性再强一些时,模型的性能是否会变差还值得进一步研究。此外,由于在每次计算时都要调整权值,需要作大量的矩阵和向量运算,导致算法较为复杂难以用于实时在线预测,预测输出值有时要延迟几个时间段。机器学习在业务预测中有很大的影响力,凭借强大的学习能力表现出优异的性能。机器学习,包括卷积神经网络(CNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)等。C. Zhang等人提出了基于双重注意的联邦学习(FL)用于无线流量预测[4]。Y. Xu等人提出了一种基于LSTM的多任务学习架构[5]。J. Wu等人采用了CNN-LSTM架构,结合了两种网络的优点[6]。
综上所述,针对传统集总业务模型没有考虑终端晶振偏移和电池电量耗尽导致终端死亡,无法反映单个物联网终端状态,同时传统业务模型无法反映单个时隙的准确业务量,需要进行实时预测的问题,我们提出一种面向卫星物联网的统计业务建模以及实时预测方法。首先分析了终端晶振偏移和终端电池耗尽对业务量的影响,其次将传统3GPP业务模型与马可夫泊松过程相结合,考虑影响因素实现了物联网源业务建模,最后提出了一个并行CNN-BiLSTM-Adaboost网络对卫星物联网业务进行预测。仿真结果表明提出的物联网业务建模有效地提升了业务模型的准确性,解决了传统集总业务模型无法反映单个物联网终端状态的问题,同时并行CNN-BiLSTM-Adaboost网络对比传统业务预测方法在预测的准确度上有明显提升。
2. 卫星物联网场景介绍
卫星物联网可以实现对地面物联网难以覆盖的区域进行覆盖,物联网终端的部署密度和业务特征与其所处的地理环境强相关。相比于地面物联网基站较为单一的部署环境,由于单颗卫星的覆盖范围可以达到百万平方公里量级,其覆盖区域将跨越多种地理环境。同时,由于低轨卫星相对地面高速运动,其服务范围内的终端特征将快速时变。因此,全球范围内的卫星物联网业务量分布存在较明显的空时不均匀性。如图1为卫星物联网场景图,卫星物联网场景下,终端产生业务时将业务发送给信关站,信关站再将业务发送给卫星。
Figure 1. Satellite internet of things scenario diagram
图1. 卫星物联网场景图
2.1. 终端部署
终端部署密度很大程度上取决于相应的应用和地理环境。例如,由于海洋的稳定特性,海洋监测应用都具有较低的终端部署密度,这意味着在大尺度区域内观测值可能几乎相同。因此,不需要部署过多终端来产生冗余数据。然而,作为一种监测类型的应用,森林地区的森林火灾灾害监测可能具有较高的部署密度,该类型地区的地质灾害监测主要侧重于监测观测点的温度,烟雾,声音状态,建议数据冗余,以便立即发现灾情。此外,对于远距离识别跟踪、实时油轮物流跟踪和位置跟踪等跟踪类型的应用,终端部署密度与路线的繁忙程度正相关。
与地面物联网不同的是,由于LEOS覆盖面积超过10,000 km2,因此LEOS物联网中每平方千米的终端部署密度值肯定比地面物联网的小得多。我们使用从低到高的术语来描述不同地区和业务类型的终端部署密度值。低终端部署密度指低于10/km2,中终端部署密度指介于10/km2至30/km2之间,高终端部署密度是指超过30/km2。
2.2. 业务分析
NorthSkyResearch公司在NSRs第9版M2M和物联网卫星(M2M9)报告中记录了九大类机器对机器(M2M)/卫星物联网应用,如表1所示。
Table 1. Satellite IoT application categories
表1. 卫星物联网业务类型
运输 |
资产跟踪、远程信息处理和分析、物流优化、燃料管理等 |
政府事务 |
军事和文职政府资产和人员监控和跟踪、燃料管理、安全应用、物流、远程信息处理 |
石油和天然气 |
配电监控,石油和天然气勘探和生产,安全应用,远程信息处理 |
能源 |
监控配电和生产(包括可再生能源)、智能电表 |
农业 |
物流优化、资产监控和跟踪、生产、产量监控和管理(浇水、施肥)、精准农业和管理(浇水、施肥)、精准农业 |
环境 |
气象数据监测和报告,自然,工业,污染,应急和风险管理,渔业监测,海洋学,动物追踪 |
矿业 |
安全应用、资产和传感器监控、远程信息处理 |
建筑业 |
监控各种仪表和传感器、安全应用、员工和资产跟踪 |
通信业 |
通过卫星访问数据网络等 |
卫星物联网的业务模式可以粗略划分为周期上报型和事件触发型两种模式,常见的资源监测类业务都是周期上报型业务,不同的业务和不同的时间会有不同的上报周期,而报警类业务通常是事件触发型业务。
周期上报型业务由不同终端发起时,其发送周期差距很大,静止的终端发送周期可以为1 min,5 min,30 min,1 h一次,其周期较大,而交通工具上的终端发送周期为5 s,10 s,30 s一次,周期很小。以MTC为主的卫星物联网业务到达的分布,根据3GPP的Model-1可得服从均匀分布[7]。事件触发型业务是由某一类事件发生时终端被触发产生的业务,其业务流量特性可以通过3GPP建议的Beta分布来描述。第t个时隙中被触发的终端数目可以由
(1)
3. 影响因素分析
3.1. 晶振偏移
晶体振荡器是目前原子钟最好的替代品,其输出频率稳定性和准确性相对于其他二级频标来说是较高的,而且现有晶振有很多优点,比如:体积小、功耗低、成本低等,现在已经被广泛应用在电子仪器仪表、市面上各类电器等行业。晶振的输出精度受各种因素影响,比如:本体质量、环境温度等其它因素。晶振因为高温、老化等原因,会导致其产生频移即长时间工作稳定性差。因此建立了晶体振荡器时钟频率漂移的数学模型,用于晶振输出频率的拟合和验证。由文献[8]可知温补晶振在某时刻某温度下其频偏公式为
(2)
式中T为温度,t为时间,
则其时钟偏差可以表示为
(3)
式中
代表t时间内时隙数,
代表每个时隙持续时间,
。
晶振在不同温度下随时间的时钟偏移量如下图2所示。
Figure 2. The clock offset of a crystal oscillator over time at different temperatures
图2. 晶振在不同温度下随时间的时钟偏移量
3.2. 终端死亡
锂离子电池是最新一代绿色高能充电电池,具有电压高、能量密度大、循环性能好、自放电小、无记忆效应等突出优点,近年来得到了飞速发展。物联网终端等产品大量使用锂离子电池,随着锂离子电池应用的日益广泛,由其寿命引发的一系列问题开始显露出来。由于物联网终端使用的锂电池型号和工作环境各不相同,因此使用较为简单的安时积分法[9]对电池电量进行估算。
(4)
为电池当前电量,单位%,
为电池初始电量,
为放电效率,
为放
电电流,t为放电时间。
4. 基于低轨卫星物联网的业务建模方法
4.1. 业务情况复杂区域的业务建模
传统的3GPP业务模型有诸多限制,已经无法满足日益增长的需要,因此将传统3GPP业务模型与马尔可夫泊松过程结合实现源业务建模。
马尔科夫泊松过程可以用下图3表示,具体的状态数量和转移概率要结合业务类型具体分析。
Figure 3. The Markov-Poisson process
图3. 马尔科夫泊松过程
由于卫星物联网业务类型复杂,不同区域业务类型和忙碌时段均不同,因此我们考虑一个港口作为典型区域来进行业务建模,由表1我们可以分析港口地区的业务类型,可以得到港口地区的业务分为各类资源监测,船只进出港的控制,以及水位等的报警,则每个节点用一条三态马尔可夫链表示,即正常状态,繁忙状态,报警状态各有一个传输速率
,其中k为状态数。当k = 1时,表示节点处于业务周期较长的状态,如业务周期较长的水资源监测,事件驱动的物联网节点可以表示处于正常状态。当k = 2时,表示节点处于业务周期较短的状态,例如,船只进出港的控制。当k = 3可以表示物联网节点处于事件驱动条件下的报警行为。每个节点n的业务是一个泊松过程,其平均值
由三态马尔可夫链调制。同时每天可以分为两种状态,分别为退潮和涨潮。三类业务终端各Ni个,i代表业务类型,三类传感器共N个。
港口区域每天终端业务情况可分为三个状态,因此我们定义了三个全局状态矩阵
,
,
分别代表三种不同时间段终端全局的业务情况,
代表退潮导致水位低,只有水资源监测业务,其余两种业务的终端处于休眠状态,
代表涨潮导致水位高,船只进出港业务开始产生,但并没有水位过高报警,
代表代表涨潮导致水位高,船只进出港业务产生的同时水位过高产生报警业务。全局状态矩阵的每一列代表一种状态,每个状态对应一个终端工作状态矩阵,三个向量代表终端在对应的工作状态的概率,三个向量和为1。对物联网系统的时间演化建模下:
(5)
式中
,
,
。
,其中
代表报警发生的概率,
代表状态1持续的时间,
代表状态2和3持续
的时间。
其对应的终端工作状态矩阵可以表示为
(6)
(7)
(8)
4.2. 影响因素对建模的影响
假设终端n在t时刻发送业务,由于其晶振会产生时钟偏移,因此其发送时隙会改变为
(9)
代表终端偏移至该时隙发送业务,所以实际t时刻发送业务的总终端个数为
(10)
式中
。
由3GPP业务模型可知某时刻业务量服从
的泊松分布,假设
代表t时刻不该进入其他状态时偏移至其他状态的终端总数,因此当存在不同状态的终端在不该进入其他状态时进入其他状态和保持原状态的概率可以近似表示为:
(11)
(12)
由于存在终端电池耗尽,则t时刻总共的终端死亡数为
。
则t时刻终端总数为:
(13)
4.3. 考虑影响因素时的业务建模
实际生活中,业务情况会受到晶振偏移,终端死亡等多种因素影响,因此进行业务建模时也要将影响因素考虑在内。
由于绝对时间不会改变,因此对物联网系统的业务随时间演化依旧为:
(14)
式中
,
,
,其中
报警发生的概率,
,
代表状态1持续的时间,
代表状态2和3持续的时间。
Figure 4. Flowchart of traffic model
图4. 业务建模总体流程
但是由于晶振偏移的影响,导致本该切换状态的物联网终端保留在原状态,或者还没到切换状态的时间提前切换了状态,因此状态转移矩阵会发生改变,因此状态转移矩阵会改变为
(15)
(16)
(17)
式中
代表
t时刻考虑终端死亡后终端总数,
代表
t时刻第
i类业务偏移至其他状态的终端总数,
代表偏移至
t时刻第
i类业务的终端数量。其总体流程如
图4所示。
5. 基于并行CNN-BiLSTM-Adaboost的业务预测
5.1. 并行CNN-BiLSTM-Adaboost网络
与串行CNN-BiLSTM架构不同,一对CNN和BiLSTM可以同时挖掘不同业务量数据之间的关系,而不会因为串行CNN和BiLSTM而导致数据退化[10]。具体来说,将历史业务量数据经过处理分别发送到CNN和BiLSTM,利用数据之间的时域相关性获得当前业务量,CNN网络由两组一维卷积层和Relu激活函数,一个全连接层组合而成。BiLSTM网络由一个BiLSTM层和一个卷积层组合而成。此外,如图5所示,CNN和BiLSTM的输出将进一步结合,以提高预测性能。具体来说,CNN和BiLSTM的输出分别乘以一个权系数,其中权系数在训练过程中自动优化。然后,将两个乘法结果相加得到组合。使用Adam优化器对并行CNN-BiLSTM进行优化。构建的并行CNN-BiLSTM网络可以通过监测均方误差(MSE)来训练,如下公式所示:
(18)
式中
代表i时刻预测值,
代表i时刻真实值,为了优化并行CNN-BiLSTM模型的参数,t优化问题可以进一步写成
(19)
其中
所构建模型的权重和偏置向量。
CNN-BiLSTM网络结构如图5所示。
在此基础上采用AdaBoost算法进行预测效果的提升,AdaBoost算法的重要意义在于为研究和实际问题的解决带来了新的思想,在绝大多数集成学习算法通关构造越来越复杂的分类器来提高预测精度时,AdaBoost却追求将最简单的、比随机猜测略好的弱分类器组合得到强分类器。在训练子分类器的方法上,AdaBoost提供了重要启示:打破已有样本分布,重新采样使分类器更多地关注难学习的样本。在算法使用上,仅需要指定迭代次数,不需要任何先验知识,一切运行过程中的参数由算法自适应地调整,当Adaboost算法用于预测时,能够为预测效果带来很大的提升。
Figure 5. CNN-BiLSTM network architecture
图5. CNN-BiLSTM网络结构
5.2. 并行CNN-BiLSTM网络训练
Table 2. Hyperparameters of the proposed model
表2. 超参数
层 |
数值 |
C1 + RELU |
16@3 × 1 |
C2 + RELU |
32@3 × 1 |
FC1 |
50 |
BiLSTM |
50 |
FC2 |
50 |
FC3 |
1 |
给定如表2所示的超参数,构建的并行CNN-BiLSTM的参数可以依靠设计的算法1进一步优化。为了避免欠拟合和过拟合,我们使用回调函数借助一对验证集来监控损失。此外,还进一步定义了以Patience为代表的标志,以协助监测。具体而言,如果损失函数在连续几个epoch中保持或增加,则当前优化过程完成,其中连续epoch的数量应与Patience相同。因此,在此过程中可以对所构建模型的参数进行优化。
为了进一步提升预测性能,选用Adaboost算法,Adaboost算法是一种集成学习算法,它通过组合多个弱预测器来构建一个强预测器。该算法的核心思想是通过对样本的权重进行调整,使得每次迭代中误差较大的样本在后续的分类中受到更多的关注,从而使得每个弱预测器都能专注于之前预测误差较大的样本。
其算法流程如下:
1) 给定训练样本
,m为训练样本总数。
2) 初始化训练样本的权重
。
3) 第一次循环,首先训练一个弱预测器,计算该预测器的误差;更新样本权重。
4) 经过N次循环,得到N个弱预测器,根据每个预测器准确预测的贡献作为权重进行加权组合,最后得到强分类器,输出预测结果。
5.3. 总体流程
算法1 并行CNN-BiLSTM-Adaboost训练过程 |
输入:训练集D,弱预测器个数N,patience参数,最大训练轮数K 1. 将业务建模生成的数据集按照3:1:1的比例划分训练集,测试集,验证集;训练集
,m为训练样本总数 2. 对数据进行预处理,将输入构建成CNN输入和BiLSTM输入的形式 3. 初始化训练样本的权重
,4. 初始化最小误差
,训练轮数t=0,计数器count=0 5. For
6. While
7. 将训练集
输入并行CNN-BiLSTM网络,计算损失函数Loss来训练模型 8. If
9. count+=1 10. Else count=0 11.
12. t+=1 13. End while 14 计算训练误差,更新训练样本的权重
15 将训练样本根据权重更新构成新的训练集
,计算该弱预测器权重 16. End for 17. 归一化N个弱预测器的权重,将N个弱预测器构建成一个强预测器 |
输出:训练好的强预测器 |
6. 仿真与分析
6.1. 参数设置
Table 3. Simulation parameters
表3. 仿真参数
参数 |
参数值 |
仿真区域 |
区域1:港口区域纬度45~55经度0~10 |
区域2:森林纬度25~35经度110~120 |
区域3:沙漠纬度20~30经度15~25 |
业务类型 |
区域1:资源监测,船只进出港的船只自动识别,涨潮之后水位过高报警业务 |
区域2:森林火灾监测 |
区域3:沙漠环境监测 |
终端数量 |
区域一:80000个终端 |
区域二:40000个终端 |
区域三:10000个终端 |
仿真时长 |
11天 |
星座 |
starlink一期 |
续表
业务发送周期 |
|
终端电量 |
为了展示终端死亡的影响,10%的终端随机只有10天的寿命 |
数据包大小 |
200 byte |
传输体制 |
LoRa |
报警发生概率 |
Pa = 0.1 |
如表3所示,表3为实验选取的仿真参数,星座选取了Starlink一期的1584颗卫星,星上业务量曲线可以通过最短距离选星方法获得,传输体制和数据包大小则决定了终端发送信号放电时间,仿真结果在下一节展示。
6.2. 仿真结果
如图6所示,图6代表港口地区前两天和最后两天的业务到达情况。可以看出由于业务存在不同的忙碌时间,每天不同时间段内的业务量情况存在很大的不同差异,业务的时间不均性非常明显,不同的地区不同的业务需要进行具体的分析,同时经过十天的电量消耗,业务量下降明显,经过十天的时钟偏移,晶振的时钟偏移会对业务的发送时隙产生较为明显的影响,因此由于卫星物联网终端的工作环境通常较差,其晶振偏移等影响因素会对业务量产生较为明显的影响。图7代表经历同一段时间后是否考虑影响因素的集总业务量对比,若不考虑影响因素,其业务量情况较为理想,但实际上无论是业务量大小或是业务发送时隙都会一定程度受到影响因素影响,因此本文提出的模型比起传统的集总业务模型可以更好地展示实际的业务情况。图8为单星的星上业务曲线,可以看出不同的时间业务量大小差距很大,而且接收同一业务时的业务量大小也存在差异,可以明显得到卫星物联网场景下业务量的空时不均性以及随影响因素的改变,体现出了本文提出的业务模型的准确性。
Figure 6. Traffic arrivals in the port area
图6. 港口区域集总业务量
Figure 7. Traffic arrivals with or without impact factors
图7. 是否考虑影响因素的集总业务量对比
Figure 8. Single-star traffic arrivals
图8. 单星业务量
表4为使用并行CNN-BiLSTM-Adaboost网络多次对单星和集总业务量进行预测的平均绝对百分比误差(Mean Absolute Percentage Error, MAPE),MAPE是一种衡量预测精度的指标,它通过计算预测值与实际值之间差异的绝对值,并将其转换为百分比形式来表示平均误差的大小,其计算公式如下所示:
(20)
由表4不难看出,预测结果对比单个的CNN,LSTM,BlLSTM网络都有较大的提升,对比串行CNN-BiLSTM网络,没有导致数据退化,预测结果更为准确,同时Adaboost算法在并行CNN-BiLSTM网络的基础上又有了准确性的提升。
Table 4. MAPE comparison of different algorithms
表4. 不同算法MAPE对比
网络 |
MAPE |
LSTM |
0.1535 |
CNN |
0.2879 |
BiLSTM |
0.1458 |
CNN-BiLSTM串行 |
0.1602 |
CNN-BiLSTM并行 |
0.1293 |
CNN-BiLSTM-Adaboost |
0.1164 |
7. 结论
针对传统集总业务模型没有考虑终端晶振偏移和电池电量耗尽导致终端死亡,无法反映单个物联网终端状态,同时传统业务模型无法反映单个时隙的准确业务量,需要进行实时预测的问题,本文提出一种面向卫星物联网的统计业务建模以及实时预测方法。仿真结果表明提出的物联网业务建模有效地提升了业务模型的准确性,解决了传统集总业务模型无法反映单个物联网终端状态的问题,同时并行CNN-BiLSTM-Adaboost网络对比传统业务预测方法在预测的准确度上有明显提升。