大数据在电力通信网中的应用:电力通信网的数据主要来源于设备告警,设备运维,业务数据等各个环节,其数据具有数据量大,数据类型繁多,数据价值高等特征。基于海量的数据,对设备故障的预测,对于提高电力通信网系统的可靠性,减轻设备管理和维护的负担具有重要意义。基于电力通信网的大数据应用将促进电网通信运行水平和管理效率的提高,“在进一步提升电网安全预控水平和供电可靠性的同时,带来巨大的社会效益。”
循环神经网络:大量的机器学习的任务都是处理时序相关的输入,比如视频分析,音乐检索,时序相关的预测等等。循环神经网络通过神经网络内部的节点的循环能够获取序列的动态性。不同于普通的前馈神经网络,RNN能够在很长的上下文窗口中记住代表信息的状态。在过去的几年中,大量的论文在翻译、图像相关等领域使用RNN取得了很大的成果。在实际的应用中门控RNN,包括LSTM,GRU是最有效的模型,其允许网络在较长的时间内积累信息,而且可以解决梯度爆炸和梯度消失的问题。Klaus Greff详细的总结了LSTM的基础架构和其相应的变体,以及LSTM在演讲识别,手写识别等方面的重大成功。他发现大部分LSTM的变体并没有很大的提升网络的性能,强调了忘记门和激活函数在LSTM中的重要作用。
Ke Zhang等人基于IT系统的日志,使用LSTM预测复杂IT系统的故障,结论发现LSTM在预测效果明显好于机器学习的方法,展示出了LSTM在此领域的潜在优势。LSTM也被用在硬盘的故障预测,Chang Xu等使用时序的属性,采用RNN的模型对硬盘的健康状况进行预测,取得了很大的成功。RNN近年来在医疗领域取得了很大的成功,Edward Choi基于电子健康病历的记录,使用GRU的模型取进行心脏疾病的预测,相比传统的机器学习方法性能上有很大的提高。
国内基于电力通信网设备日志的研究主要集中在故障定位和告警关联性分析两个方面,有大量的相关的论文。Jiang ZHONG等人使用某通信网络设备的告警数据采用随机森林、贝叶斯网络等传统的机器学习算法进行故障的预测,但是预测精度很差。目前电力通信网数据的相关研究基本采取的是传统的机器学习方法,本文创新式地采用深度学习的方法,利用深度学习的强大的能力,使用改进的LSTM,将很大程度上提高预测的精度。深度学习相关的方法将给电力通信网的问题提供新的更好的解法。
问题拆分
首先提出了数据预处理和构建时序输入的方法。LSTM相比简单的循环神经网络,更易于学习长期的依赖,能够很好的解决序列相关的预测问题。因为设备告警之间存在很强的关联性,通过PCA能够确保变量之间的独立性。本发明还使用目标复制的策略对LSTM进行改进,在时序每一步中都可以带来局部的误差信息,相比简单的只在最后一步进行目标输出,该策略能够提升模型的精度,降低过拟合的风险。结合dropout,本发明提出LSTM的预测模型,深度学习能够取得更好的预测精度。同时,本发明首次使用了LSTM对电力通信网告警数据进行建模,识别其内部的时序模式。
问题解决
电力通信网作为智能电网的支撑网络,其可靠性已成为智能电网智能化和经济、安全运行的先决条件。在电力通信网这种特殊的环境下,网络系统的可靠性显得尤为重要,特别是在一些关键业务的执行过程中,设备的故障会导致重要信息的丢失,甚至业务的失败。针对此环境下的设备故障的预测,能够大大的减少业务失败的风险,极大的提升设备维护和维修的水平。
电力通信网现已经积累了大量的数据,电力通信网的数据主要来源于设备告警,设备运维,业务数据,机房温度、湿度数据等各个方面,其数据具有数据量大,数据类型繁多,数据价值高等特征。本发明主要以网络设备的告警日志数据为基础,提出一种基于改进的LSTM电力通信网设备故障预测模型,相比其他传统的机器学习模型,
一种基于改进的LSTM的电力通信网设备故障预测方法,其特征在于,包括:
步骤1,对电力通信网设备的告警数据和机房动环数据进行预处理;
步骤2,构建基于时序的输入,时间窗口构成一个时间序列,对于一个单独的时间窗口ti,包含如下的几类特征:
特征一、这个时间窗口内,设备所在机房的温度的平均值,湿度的平均值,分别记为Ti,Hi
特征二、对于某台设备,其告警的类型是固定的,表示为A1,A2,A3...Am.那么每种告警在该时间窗口内出现的次数为
特征三、对于每种在该时间窗口内发生的告警对应的持续时间(结束时间与开始时间之差)为
特征四、时间窗口的中心时间点距离设备上一次故障的时间长度Wi,如果设备正处于故障之中Wi为0;
特征五、三种告警级别提示、次要、重要、紧急在该时间窗口内分别发生的总次数L1i,L2i,L3i,L4i;
对于每种告警,比如A1,选择前pre(本发明建议选择5)个窗口,计算在pre个窗口中A1发生过的个数记为则概率
对于上述数值型的特征为了消除不同特征之间的量纲影响,需要对数据进行归一化处理;综上所述,将基于时序的输入表示为向量的方式,如下所示:
步骤3,构建预测模型,并采用该模型进行电力通信网设备故障预测,具体是:定义模型从下往上依次是输入层,PCA,LSTM隐藏层,dropout,输出层;基于改进的LSTM构建深度神经网络,来解决电力通信设备故障预测的问题,预测设备下一个时间窗口是否会发生故障是一个二分类的问题;给一个序列x1,x2...xT,需要学习一个分类器能够生成真实结果y的预测值这里的y表示的是xT之后的时间窗口是否会发生故障;采用没有peephole连接的LSTM记忆细胞来构造深度神经网络,在LSTM隐藏层的上层构建了一个全连接的输出层,使用sigmoid的激活函数输出最终的预测目标;并使用交叉熵作为损失函数;
采用了目标复制的策略构建LSTM的预测架构,在每一个步骤上都进行输出预测,从而在每一步中都可以带来局部的误差信息;基于该LSTM的预测架构,损失函数如下所示:
其中α∈[0,1]是一个超参数,表示在序列的中间步骤中其预测结果的相对重要性;
为了防止神经网络的过拟合在LSTM隐藏层和输出层之间使用dropout,并使用L2的权重衰减,基于这两种防止过拟合的方案,分类器能够取得更好的性能。
在上述的一种基于改进的LSTM的电力通信网设备故障预测方法,所述步骤1的预处理具体处理方法是:
步骤2.1、对非法的告警进行剔除,这些数据视其为脏数据,脏数据的输入会影响预测的结果,主要包含以下几种情况:告警的发生或者结束时间为非法时间,告警的结束时间早于告警的开始时间,告警类型的信息未定义等;
步骤2.2、定义阀值Threshold,如果告警的结束时间与开始时间之差,小于Threshold,将其过滤;Threshold可以通过绘制告警持续时间的曲线图,结合专家知识进行评估,在本发明中建议阀值设为20秒;
步骤2.3、机房的温度湿度数据一般是每隔五分钟采集一次,但是有些数据存在缺失值,对于缺失的数据使用离该时间点最近的温度、湿度数据进行代替。
在上述的一种基于改进的LSTM的电力通信网设备故障预测方法,还包括一个验证步骤,具体是:
步骤4:将数据分成多份进行交叉验证,从而选择出更好的超参数;如果训练的数据集较大,则可以采用小批量的随机梯度下降法进行模型的训练,可以节省计算资源,同时损失函数的下降会更加稳定;为了评价模型的好坏,采用Precision、Recall、AUC、F1等指标进行综合评价。
该模型有如下的优点:
1.深度学习相比传统的机器学习方法,如支持向量机,贝叶斯网络、决策树等模型,在大数据量的问题中,具有更好的学习和泛华能力。传统的Logistic Regression等模型,为了使模型具有非线性的能力,需要采取离散化,特征组合等策略,需要大量的精力花费在特征工程上,非常依赖人力和领域的经验知识,不够智能。而深度学习能够对特征自动进行排列组合,只需要输入一阶特征,省去了手动构造高阶特征的工作量。考虑本文要解决的问题,在大规模通信网的故障预测中问题中,由于网络本身的复杂性,导致特征的提取具有很大的难度,所以传统的模型很难取得很好的预测效果。
2.LSTM相比简单的循环神经网络,更易于学习长期的依赖,能够很好的解决序列相关的预测问题。通过多层的非线性转换,LSTM能够很好的适应复杂任务的建模。通过足够的样本数据的训练,该模型能挖掘出混乱数据中的大量的有价值的信息。在设备完全发生故障之前往往会表现出一些症状,可以视为故障的潜伏期,这些症状主要是通过设备发出的告警、日志表现出来,有些故障的潜伏期很长,有些故障潜伏期很短,所以在时序上存在长期依赖和短期依赖两种情况,而LSTM能够很好地应对两种依赖,从而取得很好的预测效果。在很多问题上,LSTM已经取得了很大的成功。
3.本发明对LSTM进行了改进,首先体现在神经网络输入特征的处理,对构建的特征进行PCA的主成分分析,降低数据的维度,因为设备告警之间存在很强的关联性,如A告警发生的同时可能会导致B告警的发生,通过PCA主成分分析能够确保变量之间的独立性,同时可以达到去噪的效果。
4.在本发明中,通过目标复制策略改进了LSTM,使该模型能够取得更好的性能,提高了模型的鲁棒性,降低了过拟合的风险。本发明提出了适合电力通信网设备故障预测的深度学习架构。