中国电力工程技术协会(CEPETA)
China Electric Power Engineering Technology Association
智能运维科研问题针对历史事件瓶颈分析热点分析KPI聚类KPI关联关系挖掘异常事件关联关系挖掘全链路模块调用链分析故障传播关系图构建针对当前事件异常检测异常定位异常报警聚合快速止损故障根因分析针对未来事件故障预测容量预测趋势预测热点分析案例故障预测问题描述对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。输入KPI数据告警输出是否会发生故障1:会发生故障0:不会发生故障转换为机器学习问题(监督学习)问题定义二分类问题关键步骤样本构造(历史样本集)特征构造分类算法(随机森林)故障定界(异常定位)问题描述需要判断是哪一个设备故障导致的异常输入KPI数据网络拓扑输出故障位置转换为机器学习问题(非监督学习)问题定义聚类问题关键步骤样本构造(历史样本集)特征构造聚类算法(层次聚类)异常事件关联关系挖掘(告警关联)问题描述对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组输入告警网络拓扑输出告警组转换为数据挖掘问题问题定义序列频繁项集挖掘问题关键步骤告警预处理清除重复告警清除闪断告警告警空间关联告警时间分组频繁项集挖掘挖掘出频繁项集后,有专家人工确认有关联的故障规则
智能运维科研问题
针对历史事件
瓶颈分析
热点分析
KPI聚类
KPI关联关系挖掘
异常事件关联关系挖掘
全链路模块调用链分析
故障传播关系图构建
针对当前事件
异常检测
异常定位
异常报警聚合
快速止损
故障根因分析
针对未来事件
故障预测
容量预测
趋势预测
案例
问题描述
对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
输入
KPI数据
告警
输出
是否会发生故障
1:会发生故障
0:不会发生故障
转换为机器学习问题(监督学习)
问题定义
二分类问题
关键步骤
样本构造(历史样本集)
特征构造
分类算法(随机森林)
故障定界(异常定位)
需要判断是哪一个设备故障导致的异常
网络拓扑
故障位置
转换为机器学习问题(非监督学习)
聚类问题
聚类算法(层次聚类)
异常事件关联关系挖掘(告警关联)
对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
告警组
转换为数据挖掘问题
序列频繁项集挖掘问题
告警预处理
清除重复告警
清除闪断告警
告警空间关联
告警时间分组
频繁项集挖掘
挖掘出频繁项集后,有专家人工确认有关联的故障规则