5.2 配电网数据特征分类
分类是通过训练产生的分类函数或分类模型将数据对象映射到2 个或多个给定类别的方法。从机器学习的观点,分类分析是一种有指导的学习,即其训练样本的分类属性(类标号)的值是已知的,通过学习过程形成数据对象与类标示间对应的知识,这类知识也可称为分类规则。
分类通过已训练好的模型或分类规则来预测、标记未知的数据类。分类方法包括决策树归纳法、K最近邻法、向量空间模型法、贝叶斯分类法、支持向量机模糊分类及神经网络法等。在配电网配电变压器故障识别和诊断中,可以通过贝叶斯分类方法将变压器故障分类为内部或外部的接地和短路故障;也可以用神经网络来识别包括高温、低能和高能状态等故障类型。
5.3 配电网大数据快速分析技术路线
数据挖掘技术的选择由相应需要解决的业务问题来决定。要解决一个业务问题,在一个数据挖掘的完整流程中,需要同时利用多种数据挖掘方法。例如在数据预处理阶段,可以通过统计性描述方法对数据的本质、质量进行探索和分析,利用无量纲化的模型对数据进行标准化处理,也可以用聚类分析对临群点进行探索等。
基于配电网大数据聚类与分类技术,研究面向大规模配电网大数据的快速数据分析与处理技术,其技术路线如图4所示。
图4 配电网时空特性的快速数据处理方法