1)基于电度量与量测量互校核的不良数据检测方法。
2)基于不同系统间数据互校核的不良数据检测方法。
配电网多源数据按获得来源分,可分为来自不同系统的数据,来自不同系统间的数据可以进行互校核。如可结合配电网管理信息系统、生产管理系统的信息以及低压台区互联信息,确定配变用电类型,按照不同行业需量系数和典型日负荷曲线可拟合出该配变负荷曲线。
3)基于不同结构数据互校核的不良数据检测方法。
配电网中含有结构化数据、非结构化数据、半结构化数据,但是不同类型的数据可能包含相同的信息量,如某一线路的长度可由地理信息系统中的非结构化图形数据获得,也可从生产管理系统中的结构化数据获得,通过不同类型的数据进行互校核,可实现不良数据的辨识。
配电网中不同的数据源为配电网研究对象提供了多角度、多时间、多维度的数据描述,为了通过大数据分析充分挖掘有用信息,需要建立数据之间的关系数学模型。
4 配电网大数据关联模型建模
4.1 配电网数据特征化
配电网中的研究对象一般使用类进行描述,这种描述可以通过数据特征化得到,数据特征化是目标类数据的一般特性或特征的汇总。特征是一个数据字段,表示数据对象的一个特征。不同配电网研究对象有不同的属性,不同的属性有不同的数据类型,一个属性的类型由该属性可能具有的值的集合决定。
4.2 配电网数据邻近性模型
数据的相似性和相异性都称为邻近性,配电网数据邻近性模型具有广泛的应用。例如,同一个负荷可能在不同的应用系统中有着不同的记录,为了正确高效地进行数据分析,需要在数据集成时将多条记录合并为一条记录,因此需要对多条记录的邻近性进行计算分析。