数据准备是数据挖掘的第一个阶段,也是非常重要的一个阶段。数据准备的好坏将影响到数据挖掘的效率和准确度,以及挖掘模式的有效性。这个阶段又可细分为数据集成、数据选择、数据预处理和数据转换4个步骤。
1)数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语意模糊性,处理数据中的遗漏和清洗脏数据等。
2)数据选择就是根据用户要求,利用一些数据库操作对数据进行处理,从数据中提取出需要挖掘的数据集合。
3)数据预处理就是对上述数据进行再加工,检查数据的完整性和一致性,对其中的噪声数据进行处理,对丢失的数据利用统计方法进行填补,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。之后,根据数据挖掘的目标,通过投影等降维处理技术减少待处理的数据量。
4)数据转换就是根据数据挖掘的需要,进行离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等操作。
数据挖掘是运用选定的数据挖掘方法,从数据中提取用户需要的知识。数据挖掘常用的分析方法有:关联分析、序列模式分析、分类分析和聚类分析。在本项目的实施中主要采用了统计分析方法、决策树方法、神经网络方法、遗传算法和可视化技术等。
解释评估是根据最终用户的决策目的对提取的知识进行分析,把最有价值的信息区分出来,提交给用户。在这个过程中,不仅要把知识以能被人理解的方式表达出来,还要对其进行有效性评价,如果不能满足用户要求,则应重复上述数据挖掘过程。
2.2模式识别模式
在数据挖掘中有大量的模式识别模型处理。模式识别模型由预处理、指标计算、参数选择、类型识别与解释、规则挖掘等子模块组成,模块组合见图3。图中箭头表示模型计算数据流。初始数据集为原始负荷采集数据,参数选择模块包含算法及其参数的人工选择,在模型各子模块中采用了失真数据识别与修正、数据归一化处理、数据降维与可视化聚类、聚类评判指标等算法。
图3 模式组合识别模式模块
2.3交叠空间的数据提取
主动配电网中对象属性规模庞大,有宏观的全网负载水平,也有微观的设备控制参数增益。因此在主动配电网的全景信息展示系统中不仅需要考虑与现象相关的所有影响因素(描述属性),同时也需要构建全属性维度的描述空间,掌握其属性的空间分布特性。采用m维属性空间描述n维系统,其中m
1)辅助调度员或监控系统对电网运行状态进行多指标联合观测,如果系统运行在交叠空间中,即发出预警信号,并提供危险程度信息和离开交叠空间的安全引导策略,在紧急情况下快速调整系统状态点到安全空间区域。