该框架几乎涵盖了大数据技术的所有环节,值得指出的是,通过该访问框架不仅可以实现对分布式文件存储系统的访问,而且通过大数据连接器和开源数据传递工具Sqoop可以实现对传统数据仓库的访问。
大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,按照统一的标准对结果进行存储,利用恰当的数据分析技术对存储的数据进行分析,达到从中提取出有价值的知识的目的,并用合适的方式将结果展现给终端用户。
对电力企业来讲,电力大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:电力大数据需要处理大量、非结构的数据,所以在各个环节都可以采用MapReduce等方式进行并行处理。
电力系统是一种高维非线性的复杂系统,其内部的数据流包含电力流、信息流、业务流、故障流、气象流等不同的数据流向。
对这些电力系统的子信息源而言,一方面可以单独应用大数据技术,提升其产业价值,例如电力设备在线监测系统本身就是一个大数据系统,另一方面可以融合不同的子信息源,在更高的层面上构件大数据平台,例如融合电能计量系统、SCADA系统、MIS系统、负荷控制系统,可以构建基于大数据平台的网损分析系统,实现网损的自动统计与分析。
基于该网损分析大数据平台,还可开展基于自动网损统计的用户窃电行为挖掘,实现更深层次的应用。
3 电力大数据关键技术
3.1 电力大数据的集成管理技术
电力企业数据集成管理技术是合并来自2个或者多个应用系统的数据,创建一个具有更多功能的企业应用的过程。从集成的角度来说,就是把不同来源、格式、特点、性质的数据在逻辑上或者存储介质上有机地集中,为系统存储一系列面向主题的、集成的、相对稳定的、反映历史变化的数据集合,从而为系统提供全面的数据共享。电力企业集成管理技术就是为解决电力企业内部各系统间的数据冗余和信息孤岛而产生的。
电力大数据的数据集成管理技术,包含关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、过滤技术和数据清洗等。大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战,要想处理大数据,首先必须对数据源的数据进行抽取和集成,从中提取出实体和关系,经过关联和聚合之后采用统一的结构来存储这些数据,在数据集成和提取时需要对数据进行清洗,保证数据质量及可靠性。