来自于计算机和信息技术领域最前沿的云计算技术和大数据技术,正是其发展阶段技术层面和应用层面两个具有划时代意义的新技术。云计算技术中的分布式存储技术和并行计算技术,满足了电网海量数据的存储和计算需求,因此云计算技术推出不久,电力云的概念就提出来,云计算技术在电力系统中的应用也逐渐呈现出百花齐放的态势,推动了智能电网的发展。
大数据技术既是传统数据分析与挖掘技术的延续,也是数据量级增长到一定阶段时知识挖掘与业务应用需求的必然产物,因此大数据技术的大部分应用都以云计算的关键技术或者与云计算类似的分布式存储和处理技术为基础。电力大数据技术的发展从某种意义上讲,可以看成是云计算技术在智能电网中,高级业务需求的实现过程。
2 电力大数据平台的总体架构
Apache基金会开源技术通用的大数据平台整体架构具有较好的通用性,适用于电力企业大数据的规划,其主要思想是利用基于Hadoop文件系统(Hadoopdistributed file system,HDFS)的分布式文件处理系统作为大数据的存储框架,利用基于MapReduce的分布式计算技术作为大数据的处理框架。
以分布式文件处理技术为基础,使PB、ZB级的数据存储成为可能;以分布式计算技术为基础,使得PB、ZB级数据的查询分析成为可能。另外该框架中还包含商业智能应用、传统的数据仓库、大数据访问框架、大数据调度框架、网络层、操作系统、服务器、备份和恢复、数据管理等模块。
大数据存储框架和大数据处理框架通常构建在通用的服务器、操作系统或者虚拟机上,使得该架构所需的硬件具有低成本和高扩展性的特点,标准的普通服务器或者PC机即可成为基于该架构的终端构成单元。
大数据存储框架和大数据处理框架之上是通过网络层连接的大数据访问框架,该访问框架包含并行计算机编程语言Pig、数据仓库工具Hive、开源数据传递工具Sqoop 等子模块。
大数据调度框架包含基于列存储的开源非关系型数据库Hbase、数据序列化格式与传输工具Avro、日志收集系统Flume、分布式锁设施ZooKeeper等模块。
大数据调度框架实现了对大数据的组织与调度,为数据分析提供了必要条件。在大数据调度框架之上是企业级商业智能应用系统,可以开展查询、分析、统计、报表等高级应用。大数据的管理、安全和备份恢复框架帮助进行大数据的治理和保护。