北极星智能电网在线讯:摘要:随着海量历史准实时数据管理平台的建成,湖南省电力公司已初步建成由结构化数据中心、海量数据中心、非结构化数据中心和电网GIS数据中心组成的SG-ERP数据中心;业务应用的数据正以前所未有的速度增长,电力大数据时代到来的同时,如何盘活公司的数据资产成为重要的研究课题。文章通过对大数据技术以及电网运营数据的研究,完成了通过大数据技术来预测用、售电量,以及电网负荷预测的初步探索,并构建了电网运营分析决策系统。研究结果表明,大数据技术在电力行业具有广阔的应用前景。
关键词 : 大数据技术; 分析决策; 数据挖掘;
0 引言
大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营法,还有利于推动国民经济的健康发展[1]。面对大数据时代的洪流,大数据技术的研究与应用,将能帮助公司充分的挖掘数据资产价值,更好支撑公司未来的可持续发展。
1 研究背景
通过对历史数据的分析,服务公司发展决策、引导公司科学发展实践、监测公司科学发展进程是大多数公司的常用方法。湖南省电力公司一直高度重视分析决策工作,不断完善分析决策体系,拓宽分析决策领域,丰富分析决策手段,其分析决策水平明显提升,为公司改革与发展提供了有力支撑。当前,公司正处于重要的战略机遇期、管理转型期和改革攻坚期,分析决策工作面临的形势也正在发生深刻的变化。
一方面,分析决策应用的领域范围越来越广,用户对分析预测精度的要求越来越高,影响分析决策结果的影响因子也越来越复杂,数据来源越来越广泛、多样且数据量剧增;另一方面,电力行业经过多年的发展,特别是信息化建设的加速,积累了海量的行业数据,但这些数据都尘封于数据仓库中,没有发挥其真正的价值。原因在于这些数据体量大、类型多、更新快,使得传统的数据挖掘技术难以对其进行处理,挖掘其内在价值。
近年来,从互联网行业兴起的大数据技术已推广至多个行业领域,但在电力行业的应用还处于探索阶段。基于大数据思维,研究其利用大数据技术提升公司分析决策水平,从而推动电力行业有效、可持续的发展具有重要的理论与现实意义。
2 大数据应用及发展趋势
随着分析决策业务的不断提升、分析决策指标的不断完善、分析决策领域的不断拓展,以及分析决策信息化建设的不断推进,分析决策业务指标数据逐年量级递增。如此庞大、海量的数据,伴随的是如何对其进行采集、传输、处理和应用的相关技术,即大数据处理技术。
目前大数据分析的应用主要包括以下几方面。
1)可视化分析。大数据分析的从业人员、相关领域专家和普通用户都是大数据分析的使用者,实现可视化分析是他们对大数据分析最基本的要求。通过可视化能够直观的呈现大数据的特点,同时能够非常容易的被使用者理解并接受[2]。
2)数据挖掘算法。数据挖掘算法是大数据分析的理论核心,数据本身的特点需通过不同的数据类型和格式才能更加科学的呈现。因此被统计学家公认的各种统计方法才能深入数据内部,挖掘出隐含在数据中的巨大价值。同时,也因为这些数据挖掘算法,才使得大数据的处理更加快速[3]。
3)预测性分析能力。预测分析是大数据分析最重要的应用领域之一,从大数据中挖掘出特点,科学的构建相应的模型,之后便可以通过带入模型的新数据预测未来的数据[4]。
4)数据管理和数据质量。数据管理和数据质量是大数据分析的前提,为保证分析结果的真实和高价值,高质量的数据和有效的数据管理在学术研究和商业应用领域都是非常重要的[5]。
大数据的利用水平将成为提高企业核心竞争力、抢占市场先机的关键。充分挖掘利用大数据价值,并将其转化成实际生产力,将着实提升企业竞争优势。大数据将推动各个行业的信息技术应用,产生两大重要趋势。
1)数据资产化。在大数据时代,数据已经渗透到各行各业,逐渐成为企业战略资产。拥有大数据的规模、活性,以及采集、存储和运用大数据的能力,决定企业的核心竞争力。掌控数据就可以深入洞察市场,从而做出快速而精确的应对策略,这意味着巨大的投资回报,从而使数据成为企业的核心资产。
2)决策智能化。企业未来发展方向是实现决策智能化。在大数据时代,企业通过大量内、外部数据的采集、存储和分析,获取有价值的信息,并通过这些信息预测市场未来的需求,从而进行智能化分析决策,制定更加行之有效的战略,实现决策智能化。
3 基于大数据技术的电网运营分析决策系统架构
基于大数据技术的电网运营分析决策系统架构如图1所示,架构分为5层:源数据层、数据抽取层、支撑层、应用监控层及业务层。
图1 基于大数据技术的电网运营分析决策系统架构
Fig.1 Architecture of power grid operation analysis and decision-making system based on big data technology
源数据层包括结构化数据中心(Data Center, DC)、非结构化DC、海量历史DC、电网GIS DC四大数据平台。
数据抽取层包括Sqoop(SQL-to-Hadoop)和数据导入导出接口,其中通过Sqoop实现数据中心的结构化DC、非结构化DC、海量历史DC等多源的数据采集转换,实现数据在大数据平台中的分布式存储;数据导入导出接口实现大数据平台中数据的导入和导出。
支撑层包括Hadoop、Spark、HBase及Hive。Hadoop主要用来实现数据的分布式存储及计算;HBase主要基于Hadoop分布式文件系统(Hadoop Distribute File System,HDFS)实现数据的列式存储;Hive实现数据仓库功能,提供Hibernate查询语言 (Hibernate Query Language,HQL)高级数据操作;Spark内存计算框架,用来弥补Hadoop对中小数据计算支持的不足。
应用监控层包括分布式存储管理模块和分布式监控模块。分布式存储管理模块主要实现对存储内容的可视化管理;分布式监控模块对Hadoop集群、HBase数据库等系统的性能进行监控。
业务层包括用电量预测、售电量预测和电网运行负荷预测三大功能模块。用、售电量预测功能根据历史售电信息,考虑相关历史影响因子数据,采用多种预测模型实现电量预测。结合大数据技术,系统的电量预测功能能实现多层空间跨度、多层时间跨度及多行业的电量预测。在空间跨度上,系统能对省、市、县的具体电量进行预测;在时间跨度上,能对年、月、周、日的具体电量进行预测;在行业上,系统对可实现对第一产业、第二产业、第三产业及全社会电量的分别预测。电网运行负荷预测功能,通过对预测日的气象数据、工作日类型、节假日等数据的预测整理,寻找预测日的相似日,以相似日数据为历史数据,采用灰色模型法进行负荷预测,进而得出预测日96点负荷值。