智能电网大数据结构复杂、种类繁多,其数据存储需要根据数据的特点选用适合的数据存储方式。数据管理也是智能电网大数据的重要功能,从整体上对存储在不同系统上的数据进行统一管理,并提供数据索引和查询功能。综合以上分析,数据存储对比见表1。
2.3数据处理技术
智能电网大数据的应用类型多,需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求,大数据处理技术分流处理、批处理、内存计算、图计算等。
2.3.1 流处理
流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有Twitter Storm和Yahoo S4。
Storm是分布式实时计算系统,主要用于流数据处理,可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息,处理之后将结果写入到某个存储中去。Storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以Storm的速度较快。Storm弥补了Hadoop批处理所不能满足的实时要求,经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。
2.3.2 批处理
Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架,用于大规模数据集的并行运算,主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上,并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之,并把计算推到数据所在的服务器,有效地避免数据传输过程中产生的大量通信开销。
Map-Reduce的优点主要有2个方面:①不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,如自动并行化、负荷均衡和灾备管理等,这将极大简化开发工作;②伸缩性非常好,集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求,只能进行大规模离线数据分析。