大数据存储管理中一个重要的技术是NoSQL数据库技术,它采用分布式数据存储方式,去掉了关系型数据库的关系型特性,数据存储被简化且更加灵活,具有良好的可扩展性,解决了海量数据的存储难题。有代表性的NoSQL 数据库技术有Google的BigTable和Amazon的Dynamo等。
3.2 电力大数据的数据分析技术
大数据技术的根本驱动力是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。借助电力大数据的分析技术可以从电力系统的海量数据中找出潜在的模态与规律,为决策人员提供决策支持。
麦肯锡认为可用于大数据分析的关键技术源于统计学和计算机科学等学科,包含关联分析、机器学习、数据挖掘、模式识别、神经网络、时间序列预测模型、遗传算法等多种不同的方法。
大数据研究不同于传统的逻辑推理研究,是对巨大数量的数据做统计性的搜索、分类、比较、聚类等的分析和归纳,因此继承了统计科学的一些特点,如统计学关注的数据相关性或称关联性,所谓“相关性”是指2个或2个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的关系网,一般用支持度、可信度、兴趣度等参数反映相关性。
牛津大学网络学院教授维克多在他的著作《大数据时代》中指出:在大数据时代,相关关系分析法将大放异彩,通过找到一个良好现象的关联物,相关关系分析可以捕获现在和预测未来。大数据相关关系分析法,建立在海量样本的基础上,不采用随机分析法这样的捷径,而采用分析所有数据的方法;大数据的简单算法比小数据的复杂算法更有效,其结果更快、更准确而且不易受到干扰,因此他指出建立在相关关系分析法基础上的预测是大数据的核心。
大数据这种不注重因果关系侧重于相关关系的分析方法,带来了科学研究思维方式的重大转变,已故图灵奖得主吉姆˙格雷提出的数据密集型科研“第四范式”,将大数据科研从前3 种范式(理论科学、计算科学、实验科学)中分离出来,单独作为一种科研范式,正是因为其研究方式不同于基于数学模型的传统研究方式。
电力大数据分析技术,从根本上讲,属于传统数据挖掘技术在海量数据挖掘下的新发展,但由于大数据海量、高速增长、多样性的特点,并且不仅包含结构化数据,还含半结构化和非机构化数据,因此传统的很多处理小数据的数据挖掘方法已经不再实用。