大数据环境下的数据挖掘与机器学习算法,可以从3个方面着手:1)从大数据的治理与抽样、特征选择的角度入手,将大数据小数据化;2)开展大数据下的聚类、分类算法研究,例如基于共轭度的最小二乘支持向量机(least squares support vector machine,LS-SVM)],随机可扩展FuzzyC-Means (FCM)等;3)开展大数据的并行算法,将传统的数据挖掘方法通过并行化,应用到大数据的知识挖掘中,例如基于MapReduce的机器学习与知识挖掘。
3.3 电力大数据的数据处理技术
电力大数据的数据处理技术包括分布式计算技术,内存计算技术,流处理技术等。分布式计算技术是为了解决大规模数据的分布式存储与处理。内存计算技术是为了解决数据的高效读取和处理在线的实时计算。流处理技术则是为了处理实时到达的、速度和规模不受控制的数据。
分布式计算是一种新的计算方式,研究如何将一个需要强大计算能力才能解决的问题分解为许多小的部分,然后再将这些部分分给多个计算机处理,最后把结果综合起来得到最终结果。
分布式计算的一个典型代表是Google公司提出的MapReduce编程模型,该模型先将待处理的数据进行分块,交给不同的Map任务区处理,并按键值存储到本地硬盘,再用Reduce任务按照键值将结果汇总并输出最终结果。分布式技术适用于电力系统信息采集领域的大规模分散数据源。
内存计算技术是将数据全部放在内层中进行操作的计算技术,该技术克服了对磁盘读写操作时的大量时间消耗,计算速度得到几个数量级的大幅提升。内层计算技术伴随着大数据浪潮的来临和内存价格的下降得到快速的发展和广泛的应用,EMC、甲骨文、SAT都推出了内存计算的解决方案,将客户以前需要以天作为时间计算单位的业务降低为以秒作为时间计算单位,解决了大数据实时分析和知识挖掘的难题。
流处理的处理模型是将源源不断的数据组视为流,当新的数据到来时就立即处理并返回结果,其基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据做出分析并给出结果,其应用场景主要有网页点击的实时统计、传感器网络、金融中的高频交易等。
随着电力事业的发展,电力系统数据量不断增长,对实时性的要求也越来越高,将数据流技术应用于电力系统可以为决策者提供即时依据,满足实时在线分析需求。