关系数据库可以有效处理TB级的数据,当数据量达到PB级时,目前主流数据库很难处理。为了回避此问题,目前电力企业采用先从“生数据”中提取“熟数据”的存储方式,这样虽然可以减少网络传输和数据库存储的数据量,但不可避免损失“生数据”中隐藏的重要特征量信息,如绝缘的放电频谱。同时传统的关系型数据库对数据的处理只局限于某些数据类型,比如数字、字符、字符串等,对非结构化数据(图片、音频等)的支持较差。然而随着用户应用需求的提高、硬件技术的发展和互联网上多媒体交流方式的推广,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,面对日益增长的处理庞大的声音、图像、视频、E-mail 等复杂数据类型的需求,传统数据库已显得力不从心。
虽然云计算平台为电力大数据的分析带来希望,具有存储量大、廉价、可靠性高、可扩展性强等优势,但在实时性方面难以保证,故它不适合于作为电网调度自动化系统的主系统,但可用于调度自动化系统的后台,同时数据隐私和安全等方面的要求尚不能满足,有待进一步研究。
电力大数据的发展机遇
当然,随着数据处理技术的不断进步,电力大数据处理中遇到的各种问题也将被逐一被解决。
实时数据处理能力
对大数据而言,数据处理速度十分重要。内存数据库有效的提高了智能电网环境下各个环节的数据实时处理能力。内存数据库就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级将数据保存在内存中比从磁盘上访问能够极大地提高应用的性能。例如,2012年针对去年我国部分地区出现用电荒,而另一部分地区呈现电能过剩的状态,SAP推出了基于HANA内存数据库的智能电表分析解决方案,希望能够将智能电网涉及的环节和电力大用户的数据进行集成和整合分析,以实现各地电能消费情况的分析,以做好相应的预防措施。