2.1数据集成管理平台架构与统一数据模型技术
智能配用电大数据的第一个关键技术是数据集成管理平台架构与统一数据模型技术。集成管理平台将若干分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合,即统一数据模型中,为后续分析存储一系列面向主题的、集成的、相对稳定的、反应历史变化的数据集合,从而为系统提供全面的数据共享,解决电力企业内部各系统间的数据冗余和信息孤岛的问题。
配用电数据集成与管理平台的数据源包括内部数据和外部数据。内部数据包括智能电表数据、配电自动化/SCADA数据、配电网线路信息、设备运行信息、用户信息、空间位置信息等;外部数据包括地理信息数据、气象数据、人口数据等。这些数据根据其特性可以存储在传统数据仓库中,也可以存储在NoSQL数据库中或是图数据库中。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
配用电数据基础与管理平台根据智能电网统一数据模型SGDM,按照从上至下的设计理念,将来自多个数据源的数据按照资产信息、网络拓扑模型、用户信息和外部数据进行有机整合,覆盖网络运行、账户管理、资产管理、客户管理、停电管理、工作管理和天气模型等业务领域,结合包括KPI在内的智能电网大数据分析挖掘需求,针对支持电力公司的运营和发展、分析用户行为与服务优化、为政府与社会提供决策咨询与支持3类应用,设计8个业务域,49个主题域,定义包括实体及其关系在内的逻辑模型,并依据第三范式原则优化物理模型。
针对配用电数据的来源多重性、实时交互性、时间相关性和多尺度性,见图3,SPARK中的弹性分布式数据集(RDDs)运用高效的数据共享概念和类似于MapReduce的操作方式,集成地理信息等静态数据,并通过通过离散流将动态流数据集成,在一段时间周期上进行一系列确定性的批处理计算。在数据仓库中分层处理不同的数据,其中包含基础数据层、数据分析层和核心展示层。在基础数据层采用标准化的公共信息模型(common information model,CIM),用于描述能量管理系统中主要数据对象,是面向电力生产交易全环节相关对象及其关系的面向对象建模方法。在数据分析层,采用包括规则引擎、报表工具、挖掘工具、可视化互动分析工具等软件,为大数据实验室未来的各类专题研究提供数据分析手段。在核心展示层安装地理信息,按照从配电系统到变电站到配变最后到每个用户逐级展示负荷特性、有功功率和无功功率、电能质量和负载等信息。
图3数据集成管理平台架构与统一数据模型技术
2.2多源数据在线分析技术
智能配用电大数据的第二类关键技术是多源数据的在线分析技术,技术框架见图4。配电PMU数据与配电SCADA数据及智能电表数据融合,可以开发融合多源数据的配电网状态估计算法。将配电SCADA数据,智能电表数据与气象数据融合,可为智能配电大数据分析系统提供数据基础。首先数据通过SPARK的数据载入、转换和装载等操作,提供“即来即处理”的数据基础。大数据分析系统支持以15min为周期的数据质量和电能质量在线分析,和以日为周期的微增用电行为分析和负荷特性分析。微增用电行为分析利用微增聚类分析等方式可以充分利用最新的数据资源,达到实现动态数据分析的目的。
图4多源数据在线分析技术框架
2.3数据分析算法库与用户画像
智能配用电大数据的第三类关键技术是智能配用电的算法库研究技术。配电大数据的算法库包含了3类算法,即K-系列数据分析算法、关联统计算法和机器学习算法。
智能配电大数据中的智能电表数据具有时间相关性和空间相关性。智能电表的测量数据与时间纬度结合形成时间序列数据,分析时间序列的目的是通过对已有的历史数据进行分析,找出其中蕴含的规律,从而更准确地对未来的负荷进行预测。K-系列算法主要包含传统的K-均值算法、自适应K-均值算法、分层K-均值算法、K-子空间分析算法和K-形状分析算法。K-均值算法在已知分组数的情况下,可以快速的对用户每天的曲线进行分类。自适应K-均值算法可以在未知K值得情况下,对不同的用户曲线进行分类。分层K-均值可用于对自适应K-均值的聚类结果进行再聚类,将中心曲线距离较近的聚类进行合并,从而将聚类组数控制在所期望的范围内。将分层聚类算法与自适应K均值算法配合使用,可以在指定K值情况下,保证聚类分组的精度,是对自适应K-均值聚类算法的补充和完善。K-子空间分析算法则针对负荷模型大多数的P-V数据都有比较明显的条带状趋势这一数据特征对P-V与Q-V数据进行分类。K-形状分析算法侧重曲线形状特征的辨识,是发现时间序列数据所蕴含的形状特征的有效算法。
关联统计算法是一种非参数统计方法,最常用的就是相关性系数(correlationcoefficient)。关联统计分析是通过智能电表读数各个物理量之间的关系判断数据质量。如果计算的相关性系数越高则说明数据质量越高,没有错数或异常情况。奇异点监测分析是将大型用电器引起的突变点当做数据中的异常值,按照识别异常值的统计方法来寻找突变点。此方法还适用于分析配变、变电站、系统中可移动负荷的分布,为电力需求响应项目奠定重要基础。
机器学习算法主要侧重于数据驱动的算法来辨识配电网络的拓扑结构。其中Chow-Liu决策树算法可以用二阶分布来近似表示高维联合分布用的方法,对Chow-Liu树模型的合理应用能够极大的简化贝叶斯网状模型或是图形模型的复杂度,从而辨识辐射网的拓扑结构;另一机器学习算法GroupLasso可以用于根据智能电表数据,重建配电网中的母线连接以及辐射型和网状的网络拓扑结构,通过GroupLasso算法建立线性回归模型,求解母线连接和拓扑结构辨识的问题。数据分析算法与交互式分析见图5。
图5数据分析算法与交互式分析
3融合时空信息的配用电大数据分析应用
智能配用电大数据系统运用异构多数据源处理技术。配用电的各类数据来源于不同的地理空间和电网空间,通过数据抽取、数据转换和数据转载,将不同系统、不同结构的数据集成到基于图、关系和时序数据库的统一数据模型中,并通过数据清洗提高数据质量,然后应用数据模型分析该数据。目前智能电表等不同来源的数据在系统中融合、转换和分析后可实现用户画像功能、电网运行与资产管理功能、用户服务与社会服务功能。
智能电网大数据的空间维度可分为基于地理数据(GIS)的地理空间维度和基于电网结构的电网空间维度。地理空间强调与电网规划、区域发展、综合能源网、需求响应之间的关系,地理空间数据指的是与地图相关的地理数据GIS;地理空间的数据可从国家细化到售电公司、小区最终到每个用电用户。电网数据的各数据源与地理空间维度和时间维度相融合,开发用于服务智能电网大用户、支持需求响应项目等功能以促进社会的发展。社会和用户服务功能主要融合智能电表和电价的数据,见图6。智能电表的采样频率为15min,可以集成多年的智能电表数据对用户、小区、售电公司各层级的的负荷及负荷形状分析和对大型电器的用电分析。根据用户的行业注册信息可以对某行业的用户行为进行分析,如工业用户的开启和关闭大型用电设备的时间,分析工厂的生产工作时间,寻找工作用电高峰的稳定性,为需求响应等政策提供基础。电价数据与智能电表数据融合可以为精准营销提供重要基础数据,根据用户的负荷形状对用户进行分组,并根据每组用户负荷形状的变化对系统总负荷的影响计算3个影响因素(即早爬坡影响因素、晚爬坡影响因素和峰值影响因素),并根据3个因素计算每组用户对系统总供电费用的影响,以此作为电费的重要组成部分。
图6配用电大数据分析应用的社会/用户服务功能
与上述地理空间对应的是电网空间,电网空间强调与电网运行、资产管理之间的关系,指的是电网结构数据。电网空间的数据可从配电区细化到变电站、配变、最终到每个用户的负荷。图7中,电网数据的智能电表数据、PMU数据和SCADA数据与电网空间相融合,支持电网运营与资产管理功能。在配电区这一层级,PMU数据与SCADA和智能电表数据融合可以用于分析多源数据融合状态估计,并分析PMU数据中P、Q、Um、Ua之间的关系。智能电表数据和温度等气象数据融合可以分析温度对系统有功功率和无功功率的影响。在变电站层级,SCADA数据与智能电表数据融合可以对变电站的网损进行分析。智能电表数据和气象数据融合可以分析温度对变电站有功功率和无功功率的影响,进行更精准的负荷预测。在配变层级上,可以分析变压器的有功功率、无功功率、并对电能质量和负载进行分析。在单个用户的负荷层级,可以进行多时间尺度分析、运行可靠性分析、交叉检验、电能质量分析和电表数据质量分析。多时间尺度分析功能强调的是用户画像功能。用户画像功能根据用户运行数据对用户的用电行为进行分析,进而得到个体用户和集体用户的用户行为特点,针对用户的用户行为特性提前做出计划,从而在保持高效的电力服务的同时能够降低运行成本。
图7智能配用电大数据分析的电网运营功能
4结语
本文在讨论智能配用电大数据来源和生命特征的基础上,研究了智能配用电大数据集成和分析的关键技术,从时空角度提出了智能配用电大数据分析在用户/社会服务、电网运营方面的典型应用。目前,面临分布式发电、分布式储能、电动汽车和可调节负荷等对配用电网的巨大影响与冲击,配用电公司正在从传统的供用电公司向能源综合服务公司转型,配用电公司目前采集到的大量数据必将成为支撑公司业务模式转型的重要技术资源和重要数据资产,作为可以充分发挥这笔数据资产价值的关键技术手段,融合多源数据的智能配用电分析关键技术和研究成果正在受到越来越多的关注。这些研究成果已经陆续在多家能源服务公司、售电公司和配电公司投入实际应用。
相关阅读: