4电力电子系统大数据关键技术
电力电子系统大数据的处理流程可定义为:在特定工具的辅助下,对广泛异构的数据源进行抽取和集成,将数据按照一定标准进行统一存储,并利用先进的数据分析手段对存储的数据进行分析,从中提取有益的知识并借助易于解读的方式将结果展现给终端用户。由于数据量大、处理速度要求高和数据类型多等特点,传统的数据处理方式无法应对大数据的挑战,电力电子系统大数据应用也依赖于如图6所示的新型数据存储、管理、处理和展现等技术的进步。
图6电力电子系统大数据关键技术图
4.1数据采集技术
大数据处理是建立于海量数据的基础上,因此数据采集至关重要。当大数据应用于大容量电力电子系统时,需采集的数据主要包括传感器、监控设备、气象系统、GIS系统等数据源产生的结构化数据以及网页、图片、文本等半/非结构化数据。如何将这些来源不同、类型各异的数据信息进行提取整合及分类并保证这些数据的可用性成为大数据处理的前提。此外,对于电力电子大数据而言,数据源的同步性对系统的性能分析极为重要。以功率开关管为例,当传感器采集到的门级电压、集电极电流以及集电极-发射极电压等数据若丧失同步性,将大大影响器件的损耗计算、场路耦合分析结果。
数据采集技术的作用是把海量数据抽取到临时中间层,然后进行清洗、转换、分类以及集成,最后加载到对应的数据存储系统中[43]。当数据产生速度过快时,必然会伴随着数据质量的下降,而数据采集技术需要有效清理不可用数据,并将来源、格式、特点、性质各异的数据在逻辑上进行分类和集中,经过关联和聚合后采用统一的结构来存储。由于大数据体量大、产生速度快,需要实时快捷的数据预处理,因此在抽取-转换-压缩(extract-transform-load,ETL)的工具选择上,也需要采用分布式内存数据、实时流处理系统等技术。
4.2数据存储技术
在大容量电力电子系统中,大量传感器、数据采集卡以及地理天气信息系统时刻在以数据流的形式向服务器传输大量数据,对这些数据的存储速度以及I/O读写速度直接影响了大数据处理的速度,当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台独立的计算机上[39]。管理网络中跨多台计算机存储的文件系统称为分布式文件系统。分布式数据存储系统可以实现并行的数据读取与写入,而且仅仅需要大量廉价的普通计算机就可以提供非常强大的存储能力。目前比较著名的分布式存储系统为GoogleGFS、HadoopHDFS、TaobaoFileSystem以及FacebookHaystack等。
GoogleGFS是目前世界范围内应用最广的分布式海量数据存储框架,可以使用大量廉价的普通硬件设备构建分布式文件系统,将容错的任务交由文件系统来完成,使用软件的方法解决系统的可靠性问题。如图7所示,GFS系统的节点可以分为3种角色:主控服务器(GFSmaster),数据块服务器(chunkserver,CS)以及GFS客户端。GFS文件被划分为固定大小的数据块,由主服务器在创建时分配全局唯一的句柄,而Chunk服务器将数据块存放在磁盘中,为了保证可靠性,数据块要在不同的CS中复制多份[40]。
图7GoogleGFS系统框架
GFS实现了控制流和数据流的分离,极大降低了主服务器的负载,使之不会成为系统性能的瓶颈。同时,由于文件被分成多个数据块存储在不同的数据块服务器上,客户端可以同时访问多个数据块服务器,使得I/O高度并行,系统整体性能得到提升。
4.3数据库技术
大数据的重要特点是数据来源广泛、结构种类多样。在电力电子大数据中,需要从众多结构化、半/非结构化数据中提取出实体和关系,经过关联和聚合之后采用统一的结构来存储这些数据。目前存在的数据库存储方案有SQL、NoSQL、NewSQL等。
关系型数据库(SQL)为了维持一致性导致读写性能差,并行处理能力低,因此难以应付对数据存储访问速度要求极高的场合。此外,关系型数据库具有固定的表结构,要求存入的数据具有一定的属性和格式,对于来源广泛种类多样的大数据来说,它具有较差的适应性和扩展性。
非关系型数据库(NoSQL)是对于传统关系型数据库的弥补,具有便携的横向扩展性,可以满足海量数据的存储需求,应对各种半结构化和非结构化的数据。而且NoSQL降低了对于一致性的要求,具有一定的分区容错的能力,这使得它在高并发情况下的数据查询性能优异。
在各种NoSQL数据库中,由谷歌公司开发的BigTable和Hbase在大数据处理中应用最为广泛。
4.4数据计算技术
高速性是大数据处理的重要特征,依据对响应速度的要求,电力电子大数据可以分为以下两类:
1)离线批处理计算:利用电力电子系统历史运行数据进行关联分析、聚类分析和回归分析,甚至将这些数据作为训练集通过机器学习和人工智能算法训练可靠性模型,这些应用对于时间的响应要求通常在分钟级。
2)实时计算:利用已有的故障预测和分析模型,对源源不断传来的传感器数据和监控信息进行计算来判断故障的存在,这种应用对于时间响应速度要求极高,通常需要在ms甚至μs级时间内实现响应,从而保证能够在尽量短的时间内采取措施。
而相应的数据计算技术分为图8所示的3种。
图8数据计算技术的分类
分布式计算技术将大数据通过一定方法分成多个具有同样计算过程的数据块,数据块之间不存在依赖关系,将每一个数据块分给不同的节点去处理,最后再将处理的结果进行汇总。分布式计算技术的典型是谷歌公司的MapReduce应用。
内存计算技术是将数据全部放在内存中进行操作的计算技术,由于内存的读取速度比硬盘快至少数十倍,因此计算速度得到了很大的提升,在处理迭代算法(如机器学习、图挖掘算法)和交互式数据挖掘算法等方面有巨大优势。目前比较著名的内存计算系统为Spark。
传统的数据处理流程是先收集数据存放在数据库中,当有数据服务需要的时候,再对数据库中的数据做出查询和计算作为响应,很难做到实时。而流计算可以对大规模流动数据在不断变化的运动过程中实时分析,捕捉有用信息并反馈到下一个节点。在数据流模型中,需要处理的输入数据并非事先存储在硬盘或者内存中,它们以一个或者多个“连续数据流”的形式到达,所以反应时间通常在s级以下,否则后续到达的数据就会不断堆积起来。
4.5数据可视化技术
电力电子大数据处理对象往往是多时间尺度多场域耦合的海量数据,其复杂程度远远超过人脑直接感知和分析的能力范围。而数据可视化技术是运用思维导图、概念图、趋势图以及界面交互等方式,实现在较低维度的可视空间展现多维抽象信息的多属性数据特征。图9是IGBT结温、负载电流和反并联二极管的反向恢复电荷Qrf之间关系的三维图,可以直观的表现结温和负载电流对Qrf的影响。而实际大容量电力电子系统中数据远不止三维,例如文献[41]中建立了不同母线电压、负载电流、驱动电压、开通电阻、关断电阻和结温条件下的六维IGBT器件离线运行数据库。因此,如何能在更高维度和耦合度下清晰展现数据之间的关系将对数据可视化技术提出更高的要求。
图9结温、负载电流与反向恢复Qrf三维图
数据可视化技术可以展现在时间和空间维度上的数据趋势,从而让人们能够直观的捕捉到数据变化的规律并进行分析和判断,因此可以广泛用于电力电子系统的实时监控。此外,可视化技术还可展现不同环境条件下系统运行数据的对比,有助于进一步研究各种因素集对系统运行状态的影响。