7、知识库检索系统
本文研究基于领域知识的语义标引技术,通过对本体工具、数据加工模型的图书文献检索等技术的研究,完成了以语义检索应用为目的的智能电网(输变电部分)专业知识库系统研究。系统除处理常规的文本检索之外,还提供了本体的交互式图形可视系统、自然语言及问句式查询系统、语义增强搜索系统以及相关词条推荐系统,智能化地协助用户提高检索效率 ,主要支持的查询功能如下。
7.1拼音提示
用Jena 将本体中的中文信息全部导出成为词典,对词条的拼音进行关键词查询和操作。以“变压器”为例:
1 )在输入框输入或粘贴拼音,则输出为全拼按从左到右的顺序与输入的拼音相同的一组提示词,如输入“biany”时,提示包括“变压器”在内的10个词;
2 )在输入框输入或粘贴拼音首字母,则输出为拼音首字母按从左到右的顺序与输入相同的一组提示词,如输入“byq”时,提示包括“变压器”在内的10 个词;
3 )在输入框输入或粘贴汉字,则输出根据该汉字的全拼给出同音词的输入提示,如输入“边压气”时,提示包括“变压器”在内的10个词。
7.2普通搜索
普通搜索界面如图5 所示。
以“变电站”为例,在输入框中输入搜索词条,如变电站,则输出如下:
1 )在“您是不是想搜”条目下显示的9个词条,采用Lucene的Standard Analyzer对词典进行处理,根据中文字形匹配程度得到结果;
2 )书籍的总搜索结果数和用时,通过数学统计计算得到;
3 )前 10 本书的标题、与搜索词条匹配的摘要(摘要中搜索词用红色标出)、相关度,使用Lucene对文本进行全文检索计算得到;
4 )页码选项,单击页码之后跳转到该页码,使用Lucene进行分页查询;
5 )如果是本体中的词条,则出现本体交互图,单击可跳转到交互界面,交互界面的查询部分采用Jena预先加载本体,以加快与用户交互的速度;
6 )如果有同级本体,则出现同级本体,单击可跳转到该词条的搜索界面,同级本体通过Jena查询得到;
7 )如果有相关本体,则出现相关本体,单击可跳转到该词条的搜索界面,事先由Jena查询得出本体中各个类和实例的描述信息及其属性,存为文本,对这些文本用Lucene 建立索引,之后采用Lucene根据查询语句进行查询,当与查询语句匹配度达到阈值之后,则返回相关本体;
8 )出现更多词条等相关内容,单击可跳转到该词条的搜索界面,更多词条的信息来 自于使用Google word2vec对793 本图书进行词向量训练得到的词向量和词语的聚类,首先找出查询词语中与聚类中词语最相近的一个,之后返回这个聚类中的其他词语。
7.3根据英文搜索中文结果
通过英文查询中文的功能是通过Lucene对英文和中文建立一一对应的索引,这样根据索引中英文的匹配程度,可以找到相应的中文。以“keysub station ”为例,根据英文搜索中文结果的界面如图6 所示。
7.4语义增强搜索
语义增强搜索采用Jena 查询出所查词语的子类,再根据这些子类的名称在793 本图书中搜索,并将这些结果根据相关度由高到低排序,得出所需结果与子类匹配出的摘要 。如搜“建筑物”时,得到的是与其子类“防火墙”、“换流站”等匹配的文本,其他部分内容与普通查询时相同。
7.5自然语言查询
在输入框中以自然语言的形式输入,如果有对应的词条,则输出相应的词条和解释。以“变电站”为例,输入“变换电压等级汇集配送电能的设施是什么”时可以输出结果“变电站”;输入“在河流上下游的水电站”,则输出“梯级水电站”;输入“埋在地下的管子”,输出“电缆排管”。自然语言查询结果界面如图7 所示。
7.6本体图形交互
本体的图形交互功能均通过Jena 预先加载本体,在查询时对本体的各项信息进行查询。
1 )单击本体交互界面,界面放大,如果词条有英文或释义,则显示当前词条的详细信息。在图形中,父类与子类以不同的形式展示,变电站本体交互界面如图8 所示,其中“建筑物”为父类,其他为子类。
2 )单击某个词条并进行拖动,显示鼠标实时拖动效果。
3 )双击当前词条(如当前的“变电站”),则显示/隐藏该词条的属性。其中包括Object型的“线阻滤波器”和Data 型的“进线电压 :string ”(string表示Data的类型)。显示/ 隐藏变电站属性界面如图9所示。
4 )双击除当前词条外的其他词条,则以双击的词条进行查询,并显示新的结果。双击建筑物显示的界面如图10 所示。
7.7书籍显示
1 )在搜索结果页面,单击某本想看的书,则跳转到书籍显示界面,默认显示pdf 文件,可通过右侧滑动条翻页,并显示其相关文档。书籍显示界面如图11 所示。
2 )点击txt 标签,则跳转到txt 显示界面,显示该书籍对应的文本,可阅读书籍文本,与本体相关的标注(包括中英文)用蓝色和下划线表示,单击这些标注,如“变电站”、“sub station ”均可查看对应的“变电站”本体。中英文标注示例如图12 、图13 所示。
8、结语
通过本文智能电网领域(输变电部分)专业知识概念体系的建立,完成了对一个典型的专业知识概念体系完整的建立过程的调研,以及初步的专业知识库原型系统搭建。传统以单本或单册图书为载体,一般按单一分类介绍的电力知识,很难形成体系,且概念之间的关系无法展示,相比之下智能电网领域(输变电部分)专业知识概念体系解决了知识点分类单一且孤立的难题,方便使用者在相关领域轻松获取所需知识概念及相关知识。在未来工作中,以下方面还有待进一步深入提高:
1 )在研究上,还需研究如何更好地进行本体的可视化,如何利用聚类、分类算法消除语义标注的歧义,如何自动对未知的属性进行属性发现,如何进语义推理得到更多属性以及加快语义搜索速度;
2 )在工程上,可以在txt阅读模式下提供图片支持、完善作者信息、增加作者搜索、出版年份搜索、按标题搜索等功能,进一步实现根据词频、查询频繁度等更多信息进行拼音推荐等。