本体概念小图检索性能比较
1. 引言
组合表达式图通常规模较小,一般仅包含少量节点和关系。为实现信息检索,这些节点和关系会标记其来源文档。通过自然语言处理系统可自动从文本中提取组合表达式(CEs),单个文档可能生成数百个CEs,大型语料库则会产生大量小图CEs。
在信息检索时,系统需从大量小图集合中查找查询图的特定实例,查询图可能是数据库中存储图的子图。此前已有研究对图数据库的各种图操作及大图子图的遍历/检索性能进行了评估,但对于从大量小图集合中检索小图的问题尚未有相关研究。
2. 方法
本研究使用了三种不同类型的数据库系统:
- 传统关系数据库:Microsoft SQL Server 2014和Oracle 11g R2。
- 通用图数据库:Neo4j 2.2.3。
- RDF三元组存储库:Ontotext’s GraphDB 6.4 SE。
NLP过程生成CEs的信息输出可表示为15种逻辑关系,其中4种一元关系,其余为二元关系,具体如下表所示:
| 关系 | 参数1 | 参数2 | 语义 |
| — | — | — | — |
| and | and1 | and2 | and1和and2为真 |
| or | or1 | or2 | or1或or2为真 |
| not | not | – | not为假 |
| non | non | – | non为假 |
| possible | possible | – | possible为可能 |
| exception | exception | – | exception为
超级会员免费看
订阅专栏 解锁全文
5212

被折叠的 条评论
为什么被折叠?



