PrOntoLearn:基于概率方法的无监督词汇 - 语义本体生成
1. 引言
本体是对共享概念化的形式化、明确规范。在领域专家的监督下为给定领域形式化本体是一项繁琐且困难的过程,识别领域知识的结构和特征是一项艰巨的任务,这就是所谓的知识获取瓶颈(KAB),目前尚无合适的解决方案。
不同领域存在大量文本语料库,例如生物测定高通量筛选测定数据,需要将其分类到本体中以促进新知识的发现。语料库中的论述领域具有以下特点:
1. 冗余性
2. 结构化和非结构化文本
3. 提供一定置信度的嘈杂和不确定数据
4. 词汇歧义
5. 语义异质性问题
我们的研究目标是提供一种新方法,从语料库收集的证据构建本体。为实现这一目标,我们利用词汇的词汇 - 语义特征和概率推理来处理特征的不确定性。由于该方法在无领域专家的情况下为语料库构建本体,可视为无监督学习技术;又因为它从语料库中的证据出发,也可看作逆向工程技术。我们使用 WordNet 处理词汇 - 语义结构,使用贝叶斯推理处理不确定事件的置信度,并实现了一个基于 Java 的应用程序,将学习到的概念化内容序列化为 OWL DL 格式。
2. 相关工作
从语料库学习概念化的问题在机器学习、文本挖掘、信息检索、自然语言处理和语义网等多个学科中都有研究。知识表示语言如一阶逻辑和描述逻辑在表达能力和可处理性之间存在重大权衡。描述逻辑虽做出了一些妥协使其更成功,但在表达不确定性方面能力有限。
以下是一些相关研究方法的总结:
| 工作 | 目的 | T - Box | A - Box | 方法 |
| ---- | ---- |
无监督词汇语义本体生成方法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



