领域知识引导的知识发现研究进展
1. 文本挖掘与领域本体构建
在文本挖掘方面,有研究致力于理解文档结构以改进挖掘效果。其设计的系统从网页提取信息单元,经过解释转化为知识单元。该系统运用基于包装器的机器学习算法,结合基于分类的推理过程,并借助网络本体语言(OWL)实现的领域本体。提取的元素作为“语义注释”,用于理解和处理文档的结构与内容,应用领域为欧洲研究社区的研究主题分析,有助于研究主题分析和研究方向的发现。
操作步骤如下:
1. 运用基于包装器的机器学习算法从网页提取信息单元。
2. 结合基于分类的推理过程对信息单元进行初步处理。
3. 利用OWL实现的领域本体对信息单元进行解释,转化为知识单元。
4. 将知识单元作为“语义注释”用于文档的理解和处理。
2. 生命科学中的KDDK
生命科学是当前研究的重要应用领域,计算机科学家与生物学家的合作日益活跃。知识发现对于生命科学愈发重要,可用于挖掘同质数据库(如蛋白质序列或结构)、异质数据库(以发现基因与环境、遗传与表型数据之间的相互作用),尤其是在公共卫生和药物基因组学领域。
研究团队的一项工作是搜索和访问满足特定约束的相关生物源(包括生物数据库)。具体操作如下:
1. 根据领域本体中的概念描述生物源,形成形式上下文。
2. 基于此构建概念格。
3. 对于特定查询,进行基于概念格的信息检索。
4. 根据查询特征对生物源进行分类,返回相关源的排名列表。
未来还计划推广该方法,使用“模糊概念格”和“模糊形式概念分析”,并研究复杂的问答方法。
另一挑战是从异质数据库中提取知识,
超级会员免费看
订阅专栏 解锁全文
4225

被折叠的 条评论
为什么被折叠?



