智能互联网信息系统:知识获取与应用
1. 信息提取与数据挖掘概述
1.1 信息提取
信息提取(IE)是缓解网络上法律材料低效发现问题的一种方法,旨在从网页中挖掘结构化信息(元数据)。不过,大多数IE系统需要大量的人工劳动。比如Cardie定义了IE系统的五个流水线过程:分词和标注(手动标记)、句子分析、提取、合并和模板生成。基于前两个过程生成的特定领域知识(概念字典和模板),机器学习方法通常用于后三个过程中学习、泛化和生成规则。训练实例也是人工选择和标记的。
常见的IE系统的缺点是手动生成模板、特定领域知识或语料库注释的时间成本高。这导致这些系统仅适用于从特定网站页面或CGI生成的页面中提取结构化信息的特定网络应用,不具有可扩展性,也无法完全自动化提取互联网信息。而且,IE系统试图从整个网页的重复模式中生成规则模板,但大多数网页上有用内容的数量很少,使用整个页面的学习方法成本效益低,学习准确性也会因需要处理大量可能是噪声的模式而降低。
1.2 数据挖掘和机器学习
机器学习致力于解决如何构建通过经验和启发式方法提高性能的程序的问题。一个明确的学习问题需要指定任务、性能指标和训练经验来源。指定任务决定了学习算法的选择,如学习分类规则、发现聚类模式或挖掘关联。性能指标是评估学习系统质量的指南,训练经验是用于训练和测试学习系统的数据源。
数据库在众多领域得到了成功应用,数据的爆炸式增长促使人们研究从数据库中获取知识的新技术和工具。但之前的机器学习研究仅处理小数据集,性能和可扩展性成为数据库学习的主要关注点,因此数据挖掘成为热门研究课题。以下是主要的数据挖掘方法:
- 分类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



