14、智能互联网信息系统:知识获取与应用

智能互联网信息系统:知识获取与应用

1. 信息提取与数据挖掘概述

1.1 信息提取

信息提取(IE)是缓解网络上法律材料低效发现问题的一种方法,旨在从网页中挖掘结构化信息(元数据)。不过,大多数IE系统需要大量的人工劳动。比如Cardie定义了IE系统的五个流水线过程:分词和标注(手动标记)、句子分析、提取、合并和模板生成。基于前两个过程生成的特定领域知识(概念字典和模板),机器学习方法通常用于后三个过程中学习、泛化和生成规则。训练实例也是人工选择和标记的。

常见的IE系统的缺点是手动生成模板、特定领域知识或语料库注释的时间成本高。这导致这些系统仅适用于从特定网站页面或CGI生成的页面中提取结构化信息的特定网络应用,不具有可扩展性,也无法完全自动化提取互联网信息。而且,IE系统试图从整个网页的重复模式中生成规则模板,但大多数网页上有用内容的数量很少,使用整个页面的学习方法成本效益低,学习准确性也会因需要处理大量可能是噪声的模式而降低。

1.2 数据挖掘和机器学习

机器学习致力于解决如何构建通过经验和启发式方法提高性能的程序的问题。一个明确的学习问题需要指定任务、性能指标和训练经验来源。指定任务决定了学习算法的选择,如学习分类规则、发现聚类模式或挖掘关联。性能指标是评估学习系统质量的指南,训练经验是用于训练和测试学习系统的数据源。

数据库在众多领域得到了成功应用,数据的爆炸式增长促使人们研究从数据库中获取知识的新技术和工具。但之前的机器学习研究仅处理小数据集,性能和可扩展性成为数据库学习的主要关注点,因此数据挖掘成为热门研究课题。以下是主要的数据挖掘方法:
- 分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值