
信息抽取
文章平均质量分 75
PengJune
这个作者很懒,什么都没留下…
展开
-
Java抽取网页信息
使用正则表达式及字符串操作,抽取网页信息 /* 去script */ public static String trimScript(String content) { String regEx = "]*>[^"; Pattern p = Pattern.compile(regEx); Matcher m = p.m原创 2008-11-23 16:05:00 · 1238 阅读 · 0 评论 -
第二章 信息抽取技术概述
第二章 信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。转载 2009-06-06 14:37:00 · 1967 阅读 · 0 评论 -
第三章 分装器生成
第三章 分装器生成第3.1.节 分装器第3.2.节 从IE发展成WG 第3.3.节 分装器生成第3.4.节 分装器的归纳学习第3.5.节 小结 各网站的信息内容互相独立,要收集起来有困难。信息转载 2009-06-06 14:41:00 · 1046 阅读 · 0 评论 -
第五章 商用系统简介
第五章 商用系统简介第5.1.节 应用范围... 第5.2.节 商用系统... 第5.2.1.节 Junglee. 第5.2.2.节 Jango. 第5.2.3.节 MySimon. 第5.3.节 小结... 因特网上的海量信息是世界各地的用户都能获得的转载 2009-06-06 14:46:00 · 969 阅读 · 0 评论 -
信息抽取相关词语定义
Attribute a property of an entity such as its name, alias, descriptor, or typeAnnotation mark up of a text span in a specific format that indicates a feature or features of the text within the spanBen转载 2009-06-05 22:31:00 · 989 阅读 · 0 评论 -
网上信息抽取技术纵览 -- 导论
第一章 导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例转载 2009-06-06 14:35:00 · 1435 阅读 · 3 评论 -
第四章 分装器生成系统简介
第四章 分装器生成系统简介第4.1.节 处理结构化和半结构化网页的系统... 第4.1.1.节 ShopBot 第4.1.2.节 WIEN.. 第4.1.3.节 SoftMealy. 第4.1.4.节 STALKER. 第4.2.节 处理半结构化和非结构化网页的系转载 2009-06-06 14:44:00 · 1151 阅读 · 0 评论 -
WEB网页结构化信息抽取技术介绍
WEB网页结构化信息抽取技术介绍关键词:结构化信息抽取,信息抽取 WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。 如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、转载 2009-06-06 15:04:00 · 1694 阅读 · 0 评论