智能互联网信息系统在知识获取中的应用与挑战
1. 引言
万维网的爆炸式增长持续改变着信息的编辑、发布和获取模式。在网络基础设施下,人们能轻松编辑和发布包含超链接的文档。这使得网络上几乎涵盖了任何主题的信息,任何人在任何时间、任何地点都能获取。然而,信息的爆炸式增长让信息查找变得如同大海捞针。
尽管像雅虎这样的目录服务和谷歌这样的搜索引擎能帮助搜索信息,但许多用户仍难以找到有用信息。浏览目录非常耗时,因为可能的主题似乎无穷无尽。例如,开放目录(目前最大的目录数据库)包含超过46万个类别,用户需不断点击才能找到目标目录并浏览文档。而且,目录的构建劳动密集,无法跟上网络的增长速度。使用搜索引擎查找文档也令人沮丧,搜索结果通常包含数千个链接。虽然像谷歌这样的搜索引擎应用超链接分析来提供更好的排名,但往往仍然效果不佳。
不仅找到合适的文档困难,从网页文档中获取所需信息更难。用户通常不仅想找到文档,还想获取文档中的答案。例如,有人想知道哪家电脑供应商出售符合其价格要求的芯片组笔记本电脑,雅虎和谷歌无法直接提供此信息。用户必须找到提供价格比较服务的网站,连接到该网站,在搜索字段中输入要求,才可能获得有用结果。但价格比较网站通常是面向数据库的应用程序,高度依赖人工输入产品信息。
为解决这些问题,有人提出了智能互联网信息(I3)系统,旨在从网页文档中收集和提取结构化信息。通过从预处理的结构化信息中获取知识,I3系统致力于实现互联网领域知识库的自动构建。
2. 相关工作
I3系统整合了多个计算机科学研究领域。互联网提供了基础设施,网络服务是定位信息源、访问源信息和理解源呈现的基本方法。搜索引擎(或信息检索系统)处理和索引网页文档,以高效
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



