利用互联网词汇表确定主页兴趣
1. 半结构化数据中的协作查询回答
在半结构化数据环境中,协作查询回答(CQA)是一个重要的概念。CQA与半结构化数据高度相关,并且已经开发出了一些处理半结构化数据的CQA技术。当存在多个部分匹配时,对这些部分匹配进行排序并仅返回最佳匹配项,将有助于提高答案的质量。此外,还需要研究CQA系统在何种条件下可以拒绝处理给定的查询,因为当查询与数据完全不同时,返回结果可能不可行,执行此类查询也没有意义。
2. 利用互联网词汇表确定主页兴趣
互联网上有数百万个主页,每个主页都包含有关页面所有者的有价值数据,可用于营销目的。传统的信息检索方法需要大量由人类专家分类的训练集,基于知识的方法则需要大量投资来开发规则库,这两种方法都非常耗时。而使用互联网上免费提供的词汇表来确定主页兴趣,处理这些词汇表可以自动化,与其他两种方法相比,所需的人力和时间更少。
2.1 从网络中提取词汇表
分类系统使用从互联网词汇表中挖掘的术语来确定主页的兴趣。这些词汇表在互联网上免费提供,涵盖了各种主题,并且易于查找,通过简单的谷歌搜索就能找到很多结果。词汇表通常具有规则的结构,感兴趣的术语通常以某种方式加粗或突出显示,这使得词汇表术语的提取易于自动化。
提取词汇表的具体步骤如下:
1. 使用谷歌搜索特定主题的词汇表,例如搜索“baseball glossary”。
2. 编写程序处理HTML文件,提取HTML标签内的单词,如 <b> </b> 标记的加粗单词。
3. 将提取的术语转换为小写,将出现的符号替换为空格。
4. 为每
超级会员免费看
订阅专栏 解锁全文
2442

被折叠的 条评论
为什么被折叠?



