基于本体的网页分类系统:原理、方法与实验结果
1. 网页分类方法概述
在网页分类领域,有多种不同的方法被提出和应用。
- 权重进化法 :A. Picariello和A.M. Rinaldi采用一种技术来进化与表征每个类别的关键词相关的权重,而非进化质心种群,该方法用于实现分层自动网页分类器。
- LiveClassifier系统 :它能基于用户定义的主题层次结构,通过网络语料自动训练分类器。其假设网络为几乎所有主题提供了取之不尽的数据来源,因此使用网络搜索结果页面作为语料源,利用主题层次结构中的固有结构信息来训练分类器,并创建关键术语以弥补主题层次结构的不足。
- 面向主题的网页信息分类系统 :该系统通过文本预处理、索引、倒排文件和向量空间距离算法收集网页并将其分类到多个主题中,主题是根据用户需求构建的分类原型来定义的。
- 混合方法 :Calado等人使用结合基于链接和基于内容的混合方法对网页文档进行分类。他们评估了从网页链接结构得出的四种不同主题相似度度量,并通过贝叶斯网络模型将这些度量与传统基于内容的分类器的结果相结合,以提高分类效果。
- 分层结构分类法 :该方法使用支持向量机(SVM)分类器,利用分层结构训练不同的二级分类器,并使用不同的组合规则结合顶级和二级模型的得分。
2. 系统架构
我们提出了一个新颖有效的通用IIR系统,可适用于多个应用领域。其架构如下:
超级会员免费看
订阅专栏 解锁全文
1880

被折叠的 条评论
为什么被折叠?



