94、基于本体的网页分类系统:原理、方法与实验结果

基于本体的网页分类系统:原理、方法与实验结果

1. 网页分类方法概述

在网页分类领域,有多种不同的方法被提出和应用。
- 权重进化法 :A. Picariello和A.M. Rinaldi采用一种技术来进化与表征每个类别的关键词相关的权重,而非进化质心种群,该方法用于实现分层自动网页分类器。
- LiveClassifier系统 :它能基于用户定义的主题层次结构,通过网络语料自动训练分类器。其假设网络为几乎所有主题提供了取之不尽的数据来源,因此使用网络搜索结果页面作为语料源,利用主题层次结构中的固有结构信息来训练分类器,并创建关键术语以弥补主题层次结构的不足。
- 面向主题的网页信息分类系统 :该系统通过文本预处理、索引、倒排文件和向量空间距离算法收集网页并将其分类到多个主题中,主题是根据用户需求构建的分类原型来定义的。
- 混合方法 :Calado等人使用结合基于链接和基于内容的混合方法对网页文档进行分类。他们评估了从网页链接结构得出的四种不同主题相似度度量,并通过贝叶斯网络模型将这些度量与传统基于内容的分类器的结果相结合,以提高分类效果。
- 分层结构分类法 :该方法使用支持向量机(SVM)分类器,利用分层结构训练不同的二级分类器,并使用不同的组合规则结合顶级和二级模型的得分。

2. 系统架构

我们提出了一个新颖有效的通用IIR系统,可适用于多个应用领域。其架构如下:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值