网页分类与分布式销售系统数据复制方法解析
网页分类相关内容
网页特征分类
网页特征可分为四大类:
1. 文本特征 :包含关键词统计(为每个类别构建的字典)、基于字典的其他统计、一般文本统计、标点符号、排版标记等。
2. 结构特征 :标签统计、标签顺序、代码、脚本等。
3. 视觉特征 :格式设置、图像、多媒体内容、样式(包括 CSS)等。
4. 链接相关特征 :外部和内部链接类型及统计信息。
所有关于网页样本、特征提取和分类的特征都收集在数据库中。
关键词字典构建与特征提取
- 关键词字典构建 :
- 从 HTML 文档中提取关键词是一项复杂任务。在文档预处理阶段,需移除不必要的 HTML 标签、HTML 属性以及所有非单词的符号。
- 去除通常不增加文本信息、仅用于连接内容的停用词。英语停用词列表可在互联网获取,波兰语则需自行创建。
- 对文档中的所有单词进行词干提取或词形还原,英语相对容易,波兰语因复杂的语法、词形变化和拼写而较为复杂,可借助 “Morfologik” 项目中的波兰语词干提取器。
- 特征提取 :基于固定的结构、视觉、文本链接和文本属性(扩展到字典关键词)为每个网页样本创建特征向量,然后将向量归一化到区间 (0,1)。
超级会员免费看
订阅专栏 解锁全文
172万+

被折叠的 条评论
为什么被折叠?



