新闻网页自动识别与VoIP调查用户态度研究
新闻网页自动识别
在当今信息爆炸的时代,准确识别新闻网页变得尤为重要。然而,网页分类并非易事,单纯用纯文本表示网页并不合理,因为网页包含的信息远不止文本那么简单。网页形式灵活,多种格式共存,且同一格式可能有不同标准,同时还蕴含丰富的结构信息,能否有效利用这些信息会影响分类器的性能。
网页分类方法及其问题
目前主要有三种网页分类方法:基于内容的分析、基于链接的分析和综合分析。基于内容的分析仅依赖网页自身文本内容,忽略了网页之间的关联信息;基于链接的分析虽能利用网页间的超链接信息,但存在诸多潜在问题。一是超链接信息不能直接反映网页内容;二是网页中存在大量噪声超链接,对分类有用的链接通常较少,能否有效过滤噪声超链接直接影响网页分类性能。综合分析将基于内容的分析和基于链接的分析相结合以提高分类准确性,但也会带来两个问题。一方面,结合两种方法时,基于内容的分析可能会过滤掉一些对分类性能重要的超链接;另一方面,简单地将相邻文档添加到基于内容的分析中可能会增加分类错误率,原因是存在大量噪声特征词。因此,选择相邻网页时需谨慎。
新闻网页相关属性
为实现新闻网页的自动识别,关键在于选择重要属性,然后利用分类算法进行识别。这里采用决策树学习技术C4.5进行新闻网页的自动识别。识别出新闻网页后,还可进行进一步研究,如新闻网页的过滤和总结。新闻网页的相关属性主要包括以下几类:
1. URL属性
- 积极属性
- 时间属性 :随机选取478个新闻网页的URL地址,测试结果显