基于分形复杂度分析的动态媒体文本分类研究
1. 数据与方法概述
随着在线信息的指数级增长和电子文档数量的急剧增加,文本分类面临着诸多挑战。对于媒体文本,尤其是社交媒体文本,由于其噪声大、信息冗余、数据非结构化以及主观性强等特点,分类难度更大。本研究使用“20 Newsgroups 数据集”,该数据集包含从新闻文章中提取的 20,000 条文本消息,涵盖政治、计算机、体育、科学和宗教等多个主题。数据集被分为训练集和测试集,用于模型的训练和准确性评估。
| 类别 | 测试文档数 | 训练文档数 | 总文档数 |
|---|---|---|---|
| alt.atheism | 319 | 482 | 799 |
| comp.graphics | 389 | 584 | 973 |
| comp.os.ms - windoqws.misc | 394 | 591 | 985 |
| comp.sys.ibm.pc.hardware | 392 | 590 | 982 |
超级会员免费看
订阅专栏 解锁全文
5736

被折叠的 条评论
为什么被折叠?



