文本分类与CoreWar战士自动分类研究
在当今的信息技术领域,文本分类和游戏模拟中的自动分类问题都具有重要的研究价值。下面将分别介绍文本分类中提升质心分类器性能的方法,以及CoreWar游戏中战士自动分类的相关研究。
文本分类:提升质心分类器性能
在文本分类实验中,使用了五个语料库,分别是Reuters - 21578、20NewsGroup、Industry Sector、OHSUMED和RCV1,并对每个语料库选取了特定的子集进行研究。
- 实验设计
- 语料库子集 :
- Reuters - 21578:选取包含92个类别、共10,346篇文档的子集。
- 20NewsGroup:使用包含所有类别、共19,446篇文档的子集。
- Industry Sector:采用名为Sector - 48的子集,包含48个类别、共4,581篇文档。
- OHSUMED:使用包含11,162篇文档、共10个类别的子集。
- RCV1:选取包含56个类别、共41,320篇文档的子集。
- 数据划分 :通常使用2/3的文档进行训练,1/3进行测试。但为减少RCV1的训练时间,使用其10%的文档进行训练,90%进行测试。
- 评估指标 :使用MicroF1和MacroF1分数评估文本分类器的性能。
- 特征选择 :采用信息增益作为特征选择方法,以去除冗余特征并节省运行时间。
- 算法实现
超级会员免费看
订阅专栏 解锁全文
630

被折叠的 条评论
为什么被折叠?



