文本分类集成剪枝与在线评论情感分析
1. 文本分类集成剪枝
1.1 集成集大小实验
在集成集大小实验中,验证集大小被选为原始训练集的 5%。正如预期的那样,随着基分类器数量的增加,准确率会略有提高。而且,随着集成规模的增大,由于剪枝导致的准确率降低幅度会变小。不过,训练基分类器的额外工作量会降低效率。因此,需要考虑效率降低和准确率提高之间的权衡。
1.2 主要研究成果
研究采用了数据划分方法与多种分类算法进行集成剪枝,主要结果如下:
| 结果编号 | 具体内容 |
| ---- | ---- |
| 1 | 可以修剪多达 90% 的集成成员,而准确率几乎没有下降。 |
| 2 | NB 和 SVM 比 C4.5 和 KNN 能修剪更多的集成成员。使用不相交划分修剪的成员比其他方法少。 |
| 3 | 英语和土耳其语的剪枝结果相似。 |
| 4 | 可以通过集成剪枝提高准确率。但与不降低准确率的剪枝程度值相比,剪枝程度会降低。在两个数据集上,使用 SVM 进行装袋(bagging)可获得最佳的准确率结果。 |
1.3 不同集大小的影响
研究还考察了不同集成和验证集大小的影响,发现使用训练集的 5 - 10% 进行验证对两个数据集都是合适的决策。并且,随着集成规模的增大,准确率降低幅度会变小。
1.4 未来工作方向
未来可以研究不同的集成选择方法和验证措施,还可以在进一步的实验中使用其他语言的额外测试集。
文本分类与情感分析研究
超级会员免费看
订阅专栏 解锁全文
1286

被折叠的 条评论
为什么被折叠?



