文本分类特征选择与信息传播评估研究
改进的点互信息特征选择
在文本分类领域,特征选择是一项关键任务,它能够有效提升分类的准确性和效率。改进的点互信息(mPMI)特征选择方法在这方面展现出了独特的优势。
mPMI在少量特征选择时表现出色。尽管与卡方检验(Chi)、最大修正点互信息时间序列(max mPMIt)和平均修正点互信息时间序列(avg mPMIt)相比,差异在统计上不显著,但从不同分类器在选择10、20、50个特征时的宏F值来看,mPMI能给出最高值。
以WebKB数据集为例,从获取的p值可以得出以下结论:
|对比指标|结论|
| ---- | ---- |
|与max PMI、avg PMI、max PMIt和avg PMIt相比|mPMI在所有分类器上都取得了显著的统计改进|
|与max mPMIt和avg mPMIt相比|mPMI特征选择在除K - NN外的所有分类器上更优,但差异无统计学意义|
|与Relief相比|mPMI在除JRip和Ridor外的所有分类器上更优,但差异无统计学意义|
|与Gini、Chi、IG相比|mPMI在除K - NN、JRip外的所有分类器上更优,但差异无统计学意义|
mermaid图展示mPMI特征选择的优势逻辑:
graph LR
A[mPMI特征选择] --> B[少量特征高宏F值]
A --> C[WebKB数据集显著改进]
C --> D[对比多种指标有优势]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



