文本挖掘特征选择与一阶逻辑解析
1. 文本挖掘中的特征选择
1.1 基本概念
在文本挖掘中,涉及到一些重要的概率概念:
- (P(F)):特征 (F) 出现的概率。
- (\overline{F}):特征 (F) 不出现。
- (P(C_i)):第 (i) 类值的概率。
- (P(C_i|F)):在特征 (F) 出现的条件下,第 (i) 类值的条件概率。
- (P(F|C_i)):在第 (i) 类值的条件下,特征 (F) 出现的条件概率。
- (P(F|C_{pos})):在类值为“正”的条件下,特征 (F) 出现的条件概率。
- (P(F|C_{neg})):在类值为“负”的条件下,特征 (F) 出现的条件概率。
- (Z^{-1}(x)):标准正态分布的逆累积概率函数((z) - 分数)。
- (|C_i|):类 (C_i) 中的文档数量。
- (n(F, d)):若文档 (d) 包含特征 (F) 则为 1,否则为 0。
1.2 特征选择方法
1.2.1 基于支持向量机(SVM)的特征选择
- Brank 等人的方法 :先使用所有特征训练线性 SVM,然后用诱导模型对特征进行评分(诱导超平面法向中分配给每个特征的权重作为特征得分)。实验表明,结合 SVM、感知机和朴素贝叶斯进行特征选择时,SVM 使用几乎所有特征时性能最佳。
- Bi 等人的方法 :同样使用线性 SVM 对特征进行排序,但实验是在回归问题上进行,最终模型使
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



