python 特征选择卡方_文本特征选择(信息熵、Gini、IV、卡方值)

本文介绍了信息熵、条件熵、信息增益的概念,并展示了如何在Python中计算这些值,特别是在文本分类中的应用。通过信息增益计算,可以进行特征选择,其中条件熵越小的特征越重要。同时,文中还涉及到了卡方值的计算,用于衡量实际观察值与理论值之间的偏差。通过示例代码,演示了如何在实际文本数据中进行特征选择的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息熵:描述信息系统的混乱程度(不确定度)。信息越确定,越单一,信息熵越小。信息越不确定,越混乱,信息熵越大。因此一个系统的信息熵越高就越无序,信息熵越低就越有序,信息熵越高,使其有序所要消耗的信息量就越大。

条件熵:在某种情况下的混乱度。

信息增益=整体信息熵-条件熵

指的就是熵的减少量,代表了在一个条件下,信息复杂度(不确定性)减少的程度。信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

文本分类中,要计算各个单词信息增益例子:

信息增益法,把特征词看做一个变量特征,那么词的变量只有缺失与存在的两种情况下,那么特征词的信息增益=系统的信息熵-特征词的条件熵(文本分类中,根据特征词的条件熵倒排就可以做特征选择,即条件熵越小改特征词越重要)

某个词的条件熵=存在的概率*存在时的信息熵+缺失的概率*缺失时的信息熵

比如:在一个只有火锅和烧烤两个分类下,有100条短文本,68条为火锅分类,32条为烧烤。其中有10条文本含有'牛肉'这个词语,其中8条属于火锅分类,2条是属于烧烤分类。

那么牛肉这个词语在这个文本分类当中的信息增益计算过程为:

牛肉这个单词在文本分类中基尼不纯度计算:

### 决策树概述 决策树是一种常见的机器学习算法,广泛应用于分类和回归任务。它通过构建一棵树形结构来进行预测,每个内部节点表示在一个属性上的判断,分支代表该属性的不同取,而叶子节点则保存最终的类别或数。 决策树的优点包括易于理解和解释、无需对数据做很多预处理工作等;缺点在于容易过拟合训练集,并且对于连续型变量需要离散化处理。 ### 决策树的构造 构造一颗高效的决策树通常包含以下几个步骤: 1. **确定根节点**:从所有样本开始,在众多候选属性中挑选出最佳的一个作为当前结点划分依据。 2. **递归创建子节点**:按照选定条件将原始集合分割成若干个子集,并针对每一个新的小子集重复上述过程直至满足停止准则为止(例如达到最大深度限制或是不能再分)。 3. **终止条件设置**:当某一分支下的实例都属于同一类别时,则直接生成叶节点并标记其对应标签;如果剩余可用特征为空,则根据多数表决原则决定此位置应为何种结果。 ### 特征选择标准 为了找到最合适的切分规则,我们需要一些度量指标来评价各个属性的好坏程度,常用的有以下几种法: - **信息增益 (Information Gain)**: 基于熵的概念计算得到,即某个属性能够带来的纯度提升量越大越好。 - **基尼指数 (Gini Index)** : 表示随机抽取两个样本它们不属于同一种类的概率大小,越小说明分布越均匀,也就是更纯净的状态。 - **增益率 (Gain Ratio)** :考虑了信息增益的基础上加入了惩罚因子避免偏向具有较多取数目的特性。 ### 常用决策树算法 目前存在多种流行的决策树模型及其变体,主要包括但不限于: - ID3 (Iterative Dichotomiser 3) 算法 - 最早提出的经典版本之一; - C4.5 算法 - 改进自ID3,支持缺失处理及连续属性等问题解决; - CART(Classification And Regression Trees) 模型 – 同时适用于分类和回归场景下; - CHAID(Chi-squared Automatic Interaction Detector)- 利用检验统计学原理进行二元或多元素间关联分析指导分裂操作。 ### 决策树的剪枝 为了避免过度复杂而导致泛化能力下降的现象发生,“减枝”技术成为必要环节。主要有两种形式: - **先验式(pre-pruning)** ——提前设定某些阈如最小样本数目、限定高度上限等手段阻止继续增长; - **后验式(post-pruning)**—— 先完整地生长完整棵树之后再回溯去除那些贡献较小的部分。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值