特征选择与稀疏表示

本文介绍了熵在信息论中的概念,作为不确定性度量,熵越高表示信息量越大,反之则越小。熵定义为随机变量的不确定性,而条件熵是在特定条件下随机变量的不确定性。信息增益则是熵减去条件熵,用于衡量信息不确定性减少的程度,常用于特征选择过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

名词

ENG
特征选择 Feature selection
稀疏表示 Sparse representation
相关/无关特征 Relevant/Irrelevant feature
冗余特征 Redundant feature
子集搜索/子集评价 Subset search/Subset evaluation
信息增益 Information gain
Entropy

1.什么是熵(Entropy)

在 信息论 里面,熵是对不确定性的测量,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。熵度衡量了系统的不确定性,当我们缺乏对某个系统的知识,其不确定性也随着增加。例如 抛硬币,在理想情况下他们无法预测出现的是正面还是反面,此时熵达到最大。但是对于“明天太阳从东方升起”,我们完全可以依靠目前的知识,预测该事件肯定会发生,信息熵最小。

熵的定义为信息的期望值。某个事件用随机变量X表示,其可以的取值{x 1 , x 2 , …x n },则该事件的信息熵定义为:

### Python 中特征选择方法 在机器学习领域,特征选择是一个重要的预处理步骤。通过去除不相关或冗余的特征,模型性能可以得到显著提升。一种常见的方差阈法可以通过 `sklearn` 库中的 `VarianceThreshold` 类来实现[^1]。 ```python from sklearn.feature_selection import VarianceThreshold # 创建一个简单的数据集用于演示 X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]] selector = VarianceThreshold(threshold=0.5) selected_features = selector.fit_transform(X) print(selected_features) ``` 上述代码展示了如何利用方差筛选掉那些变化较小的特征。对于给定的数据矩阵 X ,如果某个特征列的变化程度低于设定的阈,则该特征将被移除。 ### 基于皮尔逊相关系数的特征选择 除了基于统计量的方法外,还可以考虑使用皮尔逊相关系数来进行特征评估。这种方法衡量的是两个变量之间的线性关系强度。当计算两组样本间的 Pearson r 接近 ±1 时表示强正负关联;而接近 0 则意味着几乎没有线性联系[^2]。 ```python import numpy as np from scipy.stats import pearsonr x = np.random.normal(0, 10, 300) y = x + np.random.normal(0, 10, 300) correlation, p_value = pearsonr(x, y) print(f"Pearson Correlation Coefficient: {correlation}") ``` 这段脚本生成了一对具有随机噪声的相关向量,并计算它们之间的确切相关度得分。 ### 稀疏表示下的特征存储优化 为了更高效地管理大型但稀疏分布的数据结构,Python 提供了多种方式支持稀疏矩阵运算。特别是 NumPy 和 SciPy 库提供了创建和操作这些特殊类型的数组的功能。下面的例子说明了一个简单场景下怎样定义并初始化一个含有少量非零元素的大规模二维表: ```python import numpy as np arr1 = np.zeros((11, 11)) arr1[1][2] = 1 arr1[2][3] = 2 arr1[3][3] = 2 arr1[4][3] = 1 sparse_representation = [(i,j,val) for i,row in enumerate(arr1) for j,val in enumerate(row) if val != 0] for item in sparse_representation: print(item) ``` 此段程序首先构建了一个全为零的方形网格,接着设置了几个特定位置上的数。最后转换成列表形式只保留非零条目及其坐标,从而实现了紧凑表达的目的[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值