数据的离散化

转自:点击打开链接

有些数据本身很大, 自身无法作为数组的下标保存对应的属性。

如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理!

离散化:当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

例如

9 1 0 5 4 与 5 2 1 4 3 的逆序对个数相同。
设有4个数:
1234567、123456789、12345678、123456
排序:123456<1234567<12345678<123456789
           =>     1     <        2       <        3       <        4
那么这4个数可以表示成:2、4、3、1

使用STL算法离散化:
思路:因为要求a[i]为原序列中的第几大(或者第几小),所以可以先将a[i]的副本b[i]排序并去重,然后看a[i]在排序后的b序列中为第几个那么就是第几大(小)。                        
假定待离散化的序列为a[n],b[n]是序列a[n]的一个副本,则对应以上三步为:

sort(b, b + n);
int size = unique(b, b + n) - b;//size为离散化后元素个数
for (i = 0; i<n; i++)
a[i] = lower_bound(b, b + size, a[i]) - b + 1;//k为b[i]经离散化后对应的值
 

对于第3步,若离散化后序列为0, 1, 2, ..., size - 1则用lower_bound,从1, 2, 3, ..., size则用upper_bound,其中lower_bound返回第1个不小于b[i]的值的指针,而upper_bound返回第1个大于b[i]的值的指针,当然在这个题中也可以用lower_bound然后再加1得到与upper_bound相同结果,两者都是针对以排好序列。使用STL离散化大大减少了代码量且结构相当清晰。

### 标签数据离散化方法 在机器学习中,标签数据离散化通常指的是将连续的标签值转换为离散的类别或区间。这种处理方式在某些场景下可以提升模型的表现,尤其是在使用某些对离散数据更友好的算法时。以下是一些常见的标签数据离散化方法: #### 1. 等宽离散化(Equal Width Discretization) 等宽离散化是一种简单的方法,它将连续的数值范围划分为具有相同宽度的区间。例如,假设标签值的范围是 [0, 100],并且希望将其划分为 4 个区间,则每个区间的宽度为 25。这种方法适用于数据分布较为均匀的情况。 ```python # 使用KBinsDiscretizer进行等宽离散化 from sklearn.preprocessing import KBinsDiscretizer # 假设data是标签数据 data = np.random.randint(0, 100, (10, 1)) est = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform', subsample=None) data_trans = est.fit_transform(data) print(data_trans) ``` #### 2. 等频离散化(Equal Frequency Discretization) 等频离散化数据划分为具有相同数量样本的区间。这种方法适用于数据分布不均匀的情况,可以确保每个区间内的样本数量大致相同。 ```python # 使用pandas的qcut方法进行等频离散化 import pandas as pd # 假设df是包含标签数据的DataFrame df = pd.DataFrame({'label': np.random.randint(0, 100, 10)}) df['discretized_label'] = pd.qcut(df['label'], q=4) print(df) ``` #### 3. 基于业务逻辑的离散化(Custom Binning) 基于业务逻辑的离散化是根据领域知识或业务需求手动定义区间。这种方法的优点是可以更好地反映实际问题的特点,但需要对数据有深入的理解。 ```python # 自定义区间离散化 def custom_binning(label): if label < 25: return 0 elif 25 <= label < 50: return 1 elif 50 <= label < 75: return 2 else: return 3 # 应用自定义离散化函数 df['custom_discretized_label'] = df['label'].apply(custom_binning) print(df) ``` #### 4. 基于模型的离散化(Model-based Discretization) 基于模型的离散化使用机器学习模型来确定最佳的离散化方式。例如,可以使用决策树来划分区间,这种方法能够自动找到最优的划分点。 ```python # 使用决策树进行离散化 from sklearn.tree import DecisionTreeRegressor # 假设X是特征数据,y是连续的标签数据 X = np.random.rand(100, 1) y = np.random.rand(100) # 训练决策树模型 model = DecisionTreeRegressor(max_depth=3) model.fit(X, y) # 获取离散化的标签 discretized_labels = model.apply(X) print(discretized_labels) ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值