要求:将几个数据范围较大的数映射到自然数:1 ~ n
vector <int> alls;//待离散化的数组,eg:5000000,640500,8000,9345,8000
sort(alls.begin(), alls.end());//排序,8000,8000,9345,640500,5000000
alls.erase(unique(alls.begin(), alls.end()), alls.end());//unique(alls.begin(), alls.end())将原数组去重,并返回去重后最后一个元素的下标k 变成:8000,9345,640500,5000000,8000。alls.erase(unique(alls.begin(), alls.end()), alls.end())将k到原数组最后一个下标中的重复元素删除 变成:8000,9345,640500,5000000
int find(int x)//用二分找到x对应的离散化的值
{
int l = 0, r = alls.size() - 1;
while(l < r)
{
int mid = l + r >> 1;
if (alls[mid] >= x) r = mid;
else l = mid + 1;
}
return r + 1;//+1是映射到1~n,如果不+1就是映射到0~n
}//该模板来源于AcWing网站
本文详细介绍了一种数据离散化算法,通过排序、去重和二分查找将数据范围较大的数映射到自然数1~n,适用于数据预处理和特征工程场景,提升机器学习模型训练效率。
4006

被折叠的 条评论
为什么被折叠?



