基础算法：离散化(C++实现)

离散化技术详解

原创

已于 2024-08-03 12:24:53 修改 · 4k 阅读

61 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #c++ #开发语言 #离散化 #STL

于 2024-08-02 23:55:46 首次发布

文章目录

1. 离散化的定义
2. 离散化例题
- 2.1 离散化+二分
- 2.2 离散化+哈希表

1. 离散化的定义

离散化是一种在程序设计和算法优化中常用的技术，其核心思想是将无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。具体来说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小或整合，使得原本稀疏的数据变得相对稠密（在相对位置或值域上）。这个过程可以看作是数据的一种规范化或标准化，但它保留了数据之间的相对关系。

简单来说，就是将极大空间中跨度很大的有限数据映射到有限且连续的空间中去，比如把题目中跨度极大的下标位置映射到1,2,3…n(大下标映射到小下标)，再创建一个数组(下标为小下标)来存储大下标对应的值。那么怎么找到大下标对应的小下标呢？可以通过创建find()函数来寻找，后面会详细介绍。使用离散化虽然增加了空间复杂度，但是大大优化了时间复杂度。

离散化的作用主要体现在以下几个方面：

1.提高算法效率：通过离散化，可以减少算法需要处理的数据量，从而降低时间复杂度和空间复杂度。这对于处理大规模数据或资源受限的环境尤为重要。
2.简化问题：在某些情况下，离散化可以将复杂的问题简化为更易于处理的形式。例如，在处理坐标或区间相关的问题时，通过离散化可以将坐标或区间映射到较小的整数范围内，从而简化问题的求解过程。
3.实现特殊算法：在某些算法中，由于数据范围过大或数据分布不均匀，直接处理可能会导致算法无法实现或效率极低。通过离散化，可以使得这些算法得以实现或提高效率。

离散化的具体实现方式通常包括以下几个步骤：

收集待离散化的数据——>排序——>映射——>替换

2. 离散化例题

原题链接：AcWing 802.区间和

题目描述：
假定有一个无限长的数轴，数轴上每个坐标上的数都是 0。现在，我们首先进行 n次操作，每次操作将某一位置 x上的数加 c。接下来，进行 m次询问，每个询问包含两个整数 l和 r，你需要求出在区间 [l,r]之间的所有数的和。

输入格式：
第一行包含两个整数 n 和 m。
接下来 n 行，每行包含两个整数 x 和 c。
再接下来 m 行，每行包含两个整数 l 和 r。

数据范围：
−1e9≤x≤1e9,
1≤n,m≤1e5,
−1e9≤l≤r≤1e9,
−10000≤c≤10000

输入样例：

3 3
1 2
3 6
7 5
1 3
4 6
7 8

输出样例：

8
0
5

题目分析：首先，根据题意和数据范围可知数据跨度大，但是个数少，如果用普通的前缀和算法根本无法实现，因为x的范围是-1e9—1e9，下标位置存在负数，所以这道题使用离散化就非常符合条件

如何将不连续且跨度极大的数据下标映射到连续的数组下标呢？可以额外开辟一个vector容器alls来存储跨度极大的数据下标(被离散化的数据下标)，然后还得对alls进行排序(有序的离散化),去重(alls可能存在重复元素)，提供一个方法用来寻找数据映射后(离散化后)的下标，有两种方法：二分查找和哈希

vector<int> alls; //存储所以待离散化的下标
sort(alls.begin(),alls.end()); //排序
alls.erase(unique(alls.begin(),alls.end()),alls.end()); //去重

unique函数去重
返回去重（只去掉相邻的相同元素）之后的尾迭代器（或指针），仍然为前闭后开，即这个迭代器是去重之后末尾元素的下一个位置。该函数常用于离散化，利用迭代器（或指针）的减法，可计算出去重后的元素个数。

如何自己实现unique函数(使用双指针算法)

vector<int>::iterator unique(vector<int> &a)
{
   
   
    int j=0;
    for(int i=0;i<a.size();i++)
    {
   
   
        if(!i || a[i]!=a[i-1])
        {
   
   
            a[j++]=a[i];
        }
    }
    //a[0]~a[j-1]存储了所有不重复元素
    return a.begin() + j;
}