基于位示图法的排序

最新推荐文章于 2025-06-16 13:50:34 发布

原创最新推荐文章于 2025-06-16 13:50:34 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#磁盘排序思路 #位示图排序

算法学习专栏收录该内容

94 篇文章

订阅专栏

本文介绍了一种基于位示图的高效排序算法，该算法适用于无重复数字的大规模数据集，通过对1000万个数进行标记实现快速排序，整个过程仅需1.2MB的内存，大大降低了对内存的需求。

基于位示图法的排序

@(算法学习)

–算法思路来自《编程珠玑》

文中提及这个算法的场景是对磁盘排序，1000万级别的数据量，虽然每条数据只有7B(Byte)，总量却可以达到：7000万B,也就是差不多：8.3G的存储空间。现在看来（2016.11），计算机有8G以上内存的挺多了。但我的机器还跑不了，只有8G内存。所以，这种超过内存总量的排序就不可能一次性完成，需要分割归并。也就是读写磁盘不止一次，那么这样的算法将是非常非常慢的，I/O是最耗时的操作。

但是，如果用位示图的方式，问题将化为1~2MB的内存就能解决的问题。

但是前提是，数据没有重复。

基于位的操作，我们知道总是有意想不到的惊喜。这里也是。

1000万个数，用1000万位的字符串来表示，也就是1000万bits,也就约1.2MB，这是普通的计算机都能轻易搞定的。
简单说，就是用’0’或者’1’标记这个数是否存在。

比如：[1,4,2,7,8],最大的数是8，所以需要8位字符来标记：”011010011”就标记好了。

这样输出数据时，只需要看字符串中对应的字符是否为’1’，决定是不是输出即可。

这是一个对于不含重复数字很有效的排序策略。

#include <stdio.h>

char bits[10];
int nums[9] = {1,3,7,6,2,4,5,9,8};

int main()
{
    //phase 1:
    for(int i = 0; i < 10; i++)
    {
        bits[i] = '0';
    }
    // phase 2:
    for(int i = 0; i < 10; i++)
    {
        bits[nums[i]] = '1';
    }
    //phase 3:
    for(int i = 0; i < 10; i++)
    {
        if(bits[i] == '1')
        {
            printf("%d\n", i);
        }
    }
    return 0;
}