大数据处理

一、面试题:.给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。

思路:40亿的数据如果加载到内存中去需要16G的空间,显然不可能实现。这时候如果用一个比特位表示一个数字,那么需要的空间就只要16G/32(一个整型数据有32个比特位),即500多M,这时计算起来就比较方便了。(位图)

实现方法:
(1)、开辟一段连续足以存下所有整型数据的整型空间
(2)、Set方法:将一个数存入该空间中,找到该数的位置,比如256,那么就是第256个比特位,将其置为1;
(3)、Unset方法:同上,将一个数从该空间中去除,找到该位置,将该位的数置为0
(4)、测试:如果一个数在位图上的位置的值为1表示该数存在。

代码:


class bitmap
{
public:
    bitmap(size_t size)
    {
        map = new int[(size >> 5) + 1];
        memset(map, 0, sizeof(map));
    }
    ~bitmap()
    {
        delete[]map;
    }
    void Set(size_t num)
    {
        int index = num >> 5;
        int pos = num % 32;
        map[index] |= (1 << (pos-1));
    }
    void Unset(size_t num)
    {
        int index = num >> 5;
        int pos = num % 32;
        map[index] &= ~(1 << (pos-1));
    }

    bool test(size_t num)
    {
        int index = num >> 5;
        int pos = num % 32;
        if (((map[index]>>(pos-1))&1)==1)
            return true;
        return false;
    }
private:
    int*map;
};

二、找出10亿个数字中的中位数
因为数字太多,不能一次性加载到内存中去(如果可以一次性加载进去,可以用快排的思想来解决),这里也同样可以用位图的思想来解决。

思路:
(1)开辟两段连续的空间,一段用来存放数据,一段用来记录相应位置出现的数字的个数(当然这两端空间都是无符号类型的)。
(2)把数字存进去以后以后遍历用来计数的空间,逐步把数字的个数相加可以确定中位数是在哪个整型空间里面。
(3)在最后在该段数字里面寻找中位数。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值