基于Hadoop的第二个分布式算法Day4

本文详细介绍了作者在本地及分布式环境中实现并优化一种采样算法的过程。针对算法效率问题,提出了增加每轮迭代采样数量及改进算法以适应分布式环境的想法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  今日算法已经以standlone模式在本机上跑通了,结果也和之前的那版(数据读入内存采样)一致。期间为了达到一致的效果,改了一是无放回采样,二是采样SQL随机程度问题,因为我忘记了每组的id不是从0开始的,之前只是实现了用id分组,所以每组第一个值也就是最小值就有较大的概率被取到,改完之后,很随机了。在昨晚的思考后,根据公式我发现最后采样总会停止,最大的迭代次数就是每组最大的记录数,因为此时置信区间宽度变为0,所有组必定没有overlap,算法停止,而实验表明最后确实在迭代了300次之后停了,但这也说明尽了最大能力采样,这种各组平均值都相差较小的极端情况,进行了很多次的迭代,可以说是非常慢了。实验结果standlone模式下跑了10min+,切换成本机yarn模式30min+妥妥的,yarn模式反而更慢了(无论是本机还是大集群),应该这是真实的分布式环境,存在真实的网络等开销,所以一个真实的job运行时间是慢的,用Mapreduce仅仅为了采样实在是小题大做了。

想法:1.增大step,即每轮迭代每个map采样的数量;2.其它办法,使得算法更适合分布式。

算法正确性问题还需要考虑,因为现在分布式实现的效果已经和之前把文件读到内存中采样完全一样了,但是两版的结果并不是完全正确,正确性还是有出入的。

今天只遇到一个bug:java中split()特殊符号"." "|" "*" "\" "]" 实习时候好像也碰到过,但是还是忘了微笑

http://blog.youkuaiyun.com/myfmyfmyfmyf/article/details/37592711

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值