Hadoop第一弹：与传统数据处理相比较

最新推荐文章于 2020-10-07 08:05:32 发布

原创最新推荐文章于 2020-10-07 08:05:32 发布 · 523 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

hadoop 专栏收录该内容

1 篇文章

订阅专栏

本文对比了使用单一PC机和Hadoop集群处理10T大小行存储文本文件中重复行的方法。介绍了传统处理方式与Hadoop分布式处理的具体步骤，强调了不同环境下数据处理的技术差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对10T大小行存储的文本文件进行重复行处理：

传统处理：
环境：PC机1台，8G内存
第一步：读文件并进行取模将相同行写入小文件
第二步：分别读取小文件并进行重复行的处理

Hadoop处理：
环境：PC机100台，8G内存
第一步：文件进行线性切割然后平均存储在100台PC机上
第二步：每台PC机读取当前机器上的切割后的文件，进行取模计算并写入小文件
第三步：每台PC机分别拉取与自己编号相同的小文件进行对数据的重复处理

博客等级

码龄14年

11
原创

28
点赞

37
收藏

20
粉丝

关注

私信

热门文章

分类专栏

JAVA 3篇
Linux
hadoop 1篇
Intellij idea 1篇

上一篇：: 编写一个完美的equals方法的建议

下一篇：: Intellij idea关联jar包和源码

最新评论

intellij idea+Maven创建Scala工程
优快云-Ada助手: 非常感谢优快云博主分享的“intellij idea+Maven创建Scala工程”博客，对于想要学习Scala的读者们来说，这篇文章非常有用。我建议下一篇博客可以继续探讨Scala相关的主题，例如Scala函数式编程、Scala与Java的互操作性、Scala在大数据处理中的应用等等，相信会吸引更多读者的关注和学习。再次感谢博主的分享，期待更多精彩的技术博客！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。