Hadoop一些数据案例

nobug侠

于 2020-09-15 09:22:41 发布

阅读量867

点赞数

分类专栏：学习个人文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45324890/article/details/108592598

版权

这篇博客介绍了Hadoop在纽约时报数据处理中的高效性和低成本优势，并详细讨论了淘宝和支付宝如何利用Hadoop处理大规模数据。文章还深入探讨了Hadoop的技术细节，包括NameNode和DataNode的角色，数据切块、Block的存储机制以及复本策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据案例

1）纽约时报当时累计4TB纸质文档资料，要将这些资料扫描为PDF，用了Hadoop，耗时24小时，成本240美元搞定了。由此可见，Hadoop的高校性和廉价性（Hadoop本身也有一套比较完善的检测机制确保集群正常运行）
2）国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝，百度，华为，中国移动等等。

淘宝的Hadoop应用

淘宝的组织架构

支付宝的Hadoop应用

支付宝

Hadoop的技术细节

一、概述

在HDFS中，存在两类主要的节点：NameNode和DataNode
NameNode负责管理DataNode，DataNode负责存储数据
在存储数据的时候会将数据进行切块
为了防止产生数据丢失，会将数据进行备份，备份称之为复本 - replication。在Hadoop中，默认复本数量为3

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。