Hadoop一些数据案例

这篇博客介绍了Hadoop在纽约时报数据处理中的高效性和低成本优势,并详细讨论了淘宝和支付宝如何利用Hadoop处理大规模数据。文章还深入探讨了Hadoop的技术细节,包括NameNode和DataNode的角色,数据切块、Block的存储机制以及复本策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据案例

1)纽约时报当时累计4TB纸质文档资料,要将这些资料扫描为PDF,用了Hadoop,耗时24小时,成本240美元搞定了。由此可见,Hadoop的高校性和廉价性(Hadoop本身也有一套比较完善的检测机制确保集群正常运行)
2)国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝,百度,华为,中国移动等等。

淘宝的Hadoop应用

淘宝的组织架构

支付宝的Hadoop应用

支付宝

Hadoop的技术细节

一、概述

  1. 在HDFS中,存在两类主要的节点:NameNode和DataNode
  2. NameNode负责管理DataNode,DataNode负责存储数据
  3. 在存储数据的时候会将数据进行切块
  4. 为了防止产生数据丢失,会将数据进行备份,备份称之为复本 - replication。在Hadoop中,默认复本数量为3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值