数据案例
1)纽约时报当时累计4TB纸质文档资料,要将这些资料扫描为PDF,用了Hadoop,耗时24小时,成本240美元搞定了。由此可见,Hadoop的高校性和廉价性(Hadoop本身也有一套比较完善的检测机制确保集群正常运行)
2)国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝,百度,华为,中国移动等等。
淘宝的Hadoop应用
支付宝的Hadoop应用
Hadoop的技术细节
一、概述
- 在HDFS中,存在两类主要的节点:NameNode和DataNode
- NameNode负责管理DataNode,DataNode负责存储数据
- 在存储数据的时候会将数据进行切块
- 为了防止产生数据丢失,会将数据进行备份,备份称之为复本 - replication。在Hadoop中,默认复本数量为3