Google的数据量

本文介绍了谷歌的大数据处理架构,包括使用超过200个GFS集群存储5PB数据,6000个MapReduce应用运行,以及BigTable存储海量数据。文章还提到谷歌每日处理超过20PB的数据,并强调了其三大分布式基础设施的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


今天看到一篇关于google架构的文章,对其中披露的部分数据给震撼了。我们来看看,下面都是一些统计数据:

  • 2006年估计有450,000台廉价的商品服务器
  • 2005年索引了80亿网页。
  • 目前google有超过200个GFS(google文件系统)集群在运行。而每个集群大约有1000到5000台机器。 GFS存储着高达5PB的数据,成千上万的机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB每秒
  • 目前google有6000个MapReduce应用程序在运行,并且以每月编写数百个新应用程序的速度在增长。
  • BigTable存储着数十亿的URL,数百TB的卫星图像数据和数亿用户的资料
  • 每天大约要处理超过20PB的数据量;
  • 对4,000台机器上约为1PB的数据排序花费约6小时20分左右的时间,并且排序的结果要在48,000块硬盘上来回复制3次

而保证这一切的得归功于google的三个分布式基础设施:

  1. GFS(google 文件系统)
  2. MapReduce(一种编程模型,用于大规模数据集的并行运算)
  3. BigTable(结构化数据的分布存储系统)
后记:
真正处理大数据量的时候还是得自己定制啊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值