读Google大数据三篇著名论文有感
随着科技的进步,电脑,手机越来越普及了,上网人数也越来越多了,在网上产生的数据越来越多。而且随着科技进步处理这些大量的数据也成为了人们的需要。现在的热门词汇“云计算大数据”就是在处理海量数据算法突破后带来的。要想了解这个词汇,我门必须了解”大数据“是什么?如何处理大数据?Google大数据三篇著名论文能帮助我们了解这个问题。下面为我学习Google大数据三篇著名论文后的一些想法。
大数据来源与生活中的种种产生的信息。对这些大数据进行分析处理,在电子商务、物流配送等领域的发展有巨大的作用。从大数据中能得到对于消费者行为的判断,产品销售量的预测,存货的补给。
处理大数据的算法,要面对海量的数据,要为大量客户机服务。因此计算往往由几千台机器组成、处理以 TB 计算的数据。为了能大量使用这些计算都是在廉价的普遍硬件设备上进行。
首先在大数据的计算处理中组件失效被认为是常态事件,而不是意外事件。面对大量的数据和客户机出现程序bug是不可避免的。因此持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。
其次在处理海量数据时,使用的文件是非常巨大的,所以大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。这样能够做到将运算分解细化,可以让生成的数据由多台机器处理。同时在面对海量数据通过压缩算发减小处理数据的压力。因此保存的文件名是用前缀压缩算法压缩过的。只需要少量的空间就可以控制一个大文件。
面对数量众多的客户机,出现存放这个可执行文件的服务器被数百个客户端的并发请求访问导致系统局部过载的问题在众多的客户机的情况下是无法避免的。面对这个问题
允许客户端从其它客户端读取数据是能解决的好办法。在未来随着数据的增多,这个问题
因该还是要通过这个方法解决。而且可以预见未来客户端的性能会不断提升。
处理大量的数据高性能的稳定网络带宽远比低延迟重要,处理大数据的程序中要求能够高速率的、大批量的处理数据,程序对单一的读写操作有严格的响应时间要求 不是必要的。同时将通过充分利用每台机器的带宽,避免网络瓶颈和高延时的连接,最小化推送所有数据的延时。
面对海量的数据,处理的文件数据更新很快,但操作日志不同,它包含了关键的元数据变更历史记录,因此它是元数据唯一的持久化存储记录,它也作为判断同步操作顺序的逻辑时间基线。在面对各种意外风险时,系统都要通过它来重新恢复系统。
以上为我学习Google大数据三篇著名论文的一些感想。(以上信息来自百度查找和Google大数据三篇著名论文中原文)
本文探讨了Google大数据三篇著名论文对大数据处理的理解。大数据来源于生活中的信息,其分析处理对电商、物流等领域的决策有重要作用。文章讨论了大数据处理的挑战,包括组件失效、海量数据管理和网络性能优化。
816

被折叠的 条评论
为什么被折叠?



