
大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。
这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。
本文介绍了通过计算硬盘数据访问时间进行大数据性能估算的方法。指出大多数大数据运算需遍历数据,耗时不应低于硬盘读取时间。通过实例说明,如10T数据的OLAP汇总在3秒内完成,需要约1万块硬盘。强调实测硬盘速度和数据压缩、列存等优化手段对性能估算的重要性。

大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。
这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。

被折叠的 条评论
为什么被折叠?