三角选择原则:
精准+实时+大数据
(1)精准+实时:没有大数据,数据量很小,一般就是指单机环境
(2)精准+大数据:hadoop,批处理,非实时,可以处理少量数据,保证精准,可能会跑几个小时;
(3)大数据+实时:es,不精准,近似估计,可能会有百分之同的错误率
近似聚合算法:
如果采取近似估计算法:延时在100ms左右,0.5%错误率
如果采取100%精准算法:延时几秒~几十秒,甚至几十分钟,0%错误率
本文探讨了大数据处理中的三角选择原则,即精准、实时与大数据的组合。精准+实时场景通常对应于小数据量的单机环境;精准+大数据则适合使用Hadoop进行批处理,但牺牲了实时性;而大数据+实时则通过如Elasticsearch实现,但可能接受一定的误差率。此外,介绍了近似聚合算法,它能在100ms内提供0.5%错误率的结果,对比之下,100%精准算法会显著增加延迟。这些权衡对于优化大数据系统的性能至关重要。
三角选择原则:
精准+实时+大数据
(1)精准+实时:没有大数据,数据量很小,一般就是指单机环境
(2)精准+大数据:hadoop,批处理,非实时,可以处理少量数据,保证精准,可能会跑几个小时;
(3)大数据+实时:es,不精准,近似估计,可能会有百分之同的错误率
近似聚合算法:
如果采取近似估计算法:延时在100ms左右,0.5%错误率
如果采取100%精准算法:延时几秒~几十秒,甚至几十分钟,0%错误率

被折叠的 条评论
为什么被折叠?