
数据
文章平均质量分 60
RosenDing
Keep Calm and Start Studying!
展开
-
Presto简介
PrestoPresto是基于大数据的分布式SQL查询引擎Presto是开源的、基于大数据的交互式查询引擎。它设计的目的就是用来提高海量数据查询的速度。Presto是运行在集群中的一个分布式系统,它可以分析海量数据。使用Presto,可以通过SQL接入和查询不同源头的数据。Presto的整体架构包含一个coordinator和多个workers。通过客户端提交query给coordinator(比如Presto CLI)。coordinator负责解析分析成执行计划,然后将这些可执行计划部署到wo原创 2020-12-05 21:52:57 · 396 阅读 · 0 评论 -
BitMap原理
BitMap传统BitMap传统的bitmap是用一个二进制位(bit)来表示一个值,0表示不存在,1表示存在,这样存储所有32位长度的数据只需要512M存储空间。但是有个问题:这种bitmap比较固定,即使只表示个位数个数字也需要512M的空间,大部分位都是0,比较浪费空间。Roaring BitMaps未完待续~...原创 2020-11-17 19:13:12 · 815 阅读 · 0 评论 -
《深入浅出数据分析》内容摘要
数据分析引言数据分析就是仔细推敲证据基本流程:确定:确定问题,了解问题。分解:分解问题和数据,使其成为更小的组成部分。评估:对前两步了解到到的情况作出各种结论。决策:把结论组合在一起得出决策。明确心智模型:根据已有数据明确你知道的和不知道的。从一开始就务必要基于正确的假设建立模型,并且要做好准备,一旦所得到的的数据有违你的假设,就要立即回头重新详加思考。实验想要找到销量下滑的原因,需要将数据进行细分,排除影响因素。比如不同区域的咖啡销量数据放在一起看,不容看到销原创 2020-09-12 23:08:16 · 347 阅读 · 0 评论