
数据开发
文章平均质量分 57
分享数据开发技术和学习经验
得得得个桔
这个作者很懒,什么都没留下…
展开
-
互相关注(共同好友)怎么计算? (2)
第二种方法使用了子查询并且利用了标记,大数据的情况下查询效率更加好。第一种方法更加简便理解成本更低。原创 2024-07-25 15:50:44 · 285 阅读 · 0 评论 -
大数据之路精读:OneData实施工作流流程总结
其中又分为业务调研和需求调研。在业务调研中,首先要理清楚数据仓库覆盖的业务领域都有哪些,覆盖的业务线又有哪些,每一条业务线中有哪些业务模块,每个业务模块有哪些业务流程又是怎么样的。同时我们要从需求出发,要搞清楚业务或者数据分析那边需要什么,知道他们的需求通常是什么,我们才能建设好我们的数据仓库。书中是这样举例子的:数据分析师想要一个指标:淘宝一级类目商品的成交金额。根据什么(维度)进行数据汇总,以及汇总什么东西(度量),这里的一级类目就是维度,金额就是度量。原创 2024-07-23 17:29:47 · 354 阅读 · 0 评论 -
留存率怎么计算?
首先,先要明白留存率是什么,百度的解释是:其具体含义为在统计周期(周/月)内,每日活跃用户数在第N日仍启动该App的用户数占比的平均值,其实简单点来说,拿次留率来举例子的话就是今天这批在线的用户数量作为分母,明天这批用户仍在线的用户数量作为分子。从留存率的定义入手,我们可以知道这个指标的计算肯定是涉及到今天与其他天(比如明天)的数据之间的关系的,是否就意味着对表进行自连接之后,可以得到相应的数据帮助我们计算留存率指标呢?留存率的计算是数据开发工作中常见中常见的字段需求,同时也是面试sql题考察的重中之重。原创 2024-07-23 16:17:50 · 454 阅读 · 0 评论 -
Hive中位数到底是怎么求的?
常规不用hive的解决方法是:首先添加两列字段,这两列分别是score所在的位置、总数据个数。这里的逻辑筛选后,可以得到得到一行数据和两行数据(分别对应奇数和偶数,如果是偶数的话,你这样+2然后除2得到是个带小数点的数值,筛选就找不到她了),然后用对筛选出来的数据进行一个avg( )就可以了。这一个函数则是得到近似分布的值,相对没那么精确,但是他比较适合大规模数据集,数据仓库ETL中可能用它更加合适。实习过程中,接到一个需求,里面有个要计算中位数的字段,之前没见过,遂记录。一切的一切数据先排序。原创 2024-07-18 18:57:57 · 330 阅读 · 0 评论 -
Hive中怎么行转列?怎么列转行?
具体介绍,后面会有新文章。在标准SQL中,不允许在投影阶段(select子句)阶段修改行的数量,因此需要借助lateral view来实现行拓展的操作。实际场景中,比如数仓表开发的时候,维度值是游戏名称,里面有穿越火线啊CSGO啊之类的,但是最终我们还希望得到一个all值代表全部游戏,方便下游表的统计分析,这时候可能就得在explode函数的传入参数中动点手脚了。首先,行转列列转行是数仓工作中还比较常见的问题,通常与Hive中的。其次,行转列的sql编写也是面试常考题之一,面试者需要重点关注。原创 2024-07-02 17:21:19 · 437 阅读 · 0 评论