dw
叶常落
1、一朝眉羽成,钻破亦在我
2、厨艺练习生,我正在用锅铲debug世界
3、直到找到完美味道
4、艾宾浩斯记忆曲线
5、费曼学习法
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
with语句不能加分号
CTE 是 SQL 的语法特性,用来为后续的主查询定义临时结果集。WITH 子句的定义必须和主查询一起写成一条完整的 SQL 语句——它们是一个整体。原创 2024-12-22 09:48:27 · 139 阅读 · 0 评论 -
数据质量评估入门&数据监控
数据质量指数据是否适合其使用目的的程度,包括数据的准确性、完整性、一致性、可靠性和时效性等方面。数据质量评价是评估数据质量的一种方法,它可以帮助企业或个人评估数据的可靠性和适用性。在进行数据监控之前,我们需要明确需要监控的指标。这些指标应该与业务相关,并能够帮助我们了解数据的准确性和完整性。例如,我们可以监控数据的质量、完整性、一致性等指标。原创 2023-04-06 20:13:20 · 1316 阅读 · 0 评论 -
hive或者impala如何根据字段找到表
举个例子,我想在知道有一个字段叫做user_ip,但是我不知道这个字段存放在哪个表里面,怎么办呢?我希望有一种可以通过字段名称,反向查找表名的功能。这个功能在mysql中已经有了。但是同样的事情,如何在hive中找到呢?至今未知,如果你知道解决方案,还请赐教。不是看一个表的表结构,而是看所有的,这样方便我反向查找数据了。可以查看一个表的表结构.依然可以使用的。原创 2023-04-06 19:38:48 · 905 阅读 · 0 评论 -
flink入门
2016年第一次听说这个概念,但是没有实际接触。直到如今,老骥伏枥,还不算晚。原创 2023-03-07 22:47:22 · 120 阅读 · 0 评论 -
基于Flink实时计算的一种风控策略的测试
flink原创 2023-03-07 20:13:30 · 484 阅读 · 0 评论 -
一篇文章记录我的三个月的数仓测试经验(draft)
余测数仓三月有余矣。甚感数仓之测试和功能之测试略有不同,故欣然提笔记之,以记吾心,以兹来人。时,司人不足千,年营收未过 One billion,然公欲建数据中台之心,未曾减也。值2020,组小团队,奉命建台,何台?对曰:数据中台,离线也。然,当是时吾未至,只知其名,而不知之其几何?故简称之数仓也。不解为何。亦未有数仓测试之职也。期年之后,2022, The old team Of data Development Leave the company, And a new team is com原创 2023-02-08 06:39:36 · 483 阅读 · 2 评论 -
临床数据质量测试
这里的临床不是医学领域的临床,这里的临床用来比喻直接面对一线数据,同时呢,还暗含着一丝检查的含义,来吧,让我们给你的数据做一次体检吧。原创 2022-12-17 09:12:28 · 410 阅读 · 0 评论 -
sql中的!=操作符的天坑(务必警觉)(=在处理null时也是同样有坑)
其实对一般的数据,这条校验语句是没有问题的,最后再筛选一下=1的值,就可以把不一样的数据给筛出来了,但是,但是,但是,在遇到null值的时候出现问题了,在我的常识的理解中,或者在我对其他编程语言的理解中,if(null!这个操作符好像是一种解决方法,对于非null值,其表现和=是一样的,对于null值,null null返回True, 如果只有一个只为null就返回False。通俗来讲,就是当你使用不等于进行筛选的时候,一定要注意,因为null不会被筛选出来,这样可能和你所期望的结果大相径庭。原创 2022-12-14 21:49:49 · 1321 阅读 · 0 评论 -
superset vs Tableau
【代码】superset vs Tableau。原创 2022-12-08 23:14:28 · 414 阅读 · 0 评论 -
日月维度留存率不一致
会骗人的数据。这个逻辑我永远也理不清。可以这样理解,假如有一个用户,每一天都是活跃的,那么这个用户贡献了每天的留存率。但是当按月计算的时候,这个用户只算了一次,也就是月留存第一天100个活跃用户,7日留存50个第二天102个活跃用户,七日留存48个第三天101个活跃用户,7日留存20个留存/活跃=留存率当按月计算时,要以月的维度进行计算。原创 2022-12-07 23:23:27 · 215 阅读 · 0 评论 -
什么是任务调度
类比于linux里面的cron。原创 2022-11-26 10:32:38 · 513 阅读 · 0 评论 -
sql函数coalesce和parse_url
coalesce(a, b,c,d) 参数的个数没有限制。coalesce函数可以用来排除null值。返回第一个参数中非null的值。原创 2022-11-21 23:39:35 · 532 阅读 · 0 评论 -
not in vs left join is null
在一个表中出现,但是在另一个表中没出现。对应的业务可以是新客判断。在历史中未出现过,则认为是新客。比如需要验证一系列值,是否在另一个表中出现过,有两种方法。not in 和 left join is null。原创 2022-11-17 21:54:49 · 1285 阅读 · 0 评论 -
留存怎么算?
比如我们说月活,我们理所当然指的是,这个月内有过行为的用户,而不是指这个月内每天都要有行为的用户了。比如说,7日留存,是指7日内每一天都有行为,还是指七日内任何一天有活动都可以?如果02日,用户有过行为,则认为第02活跃。第七日和七日内很明显覆盖的范围是不同的。如果03日,有过行为,则认为第03活跃。第7日留存和7日内留存是两个概念。01日,用户进行了注册。原创 2022-11-16 22:44:20 · 1219 阅读 · 0 评论 -
如何把一行数据拆分成多条sql
id, start_time, end_time, pay_amount, months,这是一条数据,现在需要根据规则,把这条数据拆分成多条数据,也就是平均到每个月上面。如果写sql该如何实现呢?如果不引入其他编程语言,只是用sql实现要怎么做?例如这里根据12/3 再生成4条数据要如何实现?假如可以引入编程语言这个要怎么实现?今日遇到一个分摊场景,例如。数据开发中的数据质量校验。稍微复杂一点的情况是。原创 2022-11-14 22:59:03 · 1938 阅读 · 0 评论 -
streamsets data collector是什么?
todo草稿背景:如果有这样的需求:你需要把mysql某个表中的数据实时同步到kafka。你需要把mysql某个表的数据实时同步到hive。sdc: streamsets data collectorcdc: change data capturecdh: Cloudera’s Distribution Including Apache Hadoop。https://docs.streamsets.com/portal/datacollector/3.16.x/help/datacollect原创 2022-11-05 20:40:31 · 706 阅读 · 0 评论 -
stg分区边界值问题
以日期进行分区dt字段站在测试视角,非常容易发现的一个问题,但是遇到一个问题凌晨附近的数据所在的分区不是数据的日期,例如2022-11-03 23:59:59.888的数据存放到了2022-11-04的分区中。这是什么原理呢?这个概念可能叫做数据漂移原创 2022-11-04 21:07:08 · 158 阅读 · 0 评论 -
【dw】数据分层
stg ods原创 2022-11-01 23:34:04 · 180 阅读 · 0 评论 -
【每天一点dw知识】sqoop是什么?
what is sqoop原创 2022-11-01 22:33:06 · 363 阅读 · 0 评论
分享