- 博客(13)
- 收藏
- 关注
原创 数据团队:一个靠谱的大数据工程师/数仓工程师应该具备哪些核心素质?
背景:今天在做一个需求整体改造,改造完核对数据的时候,发现一个指标对不上,按会员手机号归属城市汇总的指标改造前后对不上,开始追溯问题,排查到会员表,发现会员表的会员手机号,从2年前就没有正常更新了,且这个手机号用来了做短信营销,由于这个表是另外一个同事做的,使用了做了检验,可能是刚好检验了没有更新过的。在我看来,大数据/数仓工程师,超出的数据一般是提供给老板、商分用来分析决策的,所以大数据/数仓工程师一个最核心的素质:如何保证自己的数据的正确,即使在有测试的情况下,以及对各种人怀疑的态度,使用模型前自测。
2025-03-27 21:06:11
98
原创 数据团队-临时统计OR报表?
一次临时统计,沟通成本、SQL脚本开发成本都有了,只差最后一步,固化成报表,且耗时并不会增加太多,当然这样说的是有比较好的数据开发工具和报表开发工具的前提下)但是找到了之前也是一个统计需求,但是做成了临时报表,但是并不是所有的指标都满足,先临时交付给业务方了。个人建议:在需求上做一定的延伸,都按报表来开发,累积数据资产,这样可以在之后的场景中复用。临时统计释义:由一个运营或者业务方提出,只统计一次的数据需求,包含了指定的字段和字段含义。对于临时统计,是否所有的都按统计做?还是所有的都按报表做?
2025-02-25 17:46:32
105
原创 帆软FineReport动态列(动态展示列、动态列聚合)
维度控件:实现参数值的过滤指标:实现按哪些维度聚合以及展示哪些指标(动态聚合:例如数据有字段A、B、C、D列,但是只想按A、B列聚合展示结果)效果图如下:最终效果图:指标筛选器效果:指标筛选器效果。
2025-01-12 10:59:18
1553
1
原创 由一个JOIN不等值联结引发的DataWorks任务运行时间超长的问题排查以及解决
1、任务要配置超时监控,像这种运行5个小时的任务要及时发现2、在JOIN时,尽量不要写不等值联结。3、排查问题的时候,不要在查询窗口执行,发现速度还可以就跳过,查询窗口有足够多的数据的时候就会返回,并不能反应真实的问题,如果想模拟线上的相同操作(会执行全部数据,反应出问题)
2025-01-10 11:48:27
223
原创 数据仓库简介
数据仓库:通俗来讲,是专门为了支持公司各个层级决策而建的数据库,并将用到的数据通过一定方式同步到数据仓库中,通过一定的处理,最终转化为目标数据,提供给运营、数据分析人员、决策层等。
2024-12-28 19:07:47
146
原创 数据仓库分层介绍
数据仓库分层设计一般是指:数据仓库按照ODS->DWD(DIM)->DWS->ADS层级设计。每一层对应相关的物理表,实现不同的功能,下面详细介绍。
2024-12-27 17:14:21
962
原创 Can't open /dev/sda3 exclusively. Mounted filesystem?解决办法
报错:[root@hadoop101 moduels]# pvcreate /dev/sda3Can’t open /dev/sda3 exclusively. Mounted filesystem?处理方法:umount /home/ext上面为挂载点,就可以成功了.centos7扩容原文链接:https://bugxia.com/581.html...
2019-12-03 10:46:52
10573
1
原创 hive order by sort by distribute by cluster by
order by 语法Hive QL中的order by 类似于SQL语言中的ORDER BY语法。排序方式:ASC|DESC空值排序方式:NULLS FIRST|NULLS LAST语法:order by 字段名称 ASC|DESC [NULLS FIRST|NULLS LAST]“ order by”子句中有一些限制。在严格模式下(即hive.mapred.mode = strict...
2019-11-19 22:07:49
473
原创 python cx_Oracle模块的学习教程
https://www.oracle.com/technetwork/cn/articles/dsl/mastering-oracle-python-1391323-zhs.html
2018-12-21 13:01:01
382
原创 今天偶然发现一个各种模板都比较好看的网站(包含简历),关键免费下载,推荐给大家
话不多说,直接上地址http://www.cssmoban.com/tags.asp?n=程序员以下为该网站的页面截图,感觉很不错
2018-12-01 12:31:13
6303
原创 Python Selenium 需要定位的Select元素在html中只有占位符,真实生成的ID Name在JS页面中的定位
首先声明:因本人并非前端出身,可能一些名词解释并不专业例如页面代码如下:<tr onselectstart="return false"> <td height="174" id="Area2" valign="top&am
2018-11-24 16:08:51
649
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人