自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 数据团队:一个靠谱的大数据工程师/数仓工程师应该具备哪些核心素质?

背景:今天在做一个需求整体改造,改造完核对数据的时候,发现一个指标对不上,按会员手机号归属城市汇总的指标改造前后对不上,开始追溯问题,排查到会员表,发现会员表的会员手机号,从2年前就没有正常更新了,且这个手机号用来了做短信营销,由于这个表是另外一个同事做的,使用了做了检验,可能是刚好检验了没有更新过的。在我看来,大数据/数仓工程师,超出的数据一般是提供给老板、商分用来分析决策的,所以大数据/数仓工程师一个最核心的素质:如何保证自己的数据的正确,即使在有测试的情况下,以及对各种人怀疑的态度,使用模型前自测。

2025-03-27 21:06:11 98

原创 数仓规范之禁用SELECT *

数仓规范

2025-02-28 09:55:50 134

原创 数据团队-临时统计OR报表?

一次临时统计,沟通成本、SQL脚本开发成本都有了,只差最后一步,固化成报表,且耗时并不会增加太多,当然这样说的是有比较好的数据开发工具和报表开发工具的前提下)但是找到了之前也是一个统计需求,但是做成了临时报表,但是并不是所有的指标都满足,先临时交付给业务方了。个人建议:在需求上做一定的延伸,都按报表来开发,累积数据资产,这样可以在之后的场景中复用。临时统计释义:由一个运营或者业务方提出,只统计一次的数据需求,包含了指定的字段和字段含义。对于临时统计,是否所有的都按统计做?还是所有的都按报表做?

2025-02-25 17:46:32 105

原创 xxl-job 自动注册,执行器,地址为空解决

将AppName改成和demo一样的即可。本例是单executor。

2025-01-20 15:48:10 236

原创 帆软FineReport动态列(动态展示列、动态列聚合)

维度控件:实现参数值的过滤指标:实现按哪些维度聚合以及展示哪些指标(动态聚合:例如数据有字段A、B、C、D列,但是只想按A、B列聚合展示结果)效果图如下:最终效果图:指标筛选器效果:指标筛选器效果。

2025-01-12 10:59:18 1553 1

原创 由一个JOIN不等值联结引发的DataWorks任务运行时间超长的问题排查以及解决

1、任务要配置超时监控,像这种运行5个小时的任务要及时发现2、在JOIN时,尽量不要写不等值联结。3、排查问题的时候,不要在查询窗口执行,发现速度还可以就跳过,查询窗口有足够多的数据的时候就会返回,并不能反应真实的问题,如果想模拟线上的相同操作(会执行全部数据,反应出问题)

2025-01-10 11:48:27 223

原创 数据仓库简介

数据仓库:通俗来讲,是专门为了支持公司各个层级决策而建的数据库,并将用到的数据通过一定方式同步到数据仓库中,通过一定的处理,最终转化为目标数据,提供给运营、数据分析人员、决策层等。

2024-12-28 19:07:47 146

原创 数据仓库分层介绍

数据仓库分层设计一般是指:数据仓库按照ODS->DWD(DIM)->DWS->ADS层级设计。每一层对应相关的物理表,实现不同的功能,下面详细介绍。

2024-12-27 17:14:21 962

原创 Can't open /dev/sda3 exclusively. Mounted filesystem?解决办法

报错:[root@hadoop101 moduels]# pvcreate /dev/sda3Can’t open /dev/sda3 exclusively. Mounted filesystem?处理方法:umount /home/ext上面为挂载点,就可以成功了.centos7扩容原文链接:https://bugxia.com/581.html...

2019-12-03 10:46:52 10573 1

原创 hive order by sort by distribute by cluster by

order by 语法Hive QL中的order by 类似于SQL语言中的ORDER BY语法。排序方式:ASC|DESC空值排序方式:NULLS FIRST|NULLS LAST语法:order by 字段名称 ASC|DESC [NULLS FIRST|NULLS LAST]“ order by”子句中有一些限制。在严格模式下(即hive.mapred.mode = strict...

2019-11-19 22:07:49 473

原创 python cx_Oracle模块的学习教程

https://www.oracle.com/technetwork/cn/articles/dsl/mastering-oracle-python-1391323-zhs.html

2018-12-21 13:01:01 382

原创 今天偶然发现一个各种模板都比较好看的网站(包含简历),关键免费下载,推荐给大家

话不多说,直接上地址http://www.cssmoban.com/tags.asp?n=程序员以下为该网站的页面截图,感觉很不错

2018-12-01 12:31:13 6303

原创 Python Selenium 需要定位的Select元素在html中只有占位符,真实生成的ID Name在JS页面中的定位

首先声明:因本人并非前端出身,可能一些名词解释并不专业例如页面代码如下:<tr onselectstart="return false"> <td height="174" id="Area2" valign="top&am

2018-11-24 16:08:51 649

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除