大数据项目组人员配置

平台组 数据组 运维组
ETL 工程师:对数据进行挖掘、收集、处理
BI 工程师:对业务需求进行计算
报表开发工程师:对数据库的数据,进行可视化界面的开发
数据库工程师:对数据库本身进行配置和操作
大数据平台的架构/数仓架构:
1.数据源系统:
核心系统、客户系统、财务系统、人力资源系统、结算系统、销售系统、第三
方系统数据、人工的补录数据、埋点数据、日志信息等等。
结构化数据:数据库中的数据、csv 表格、excel 表格
半结构数据:json xml
{‘username’:‘lilei’,‘age’:18,‘sex’:‘男’}
lilei
18

非结构数据:图片 视频 音乐

主题库有哪些?
客户主题:保存的就是所有的客户的信息
参与者主题:商家和客户的所有的信息
协议主题:保存的所有的协议和合同的内容
事件主题:任何的资金的流动,都是一次事件,保存所有的资金的流动绩效主题:保存所有销售人员和销售团队的信息
财务主题:保存的是公司里面每一个部门的财务状况和信息
公共主题:汇率、利息比率、币种转换率、日期等…
产品主题:理财产品、借贷产品的所有信息

一个大数据的组:数据开发的人数 5-10
产品经理 业务人员 数据开发 软件测试工作的流程:
业务人员:收集客户需求,确定客户需要什么内容(指标详情文档)
产品人员:对接业务和技术,会将业务收集的需求,转换成技术可以看得懂、
能够实际操作的文档(需求规格说明书)
召开需求评审会议:产品人员主持、业务、开发、测试参与,讨论每个需求的
可实现性、以及每个需求的实现时间
编写开发设计文档
编写 sql 语句(代码走读),编写调度设计的文档
进行开发的自测(验证是否能够跑通、数据是否正确、数据是否一致)
上传写好的代码(SVN git)
软件测试进行 sql 脚本的测试:写 bug 单
进行准生产环境的最后一次验证
版本更新上线(每个公司都有确定的时间点)(版本的敏捷迭代更新)
最后进行一次线上的数据验证
整理数据字典的 excel 文档
在工作中有几套环境:
本地环境
开发环境
测试环境
预发布环境(准生产环境,和线上的环境一模一样的环境)
生产环境(正式环境)ETL 的数据处理:
E:extract
T:transform
L:load:删除所有的索引;加载数据到数据库表格;恢复索引以及清空临时表
完全刷新:全量更新,先使用 truncate 清空数据表,然后重新导入所有的数
据,一般全量更新都是在 DM 和 DA 里面。
事件增量:增量更新,通过时间字段将新增数据抽取出来加载到数据库中,一
般是 ODS 和 DW 的表格比较多。
镜像增量和镜像对比:镜像更新,是使用两个表的一个列或者是多个列进行数
据的对比,如果这些列的数据一致,对其他的字段进行数据的更新,如果这些
列的数据不一致,那么就进行数据的新增。一般用来处理历史数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一凡888

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值