
入门教程
文章平均质量分 91
青月数据
这个作者很懒,什么都没留下…
展开
-
Oozie基础入门
前言: 因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正 引入: 对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。 我...原创 2018-03-01 15:08:50 · 36613 阅读 · 2 评论 -
kylin实操入门
先创建一个project 然后选择创建的project 然后点击data Source下的load Hive Table按钮 填写需要的hive表的全称(库名.表名),完成后点击Sync按钮就是数据导入 然后创建一个新的Model Model Name只能是英文 选择事实表(Fact Table),可以通过 add lookup T...原创 2018-11-27 11:41:54 · 801 阅读 · 0 评论 -
OOZIE之创建shell节点命令
首先创建工作流 然后将shell节点的符号拖到指定的区域 选中需要的shell脚本文件 需要注意的是: 1、文件的权限必须具有可执行权限。本例采用了“777”权限。 2、第一个输入框处填包含后缀的文件名,文件部分的输入框要包含调度脚本和被调度脚本的完整文件名(包含路径和后缀),且都具有可执行权限。 如果当前shell脚本为sqoop脚本命令,示例脚本如下 ...原创 2019-03-06 10:15:30 · 371 阅读 · 0 评论 -
数据仓库之数据模型
文章脉络 ER模型(关系实体模型) 特点 全面了解业务业务和数据 实施周期非常长 对建模人员的能力要求高 建模步骤 概念模型(高层模型) 抽象模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。 逻辑模型(中层模型)——在概...原创 2019-04-03 22:20:52 · 601 阅读 · 0 评论 -
数据仓库之数据脱敏方法论
数据脱敏 对数据敏感程度进行安全级别划分 绝密 高保密 保密 可公开 敏感数据梳理 用户维度 手机号码、邮件地址、账号、地址、固定电话号码等信息(此外个人隐私数据相关还有如:种族、政治观点、宗教信仰、基因等) 用户终端维度 能够可能标识终端的唯一性字段,如设备id。 公司角度 交易金额、代金卷密码、充值码等 确定脱敏处理方法 替...转载 2019-04-13 15:32:45 · 1762 阅读 · 0 评论