
WFS
zdkdchao
这个作者很懒,什么都没留下…
展开
-
脱敏功能分享
一、本次分享内容脱敏概述业务流程硬件环境技术链路实现:代码和脚本总结:面试点二、概述三、脱敏功能实现中的异常情况1. 合规审查2. 安全3. 脱敏算法是否可逆:加密算法,散列算法破解概率脱敏后的值是否需要关联:长度4. 客户体验:字段多,以什么方式设置脱敏规则5. 数据量存储格式压缩格式跑批调度时间6. 如何在hdfs之间传输数据,开启kerberos、sentry、https是否有影响。中断了咋办,权限怎么解决。7. 脱敏后的数据加载到hive表,修复.原创 2020-12-04 13:34:03 · 3796 阅读 · 5 评论 -
WFS-下发总结
etl-shell1. 参数的规范{1} 日期格式{2} 调用hive-sql文件,hive参数的格式:hue中执行用${hiveconf:变量名}命令行中执行用${hivevar:变量名}2. 开头必须有#!/bin/bash,否则调度调不了3. etl尽量一个文件,要有文档下发文档1. 尽量用cib2. 项目相关的配置文件、keytab、是否需要启动、是否需要关闭原来的项目3. 应急步骤...原创 2020-10-30 10:10:10 · 309 阅读 · 0 评论 -
WFS-pmml管理
一、SRC1. 功能需求执行pmml模型:自定义客群、结果文件、结果清单结果文件、结果清单要落表,将最新结果按分区覆盖旧结果。按频率自动运行,自动运行时结果文件和结果清单一起执行。自动运行通过调度系统发起。手动运行时,结果文件和结果清单分别执行日志,手动、自动运行的操作日志都要有,且要标注自动还是手动2. 技术实现A[根据客群(宽表)筛选规则生成待预测的数据] --> B[pmml预测]从技术实现的流程上。#mermaid-svg-Iv5zeNYMSMuX59xr .labe原创 2020-09-02 14:07:03 · 276 阅读 · 0 评论 -
hive-将数据直接复制到hive的hdfs上然后通过msck repair table tn来导入数据和分区
一、创建外部表1. partitioned by (etl_date string)必须放在列名括号之后2. location '/user/hive/dctest/test222'必须放在最后create external table test222(id int,name string) partitioned by (etl_date string)row format delimited fields terminated by '|' partitioned by (etl_da原创 2020-06-13 13:47:28 · 761 阅读 · 0 评论 -
WFS-绿金etl
债项申请为了申请额度3层5个标准原创 2020-06-10 20:34:00 · 247 阅读 · 0 评论 -
WFS-数据脱敏
需求前端传过来表名、列名、列的脱敏规则的json,我在后端解析出规则bean的对象,编写对应的方法或者UDF,然后在df或者sql中对指定列进行转换,保存为文件后。通过distcp发送到别的集群解析json将json转为规则bean,根据bean获取表的列和对应的列需要调用的函数。转换列并生成文件df.selectExpr( 自定义函数( 列名 ) )...原创 2020-08-22 08:25:27 · 283 阅读 · 0 评论 -
WFS-将hive表中的数据转成EDIP
一、src用excel做配置文件,配置flg的信息,然后读取,生成flg文件,然后从hive表查,生成dat.gz文件。入参有selectList,whereFilter二、知技1. rdd保存为gz文件先保存到一个临时文件,然后合并复制到指定目录下。亲测,gz文件是可以多个合并为1个的。spark直接把rdd写为gz,读直接用textfile()即可,自动解压rdd.saveAsTextFile(结果目录,classOf[GzipCodec])2. df保存为gz文件{1} 用如下代码原创 2020-05-26 23:26:05 · 753 阅读 · 0 评论 -
WFS-导数/excel直接导入到hive表
需求把excel中的数据直接导入到hive表,hive表使用parquet来存的。excel的前三行是字段的name、字段的类型、字段的说明思路就是根据excel生成rdd和schema,然后根据这2个创建df,然后就可以使用write直接保存为parquet,最后执行loadsparksql中是可以直接执行load的,执行load语句返回的df是啥待研究TRAPSexcel中的数字设置为文本后,还要在单元格里点一下才会出现左上角的三角符号,如果没有三角符号,poi仍然会识别为numerice原创 2020-05-12 21:41:36 · 396 阅读 · 0 评论