HiveQL函数7—数据脱敏函数(Data Masking)

1.mask(string str[, string upper[, string lower[, string number]]])

返回值:string
功能:返回str的masked版本(从Hive 2.1.0开始)。默认,大写字母转换为“X”,小写字母转换为“x”,数字转换为“n”。例如,mask(“abcd-EFGH-8765-4321”)将生成xxxx-XXXX-nnnn-nnnn 。可以通过提供其他参数来重写掩码中使用的字符:第二个参数控制大写字母的掩码字符、第三个参数控制小写字母的掩码字符,第四个参数控制数字的掩码字符。
示例:

> select mask("abcd-EFGH-8765-4321") as f1;
+----------------------+
|          f1          |
+----------------------+
| xxxx-XXXX-nnnn-nnnn   |
+----------------------+

> select mask("abcd-EFGH-8765-4321", "U", "o", "#") as f1;
+----------------------+
|          f1          |
+----------------------+
| oooo-UUUU-####-####  |
+----------------------+

2.mask_first_n(string str[, int n])

返回值:string
功能:对str的前n个字符进行掩码操作并返回(从Hive 2.1.0开始)。大写字母转换为“X”,小写字母转换为“x”,数字转换为“n”
示例:

> select mask_first_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| nnnn-5678-8765-4321  |
+----------------------+

3.mask_last_n(string str[, int n])

返回值:string
功能:与mask_first_n正好相反,对str的后n个字符进行掩码操作并返回(从Hive 2.1.0开始)。大写字母转换为“X”,小写字母转换为“x”,数字转换为“n”。
示例:

> select mask_last_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| 1234-5678-8765-nnnn  |
+----------------------+

4.mask_show_first_n(string str[, int n])

返回值:string
功能:对str的除前n个字符以外的其余字符进行掩码操作并返回(从Hive 2.1.0开始)。大写字母转换为“X”,小写字母转换为“x”,数字转换为“n”
示例:

> select mask_show_first_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| 1234-nnnn-nnnn-nnnn  |
+----------------------+

5.mask_show_last_n(string str[, int n])

返回值:string
功能:对str的除后n个字符以外的其余字符进行掩码操作并返回(从Hive 2.1.0开始)。大写字母转换为“X”,小写字母转换为“x”,数字转换为“n”
示例:

> select mask_show_last_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| nnnn-nnnn-nnnn-4321  |
+----------------------+

6.mask_hash(string|char|varchar str)

返回值:string
功能:对str进行hash操作并返回(从Hive 2.1.0开始)。散列是一致的,可用于跨表将masked值连接在一起。对于非string类型的值,此函数返回null。
示例:

> select mask_hash("1234") as f1;
+----------------------------------------------------+
|                         f1                         |
+----------------------------------------------------+
| 03ac674216f3e15c761ee1a5e255f067953623c8b388b4459e13f978d7c846f4 |
+----------------------------------------------------+

> select mask_hash(1234) as f1;
+-------+
|  f1   |
+-------+
| NULL  |
+-------+

参考

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DataMaskingFunctions

### 数据脱敏工具推荐 对于数据脱敏的需求,可以选择多种开源或商业化的工具。以下是几种常见的选项及其特性: #### DataMasker DataMasker 是一款功能强大的数据脱敏工具,支持多种类型的脱敏操作,包括但不限于固定值替换、假数据生成以及 SQL 查询方式的脱敏[^1]。它适用于开发环境和测试环境中的数据保护,并能够有效防止敏感信息泄露。此外,该工具还具有灵活配置的能力,可通过 JSON 文件完成复杂的自定义设置。 #### 动态数据脱敏 (Dynamic Data Masking, DDM) 动态数据脱敏是一种实时保护机制,在不修改原始数据的前提下改变返回给应用或用户的数据库记录内容[^2]。这种方法特别适合于在线查询场景下对敏感字段进行屏蔽或模糊化处理。 #### Python 实现的 GUI 脱敏工具 如果倾向于使用脚本语言构建个性化解决方案,则可以考虑基于 Python 编写的图形界面版数据清洗程序[^4]。这类轻量级方案尤其适配那些需要快速迭代的小型团队;同时也能很好地应对诸如身份证号、电话号码之类的常见个人识别码项的大规模自动化转换任务。 ### 自己动手实现简单的数据脱敏逻辑 当然也可以自己编写代码来达成基本的数据遮蔽效果。下面给出一段利用正则表达式匹配并隐藏部分字符的例子作为参考: ```python import re def mask_sensitive_info(text): patterns = [ r'\b\d{6}(?=\d{4})\b', # 对日期格式 YYYYMMDD 中间六位加星号****** r'(?<=\D)\d{7,}\b', # 隐藏连续七位以上的纯数字串******* ] masked_text = text for pattern in patterns: matches = re.findall(pattern, masked_text) for match in matches: replacement = '*' * len(match) masked_text = masked_text.replace(match, replacement) return masked_text example_input = 'John Doe was born on 19800520 and his phone number is 13812345678.' print(mask_sensitive_info(example_input)) ``` 此函数会对输入字符串内的生日与较长编号采取不同程度上的隐匿措施。 ### 结论 无论是选用成熟的第三方产品还是自主研发内部专用版本,都应充分评估实际业务需求后再做决定。考虑到成本效益比及长期维护便利性等因素,有时采用已验证有效的现有框架可能是更明智的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值