HiveQL函数7—数据脱敏函数（Data Masking）

最新推荐文章于 2025-09-17 14:14:20 发布

原创最新推荐文章于 2025-09-17 14:14:20 发布 · 5.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#hive

Hive 专栏收录该内容

35 篇文章

订阅专栏

本文详细介绍了Hive中的数据掩码函数，包括mask、mask_first_n、mask_last_n、mask_show_first_n、mask_show_last_n和mask_hash。这些函数用于保护敏感数据，通过替换特定字符来实现数据的匿名化处理，同时提供了示例说明如何使用这些函数。

1.mask(string str[, string upper[, string lower[, string number]]])

返回值：string
功能：返回str的masked版本（从Hive 2.1.0开始）。默认，大写字母转换为“X”，小写字母转换为“x”，数字转换为“n”。例如，mask(“abcd-EFGH-8765-4321”)将生成xxxx-XXXX-nnnn-nnnn 。可以通过提供其他参数来重写掩码中使用的字符：第二个参数控制大写字母的掩码字符、第三个参数控制小写字母的掩码字符，第四个参数控制数字的掩码字符。
示例：

> select mask("abcd-EFGH-8765-4321") as f1;
+----------------------+
|          f1          |
+----------------------+
| xxxx-XXXX-nnnn-nnnn   |
+----------------------+

> select mask("abcd-EFGH-8765-4321", "U", "o", "#") as f1;
+----------------------+
|          f1          |
+----------------------+
| oooo-UUUU-####-####  |
+----------------------+

2.mask_first_n(string str[, int n])

返回值：string
功能：对str的前n个字符进行掩码操作并返回（从Hive 2.1.0开始）。大写字母转换为“X”，小写字母转换为“x”，数字转换为“n”
示例：

> select mask_first_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| nnnn-5678-8765-4321  |
+----------------------+

3.mask_last_n(string str[, int n])

返回值：string
功能：与mask_first_n正好相反，对str的后n个字符进行掩码操作并返回（从Hive 2.1.0开始）。大写字母转换为“X”，小写字母转换为“x”，数字转换为“n”。
示例：

> select mask_last_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| 1234-5678-8765-nnnn  |
+----------------------+

4.mask_show_first_n(string str[, int n])

返回值：string
功能：对str的除前n个字符以外的其余字符进行掩码操作并返回（从Hive 2.1.0开始）。大写字母转换为“X”，小写字母转换为“x”，数字转换为“n”
示例：

> select mask_show_first_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| 1234-nnnn-nnnn-nnnn  |
+----------------------+

5.mask_show_last_n(string str[, int n])

返回值：string
功能：对str的除后n个字符以外的其余字符进行掩码操作并返回（从Hive 2.1.0开始）。大写字母转换为“X”，小写字母转换为“x”，数字转换为“n”
示例：

> select mask_show_last_n("1234-5678-8765-4321", 4) as f1;
+----------------------+
|          f1          |
+----------------------+
| nnnn-nnnn-nnnn-4321  |
+----------------------+

6.mask_hash(string|char|varchar str)

返回值：string
功能：对str进行hash操作并返回（从Hive 2.1.0开始）。散列是一致的，可用于跨表将masked值连接在一起。对于非string类型的值，此函数返回null。
示例：

> select mask_hash("1234") as f1;
+----------------------------------------------------+
|                         f1                         |
+----------------------------------------------------+
| 03ac674216f3e15c761ee1a5e255f067953623c8b388b4459e13f978d7c846f4 |
+----------------------------------------------------+

> select mask_hash(1234) as f1;
+-------+
|  f1   |
+-------+
| NULL  |
+-------+