总结:编写Hive UDF自定义函数(通过IP地址查询所属省份地市和运营商)

本文介绍如何将点分十进制IP地址转换为长数字类型,解决HiveServer2连接问题,以及如何将数组高效转换为List。涵盖了IP地址处理技巧、Hadoop与Hive配置调整及Java集合操作。

文件记录字段包括:起始IP(Start_ip),结束IP(End_ip),运营商(IDC),省份(Province),地市(City)

1. 将输入的点分十进制IP地址转换成长数字类型

IP地址是一个32位的二进制数,将它划分为4个字节,每个字节是8位,因此每个字节所能表示的最大数字是2^8=255(从0开始)

public static long ip2long(String ip) {
	if (ip.matches("\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}")) {
		String[] ips = ip.split("[.]");
		long ipNum = 0L;
		if (ips == null)
			return 0L;
		for (int i = 0; i < ips.length; i++)
			ipNum = ipNum << 8 | Long.parseLong(ips[i]);
		return ipNum;
	}
	return 0L;
}

按位或运算符" | "运算的规则是将两个数字的二进制数按右边对齐,进行或运算,有1为1,全0为0,例如

1110 1011 0011 1000 
1001 0110 0010 1010
1111 1111 0011 1010  <--或运算之后的结果

ipNum << 8表示二进制数ipNUm向左移8位,用十进制表达式表示就是十进制数ipNum * 2^8
通过位运算符" | "将左移8位后的二进制数ipNum与通过每个点切割的ip字段进行按位或运算。
将IP地址比如10.1.12.110转化成长数字的过程:for循环,10左移8位循环三次,1左移8位循环两次,12左移8位循环1次,110后计算完毕。
因此结果可以用10*256*256*256 + 1*256*256 + 12*256 + 110表示,所得到的结果即为转换后的长数字类型的IP地址。

2.HiveServer2连接问题(User: root is not allowed to impersonate anonymous (state=08S01,code=0))
  1. 进入Hadoop/etc/目录,修改core-site.xml配置文件,添加如下代码:
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.[Hadoop用户名].hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.[Hadoop用户名].groups</name>
    <value>*</value>
</property>
  1. 进入Hive/conf目录,修改hive-site.xml配置文件,找到如下代码,将ip改成自己的:
<property>
	<name>hive.server2.thrift.port</name>
	<value>10000</value>
</property>
<property>
	<name>hive.server2.thrift.bind.host</name>
	<value>[改成你自己的ip]</value>
</property>
3. 将数组转换成List

代码如下:

List<String> list = new ArrayList<String>();
Collections.addAll(list, strArray);

通过Collections集合工具类的addAll()方法,将数组中的元素转换成二进制数据,然后添加到List中,非常高效。适合在对数组转换成List后还需要进行增删改操作的场景下使用。

4. 常用指令操作
  1. 添加记录(Hive)
load data local inpath '[文件路径]' [overwrite] into table [表名];

“overwrite表示覆盖之前所有记录,不加则为追加的方式添加“
  1. 添加Jar包(Hive)
add jar '[jar包存放路径]';
create temporary function [自定义函数名] as '[完整的Java包名和类名]';
add jar '/home/zhangsan/xxx.jar';
create temporary function xxx as 'com.xxx.xxx.类名';
### 如何在 Hive 中创建使用自定义 UDF 函数 #### 创建自定义 UDF 的步骤 1. **编写 UDF 类** 编写一个 Java 类来实现所需的逻辑。UDF 需要继承 `org.apache.hadoop.hive.ql.exec.UDF` 并重写 `evaluate()` 方法[^3]。例如: ```java package com.master.HiveUDF; import org.apache.hadoop.hive.ql.exec.UDF; public class MyUDF extends UDF { public String evaluate(String input) { if (input == null) { return null; } return input.toUpperCase(); } } ``` 2. **编译并打包为 JAR 文件** 将上述代码编译后打包成一个 `.jar` 文件,比如命名为 `HiveUDF-1.0.jar`。 3. **将 JAR 文件上传至 HDFS 或本地路径** 如果希望 UDF 是临时的,则可以将其放在本地文件系统中;如果需要永久化,则需上传到 HDFS 上[^3]。例如: ```bash hadoop fs -put HiveUDF-1.0.jar /path/to/hdfs/ ``` 4. **加载 JAR 文件** 使用 `ADD JAR` 命令将 JAR 文件引入到当前会话中。如果是本地路径: ```sql ADD JAR /local/path/to/HiveUDF-1.0.jar; ``` 若是 HDFS 路径: ```sql ADD JAR hdfs://namenode:port/path/to/HiveUDF-1.0.jar; ``` 5. **注册 UDF** 注册 UDF 可分为两种情况: - **临时函数**(仅限于当前会话有效): ```sql CREATE TEMPORARY FUNCTION myudf AS 'com.master.HiveUDF.MyUDF'; ``` - **永久函数**(跨会话可用,需指定 HDFS 路径): ```sql CREATE FUNCTION my_permanent_udf AS 'com.master.HiveUDF.MyUDF' USING JAR 'hdfs://namenode:port/path/to/HiveUDF-1.0.jar'; ``` 6. **使用 UDF** 在 SQL 查询中可以直接调用已注册的 UDF。例如: ```sql SELECT myudf(name) FROM t_user; ``` --- #### 示例:创建一个简单的字符串UDF 假设我们想创建一个 UDF 来将输入字符串为大写字母形式。 ##### 步骤 1:Java 实现 ```java package com.example.udfs; import org.apache.hadoop.hive.ql.exec.UDF; public class UpperCaseUDF extends UDF { public String evaluate(String str) { if (str == null) { return null; } return str.toUpperCase(); } } ``` ##### 步骤 2:编译与打包 将此代码保存为 `UpperCaseUDF.java`,然后通过 Maven 或其他工具编译生成 `example-udf.jar`。 ##### 步骤 3:加载 JAR 注册 UDF ```sql -- 加载 JAR 到 Hive 当前会话 ADD JAR /path/to/example-udf.jar; -- 注册临时 UDF CREATE TEMPORARY FUNCTION upper_case_func AS 'com.example.udfs.UpperCaseUDF'; -- 测试查询 SELECT upper_case_func('hive udf example') FROM some_table LIMIT 1; ``` --- #### 注意事项 - 自定义 UDF 必须提供 `evaluate()` 方法作为核心逻辑入口[^5]。 - 对于永久化的 UDF,JAR 文件必须存储在 HDFS 上,并且路径不可更改,否则可能导致无法找到依赖库的情况[^2]。 - 如果涉及复杂数据结构处理(如数组、Map),可能需要用到 GenericUDF 接口而非简单 UDF。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值