总结：编写Hive UDF自定义函数（通过IP地址查询所属省份地市和运营商）

最新推荐文章于 2023-03-08 05:27:44 发布

原创最新推荐文章于 2023-03-08 05:27:44 发布 · 3k 阅读

1 ·

CC 4.0 BY-SA版权

实习专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何将点分十进制IP地址转换为长数字类型，解决HiveServer2连接问题，以及如何将数组高效转换为List。涵盖了IP地址处理技巧、Hadoop与Hive配置调整及Java集合操作。

文件记录字段包括：起始IP（Start_ip），结束IP（End_ip），运营商（IDC），省份（Province），地市（City）

1. 将输入的点分十进制IP地址转换成长数字类型

IP地址是一个32位的二进制数，将它划分为4个字节，每个字节是8位，因此每个字节所能表示的最大数字是2^8=255(从0开始)

public static long ip2long(String ip) {
	if (ip.matches("\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}")) {
		String[] ips = ip.split("[.]");
		long ipNum = 0L;
		if (ips == null)
			return 0L;
		for (int i = 0; i < ips.length; i++)
			ipNum = ipNum << 8 | Long.parseLong(ips[i]);
		return ipNum;
	}
	return 0L;
}

按位或运算符" | "运算的规则是将两个数字的二进制数按右边对齐，进行或运算，有1为1，全0为0，例如

1110 1011 0011 1000 
1001 0110 0010 1010
1111 1111 0011 1010  <--或运算之后的结果

ipNum << 8表示二进制数ipNUm向左移8位，用十进制表达式表示就是十进制数ipNum * 2^8。
通过位运算符" | "将左移8位后的二进制数ipNum与通过每个点切割的ip字段进行按位或运算。
将IP地址比如10.1.12.110转化成长数字的过程：for循环，10左移8位循环三次，1左移8位循环两次，12左移8位循环1次，110后计算完毕。
因此结果可以用10*256*256*256 + 1*256*256 + 12*256 + 110表示，所得到的结果即为转换后的长数字类型的IP地址。

2.HiveServer2连接问题(User: root is not allowed to impersonate anonymous (state=08S01,code=0))

进入Hadoop/etc/目录，修改core-site.xml配置文件，添加如下代码：

<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.[Hadoop用户名].hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.[Hadoop用户名].groups</name>
    <value>*</value>
</property>

进入Hive/conf目录，修改hive-site.xml配置文件，找到如下代码，将ip改成自己的：

<property>
	<name>hive.server2.thrift.port</name>
	<value>10000</value>
</property>
<property>
	<name>hive.server2.thrift.bind.host</name>
	<value>[改成你自己的ip]</value>
</property>

3. 将数组转换成List

代码如下：

List<String> list = new ArrayList<String>();
Collections.addAll(list, strArray);

通过Collections集合工具类的addAll()方法，将数组中的元素转换成二进制数据，然后添加到List中，非常高效。适合在对数组转换成List后还需要进行增删改操作的场景下使用。

4. 常用指令操作

添加记录(Hive)

load data local inpath '[文件路径]' [overwrite] into table [表名];

“overwrite表示覆盖之前所有记录，不加则为追加的方式添加“

添加Jar包(Hive)

add jar '[jar包存放路径]'；
create temporary function [自定义函数名] as '[完整的Java包名和类名]';
add jar '/home/zhangsan/xxx.jar';
create temporary function xxx as 'com.xxx.xxx.类名';