在spark中通过UDF转字符串ip

最新推荐文章于 2024-09-23 11:11:25 发布

原创最新推荐文章于 2024-09-23 11:11:25 发布 · 533 阅读

0 ·

CC 4.0 BY-SA版权

spark 同时被 2 个专栏收录

5 篇文章

订阅专栏

scala

3 篇文章

订阅专栏

本文介绍如何在Spark中将字符串类型的IP地址转换为长整型IP，通过正则表达式验证IP格式，然后将每个部分转换为长整型并左移位运算，实现IP地址的有效转化。

今天在spark中需要将字符型(String)的ip转化为长整型（long）的ip，参考了两篇文章https://blog.youkuaiyun.com/cjuexuan/article/details/54912215和https://blog.youkuaiyun.com/key_xyes/article/details/79818196，通过这两篇文章的抽取出思路。于是封装成UDF函数，如下：

sqlContext.udf.register("Ip2Long",(ip:String)=>{
      ip match {
        case i if i.matches("""^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$""")=>{
          var ip_long = 0l
          var parts = i.toString.trim.split(Pattern.quote("."))
          for(i <- parts.length to 1 by -1) {
            ip_long = ip_long << 8
            ip_long |= parts(i - 1).toLong
          }
          ip_long
        }
        case _=>0
      }
    })

这样，我就可以在sql中使用我自定义的函数了。

var df = spark.sql("select ip, Ip2Long(ip), region from mytable").toDF("ipStr", "ipInt", "region")

在此作为小标记，以示记忆。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

&捕风的汉子&

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Spark版本更新]--Spark-2.3.1发布说明

欢迎来到我的博客，一起探索代码里的世界！

07-03

1643

2018-09-08 Apache Spark 官方发布了Spark 2.3 的小版本--2.3.1，Release Notes 如下： Sub-task [ SPARK-23706 ] - spark.conf.get（value，default = None）应该在PySpark中产生None [ SPARK-23748 ] - 支持从临时表中选择 [ SPARK-23942 ] - ...

大数据学习之路89-sparkSQL自定义函数计算ip归属地

爱米酱的博客

10-09

383

使用sparkSQL当遇到业务逻辑相关的时候，就有可能会搞不定。因为业务l逻辑需要写很多代码，调用很多接口。这个时候sql就搞不定了。那么这个时候我们就会想能不能将业务逻辑嵌入到sql中？这种就类似于我们在hive中使用过的自定义函数UDF(user define function用户自定义函数) 那么用户自定义函数有几种呢有三种：第一种就是UDF 1 - 1 (输入一行得到一个结...

参与评论您还未登录，请先登录后发表或查看评论

将ip地址转换成C段地址的UDF

weixin_34235105的博客

12-09

590

将ip地址转换成C段地址的UDF，最重要的是判断IP地址的正则表达式。 package cn.cnnic.ops.Study; import java.util.regex.Pattern; import org.apache.hadoop.hive.ql.exec.UDF; import cn.cnnic.ops.util.Constants; /** *...

spark-sql使用UDF函数实现ip映射省份，数据写出到mysql参数设置。

自由幻想的博客

01-31

1711

spark-SQL使用广播变量以及应用数据库的UDF自定义函数的查询会比两张表的连接更加的优化的程序的执行。两表连接是比较费效率的。 spar-sql 2.x的数据读取，处理，添加schema信息，常见表，SQL查询。将sql结果输出到mysql的api参数设置。还可以创建时设置参数： val conf = new SparkConf() .set("spark.

利用反射，从字符串生成一个UDF，并注册到sparksql、

guodongtanghe的专栏

06-25

316

import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions.{col, split, udf} import scala.reflect.runtime._ import scala.tools.reflect.ToolBox object Test0625 { def main(args: Array[String]): Unit = { val spark = SparkSession.bu.

编写UDF转换IP为Long类型数字

qq406881161的博客

05-26

345

编写UDF转换IP为Long类型数字前言 hive数据库对比较ip的大小，一般保存ip为字符串，字符串比较默认字典顺序，比如192.168.1.65和192.168.1.123比较，得出结果为192.168.1.65大，不符合我们的预期，所以编写udf先转换为long类型的数字然后再比较。一、java代码如下 package com.ola; import org.apache.hadoop.hive.ql.exec.UDF; public class MyUdfTpToLong extends

spark的时间戳转换和字符串替换

weixin_34405925的博客

03-17

2911

1.由于之前比较熟悉hive，于是用spark.sql写，其中包含hive的一些函数，如 unix_timestamp(regexp_replace(time, '[\\x2b]', ' '))是把表中的time里的'+'换成‘ ’，然后再换成时间戳的形式，但是原来的hql的写法执行时数据没有实现转换，hive为： val df1 = spark.sql(s"select distinc...

Spark SQL中的字符串处理函数及最佳实践

本章将介绍Spark SQL中常见的字符串处理函数，并探讨它们在数据处理中的重要性。 ### 1.1 字符串处理函数的作用 字符串处理函数用于对文本类型的数据进行各种操作和处理，能够满足不同的需求。它们可以用于数据...

Spark SQL的自定义函数UDF

xiaohu21的博客

10-06

3724

Spark SQL的自定义函数UDF 1. 背景在SQL使用时，会有内置函数，但如果业务比较复杂，但又希望可以有更加灵活的函数使用和复用，则需要自定义 UDF，就是user defined function，可以分为UDTF、UDAF UDTF，user defined table-generating function，就是将数据打散 UDAF，user defined aggregating function，就是将数据聚合。 2. 创建和使用UDF 下述会使用案例来展示如何使用自定义函数 2.1

Spark SQL UDF使用

OopsOutOfMemory盛利的博客

09-19

1万+

spark sql udf编写及使用

【大数据】UDF技术浅析

最新发布

wnm23的专栏

09-23

2401

用户定义函数（User Defined Function, UDF）是一种扩展数据库或数据处理系统功能的机制。通过定义自己的函数，用户可以在传统的查询功能之外实现更加复杂的数据处理逻辑。UDF被广泛用于数据分析、数据处理、数据清洗等场景。

spark_广播变量&Long类型转换

qq_37998450的博客

11-06

368

spark中ip地址的案例–广播变量&Long类型转换广播变量 Long类型转换

Spark1.6 SQL下的UDF--SplitCount(切分字符串并计算数组长度)

叶小刀

10-26

3091

UDF(用户自定义函数)：将自己写的函数加入到用户会话，和内置函数一样使用注意本案例适合spark1.X版的，spark2.x的版本不适用。 ===================================================================================== package com.victor.spark.sqlUDF im...

使用函数将数字转化成字符串

wen__dao的博客

04-25

1570

编写函数将整数k变换为一个字母串，规则如下：设0对应A，1对应B，......，25对应Z。从左向右考察k的各位数字，若连续两位对应上面一种变换，则直接换掉两位数字，否则一位数字换成对应的字母。变换结果存入res反馈给调用者。函数原型为：在主函数输入一些非负整数，最后输入-1代表结束，利用上面函数对每个数字变换后输出。示例输入：(数字间空一格)示例输出：(每个字符串后面空一格)M DJZ A。

Spark String类型的IP地址转化为Long类型

LINBE_blazers的博客

10-07

1262

在做大数据分析中，往往收集到的数据IP地址为xxx.xxx.xxx.xxx类型，为方便做数据统计、分析，需要将IP地址转化为Long类型的值，以下为scala语言编写的Spark程序： def ip2Long(ip: String): Long = { //将IP地址转为Long，这里有固定的算法 val ips:Array[String] = ip.split("\\."...

使用spark-sql udf时产生的类型转换的问题

hanxiaohei99的博客

05-05

963

报错：scala.collection.mutable.WrappedArray$ofRef cannot be cast to [[Ljava.lang.String; 程序：完成转化数组<数组>元素的去重合并变为数组<String> 报错代码： def arrayMerge(valueLists: Array[Array[String]]): Array[S...

15_09_17 String 类型转换为 Long 类型

牧渔的博客

09-17

435

在String类型转换为Long类型,初学需注意: z 在这个String类型里,由于字符串里包含连接符(+),造成转换出错 字符串里必须匹配想转换的(Long)类型,不能包含符号,字母

String与Long互转转换

Java&Develop的博客

03-18

2832

String与Long互转转换

string和long转换