Hive UDF字符串匹配函数

本文介绍了一个在Hive中自定义的UDF(User Defined Function)MatchString,用于实现细粒度和粗粒度字符串的匹配。通过添加特定的Spark-Hive依赖,打包成jar文件并上传到Hive,创建临时函数,最终实现以逗号分隔的交集字符串。示例中展示了如何使用该UDF处理'上交所_未上市_网下_短期融资券'和'已上市,未上市,网上,网下,流通,受限,非公开,增发,配股,申购'这两个字符串的匹配结果。" 132749733,19673215,MATLAB实现雷达波位编排及信号处理,"['雷达技术', '算法', 'MATLAB', '信号分析']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、需求

用逗号分隔的细粒度子串(match_str )与粗粒度字符串(source_str)匹配,如果粗粒度子串和细粒度子串的交集,交集按照中文排序,形成以逗号分隔的字符串返回

2、UDF函数:MatchString 

pom.xml添加依赖如下:

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>1.2.1</version>
        </dependency>

import org.apache.hadoop.hive.ql.exec.UDF;

import java.util.ArrayList;
import java.util.Collections;

public class StringMatch extends UDF {
    public String evaluate(String sourceStr, String matchStr){
        // 先用逗号分隔
        String[] list = matchStr.split(",");
        ArrayList<String> array = new ArrayList<String>();
        StringBuffer buf = new StringBuffer();
        for(String str: list){
            // 如果粗粒度字符串包含细粒度分隔的子串,则数组添加子串
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值