模糊查询(无序/有序匹配),并返回条数

该博客介绍了如何实现车牌号码的模糊匹配算法,使用了Apache Commons Text库中的LevenshteinDistance进行编辑距离计算,旨在提高车牌匹配的准确性和效率。在给定目标车牌和车牌集合后,能够返回最接近的目标车牌。
package com.util;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.IdentityHashMap;
import java.util.List;
import java.util.Set;

import org.apache.commons.text.similarity.LevenshteinDistance;
import org.apache.commons.text.similarity.SimilarityScore;
import org.apache.commons.text.similarity.SimilarityScoreFrom;

/**
 * 车牌模糊匹配
 * 
 * @author libaibai
 * @version 1.0 2019年5月24日
 */
public class PlateMatch {

	/**
	 * 
	 * @param target 目标车牌
	 * @param plateNums 车牌集合,set集合不允许重复
	 * @param size 返回条数
	 * @return
	 */
	public static List<String> match(String target, Set<String> plateNums, int size) {
		if (target == null || target.length() < 2 || plateNums == null || plateNums.isEmpty()) {
			return null;
		}

		// 匹配算法 0 顺序匹配 1无序Levenshtein
		SimilarityScore<Integer> similarityScore = null;
		// similarityScore = new HammingDistance();
		similarityScore = new LevenshteinDistance();

		SimilarityScoreFrom<Integer> similarityScoreFrom = new SimilarityScoreFrom<Integer>(similarityScore, target);

		// 可以重复key的map
		IdentityHashMap<String, String> map = new IdentityHashMap<String, String>();
		for (String plateNum : plateNums) {
			if (plateNum == null || plateNum.length() < 2)
				continue;

			// 不匹配的位数
			int distance = similarityScoreFrom.apply(plateNum);

			// 匹配度
			if (distance <= 4) {
				// plate = plateNum;
				map.put("" + distance, plateNum);
			}
		}
		Object[] key_arr = map.keySet().toArray();
		Arrays.sort(key_arr);
		List<String> relist = new ArrayList<String>();
		if (size > key_arr.length) {
			size = key_arr.length;
		}
		for (int i = 0; i < size; i++) {
			String value = (String) map.get(key_arr[i]);
			relist.add(value);
		}
		return relist;
	}

	// public static void main(String[] args) {
	// Set<String> str = new HashSet<String>();
	// str.add("a22aaa");
	// str.add("aaaaaa");
	// str.add("baaabb");
	// str.add("cccccc");
	// str.add("dddddd");
	// str.add("eeeeee");
	// str.add("ffffff");
	//
	// String target = "a2aaa";
	// System.out.println(PlateMatch.match(target, str, 9));
	// }
}

在搜索广告系统中,广告商希望他们的广告能够精准的展示给搜索关键词的用户,为了提高相关性,系统需要计算广告与搜索关键词之间的相关性得分,一个关键的相关性指标与keywords在广告标题是否出现及出现的位置权重有关,出现在越靠近标题开头的关键词权重越高。相关性得分计算规则1.计算匹配度分,如下是根据广告标题中关键词出现方式来计算匹配度分,规则如下:有序字序列:对于搜索关键词red shoes和广告标题buy red running shoes online 关键词red和shoes在广告标题中形成一个有序的子序列red shoes 匹配度得分为x1;无序子序列:对于搜索关键词shoes red和广告标题buy red running shoes online广告标题包括所有的red和shoes两个关键词,匹配度得分为x2;匹配关键词占比权重:k表示搜索关键单词个数,i表示搜索关键词中与广告标题中单词匹配个数,对于搜索关键词shoes red or black和广告标题buy red running shoesonline,搜索关键词的k=4,其中shoes和red匹配广告标题中的red和shoes,i=2,匹配度的氛围x3*i/k。除上述场景为其他匹配度分为X4.其中根据业务实际相关性标准Xi系数为【1.0,0.8,0.6,0】2.计算位置权重位置权重根据广告标题长度按照线性衰减函数计算,如长度为5的广告标题,位置权重为1.0,0.75,0.5,0.25,0;即sum(weight=1.0 -(pos/(ads_title_length-1))),pos代表单个关键词位置,从索引0开始;若存在多个关键词位置权重取求和;广告标题存在多个相同关键词,取第一个关键词索引权重,3计算相关性分数,相关性分数=匹配分*位置权重,保留四位小数向下取整,时间限制为2000ms,内存限制512mb,具体的输入:现有的广告标题和搜索的关键词列表,输入格式ad_title|keywords1|keywords2|keywords3|keywordsN,以|为分割首位为广告标题,其余为关键词列表,测试样例中均为英文单词或者字符,输入关键词数小于100;输出:每个关键词对应的相关行得分(得分个数等于关键词个数,即也小于100;保留四位小数,向下取整),中间用|分割,如1.0000|1.4000|0.0750样例:输入:buy red running shoes online!|red shoes|buy shoes running|shoes black|Phone 输出:1.0000|1.4000|0.0750|0.0000,样例2:输入:Advanced Camera:Caputure Life in Stunning Detail!Elevate Your Photography with Our Cutting-Edge Camera!|Cmaera|Camera Photography|digital phone|phone,输出:0.9231|1.2308|0.0000|0.0000修改代码,
最新发布
11-06
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

什么田

听说打赏的人都发财了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值