中文字符串分割存入数组 中文字符串顺序匹配(字符串整体相似度) php<二>

本文介绍了一种中文字符串的顺序匹配方法,包括如何将中文字符串分割成数组及实现字符串相似度比较的函数。通过具体函数实现,帮助理解中文字符串处理的技术细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上篇贴了自己摸索的字符串顺序匹配方法 ,这里在介绍一下处理中文字符串:
将一个中文字符串分割存入数组(ps:公司领导教给我的,在这里拿出来分享了),再进行顺序匹配货的相似度

/**
 * 分割字符串到数组
 * @param $string 字符串
 * @param int $len 几个组合为一段,默认1
 * @return array
 */
function cnstr_excision($string, $len = 1)
{
    $start = 0;
    $strlen = mb_strlen($string);                                   //mb_strlen()将字符串中文当作长度1来测算(strlen在utf8模式下会把中文当作长度3)
    while ($strlen) {
        $array[] = mb_substr($string, $start, $len, "utf8");        //将字符串中的按照“中文字符”一个一个截取出来 放进数组
        $string = mb_substr($string, $len, $strlen, "utf8");        //保存上一步截取后剩余字符串
        $strlen = mb_strlen($string);                               //测算剩余字符串长度
    }
    return $array;
}

中文相似度

/**
 * 中文相似度
 * @param $str 被对比的字符串
 * @param $model 对比字符串
 * @return int 按顺序匹配字数返回数字
 */
function strmatch($str,$model){
    $i=0;
    $j=0;
    $num = 0;
    $result =array(0);                          //空数组预先存入一个0,防止max()报错
    while($i<sizeof($str)){                     //$model  (j)的第一个字符和$str  (i)从第一个字符挨个比对
                                                //如果相等,(1)$num++,两个字符串都移向后一位i++ j++,$num 存入数组 如果继续相等,继续(1if($str[$i]!=$model[$j]){               //如果不相等则$model 跳回第一个字符 j = 0 ,$str跳回 i+1-$num$num=0,继续比对
            $j=0;                               //如果  不相等  $model  j依旧等于0,一直停留在当前位置    $str  i++ 直至相等或者跳出循环

            $i+=1-$num;
            $num = 0;
        }else{
            $j++;
            $i++;
            $num++;
            $result[]=$num;
        }
        if ($num==sizeof($model)){              //如果$model已经100%相似了,则跳出循环
            break;
        }
    }
    return max($result);                         //返回$model$str顺序最大相似度
}

欢迎大家指正交流,谢谢

### 实现 Spring Boot 中的余弦相似度计算 要在 Spring Boot 项目中实现或使用余弦相似度计算,可以通过 Redis 向量数据库的支持来完成。以下是具体的说明: #### 集成 Redis 并配置向量索引 为了支持向量数据存储以及相似性搜索功能,可以利用 Redis 的模块 `RedisJSON` 和 `RediSearch` 来创建向量字段并定义其维度和距离度量方式(如余弦相似度)。通过设置参数 `DISTANCE_METRIC COSINE` 可指定采用余弦相似度作为衡量标准[^1]。 ```java @Configuration public class RedisConfig { @Bean public LettuceConnectionFactory redisConnectionFactory() { return new LettuceConnectionFactory(); } @Bean public StringRedisTemplate stringRedisTemplate(LettuceConnectionFactory connectionFactory) { return new StringRedisTemplate(connectionFactory); } } ``` 上述代码片段展示了如何在 Spring Boot 应用程序中初始化 Redis 连接工厂,并绑定到模板类以便后续操作。 #### 数据建模与插入 当准备好了基础环境之后,则需设计好待存入的数据结构形式及其对应的键名空间规划;接着按照官方文档指引编写命令脚本或者调用 API 方法将目标对象序列化后上传至服务器端保存起来的同时为其附加必要的元属性标签用于辅助检索过滤条件匹配过程。 例如下面这个例子演示了怎样把一条记录连同它所关联的一个高维特征表示一起写入数据库当中去: ```java @Service public class VectorService { private final StringRedisTemplate template; public VectorService(StringRedisTemplate template){ this.template = template; } public void saveVectorData(String id, double[] vector){ Map<String,Object> dataMap=new HashMap<>(); dataMap.put("id",id); // 将浮点数组转换为字符串列表形式适合 JSON 存储格式要求 List<Double> vecList=Arrays.stream(vector).boxed().collect(Collectors.toList()); dataMap.put("vector",vecList); template.opsForValue().set(id,new JSONObject(dataMap).toString()); // 假设已经预先设置了FT.CREATE index_name ON JSON SCHEMA $.vector AS VECTOR FLAT DIMENSION d TYPE FLOAT DISTANCE_METRIC cosine template.execute((RedisCallback<Void>)connection->{ connection.sendCommand(Command.HSET,id.getBytes(),new byte[][]{":vector".getBytes()},SerializationUtils.serialize(vecList)); return null; }); } } ``` 这里需要注意的是实际部署运行前还需要额外执行一次建立全文搜索引擎索引的动作以激活矢量查询能力。 #### 查询逻辑构建 最后一步就是开发应用程序接口供外部调用来发起基于内容推荐请求时能够高效准确地返回最相近的结果集项们啦! 下面给出了一种可能版本的样子仅供参考学习之用而已哦~ ```java @RestController @RequestMapping("/api/recommendations") public class RecommendationController { private final StringRedisTemplate template; public RecommendationController(StringRedisTemplate template){ this.template=template; } @GetMapping("/{itemId}") public ResponseEntity<List<Map.Entry<String,Double>>> getRecommendations(@PathVariable String itemId,@RequestParam(defaultValue="5") int topK){ Optional<byte[]> optItemVecBytes=Optional.ofNullable(template.getConnectionFactory() .getConnection() .stringCommands() .get((itemId+":vector").getBytes())); if(!optItemVecBytes.isPresent())return ResponseEntity.notFound().build(); List<Double> itemVec=(List<Double>)SerializationUtils.deserialize(optItemVecBytes.get()); Set<Tuple> results=template.opsForGeo().search( GeoReference.fromCoordinate(new DefaultPoint(itemVec.subList(0,itemVec.size()/2),itemVec.subList(itemVec.size()/2,itemVec.size()))), new Circle(new Point(0d,0d),Distance.ZERO), Limit.limit(topK)) .stream() .map(tup -> Maps.immutableEntry(tup.getKey(), tup.getScore())) .collect(Collectors.toSet()); return ResponseEntity.ok(new ArrayList<>(results)); } } ``` 以上仅作为一个简化版示意案例分享给大家了解思路方法途径而已,在真实生产环境中还需考虑更多细节因素比如性能优化等方面的工作呢!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值