Sphinx & Coreseek

最新推荐文章于 2024-06-22 07:30:00 发布

樱花树下残耳狐

最新推荐文章于 2024-06-22 07:30:00 发布

阅读量267

点赞数

分类专栏：为了offer 文章标签： Sphinx

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39642747/article/details/83006957

版权

为了offer 专栏收录该内容

4 篇文章

订阅专栏

本文探讨了在大量文本数据中进行高效单词匹配查询的挑战，特别是在中文环境下。介绍了Sphinx的传统英文分词技术局限及Coreseek作为中文全文检索解决方案的优势。Coreseek基于Sphinx研发，专攻中文搜索和信息处理，适用于多种应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sphinx

使用背景

当对大文本对数据进行单词匹配查询时，如：有一个歌曲网站，数据库中收集着上百万首歌曲的信息，如果要查询出歌词中带“爱情”带所有歌曲，典型的做法是执行如下SQL语句。

select * from songs where content like "%爱情%".

但是在mysql中以%开头的查询无法使用所有，所以这条sql语句将执行权标扫描，性能极差。MylSAM引擎中的全文所有是专门对文本创建索引对，但对中文对支持不好。

好的解决方案，使用sphinx!

传统的sphinx技术

英文：1. today is mondy,the wearther is ranning.

2. tomorrow is tuesday, the wearther is sunning

把整个文档按照空格进行分词，去掉一些修饰词，形成以下词组:

today monday weather ranning tomorrow sunning

中文没法进行分词

说明 sphinx 分词技术只有针对英文不支持中文

Coreseek

第一步对于数据源建立索引

第二步执行查询返回查询到单词所在，mysql里面记录的id

php要把查询的单词给sphinx软件，软件拿到要查询的单词后，从索引里面进行匹配该单词在mysql表里面记录的id

php拿到单词所在的额id后，根据该id去mysql里面查找数据

什么是Coreseek

Coreseek是一款中文全文检索/搜索软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索数据库搜索文档、文献检索信息检索数据挖掘等应用场景

下载 http://www.coreseek.com/ 地址(已经不能用啦！)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。