引言
近年来,向量搜索在信息检索领域中变得越来越重要。ManticoreSearch,这款开源搜索引擎,通过新增的向量搜索功能,正在引领这一领域的新潮流。本篇文章将探讨如何在你的项目中使用 ManticoreSearch 的向量搜索能力。
主要内容
什么是 ManticoreSearch?
ManticoreSearch 是一个基于 Sphinx Search 演进而来的开源搜索引擎。其特点在于高速、可扩展性和用户友好性。版本 6.2 引入的向量搜索功能更是一个巨大的提升,允许基于向量相似度的搜索。
为什么使用向量搜索?
向量搜索能够使我们的搜索更加智能和准确,特别是在处理自然语言处理(NLP)任务时。例如,通过向量表示,我们可以更好地理解文本之间的相似性。
环境设置
为了使用 ManticoreSearch 的向量搜索功能,我们需要启动 Docker 容器并安装 manticore-columnar-lib
包。以下是步骤:
import time
# 启动容器
containers = !docker ps --filter "name=langchain-manticoresearch-server" -q
if len(containers) == 0:
!docker run -d -p 9308:9308 --name langchain-manticoresearch-server manticoresearch/manticore:dev
time.sleep(20) # 等待容器启动
# 获取容器ID
container_id = containers[0]
# 以root用户安装manticore-columnar-lib包
!docker exec -it --user 0 {container_id} apt-get update
!docker exec -it --user 0 {container_id} apt-get install -y manticore-columnar-lib
# 重启容器
!docker restart {container_id}
使用 Python 客户端
安装 ManticoreSearch 的 Python 客户端以使用向量搜索功能:
%pip install --upgrade --quiet manticoresearch-dev
注意:你可能需要重启内核以使用更新的包。
代码示例
以下是使用 ManticoreSearch 进行向量搜索的完整示例:
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.embeddings import GPT4AllEmbeddings
from langchain_community.vectorstores import ManticoreSearch, ManticoreSearchSettings
from langchain_community.document_loaders import TextLoader
# 加载文档
loader = TextLoader("path/to/your/document.txt") # 请替换为你的文档路径
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 使用 GPT4All 来嵌入
embeddings = GPT4AllEmbeddings()
# 分配元数据
for d in docs:
d.metadata = {"some": "metadata"}
# 设置 ManticoreSearch
settings = ManticoreSearchSettings(table="manticoresearch_vector_search_example")
docsearch = ManticoreSearch.from_documents(docs, embeddings, config=settings)
# 执行相似度搜索
query = "Your query text here"
results = docsearch.similarity_search(query)
print(results)
常见问题和解决方案
-
Docker 容器无法启动?
- 确保 Docker 被正确安装和启动。
-
无法安装
manticore-columnar-lib
包?- 检查网络连接,必要时使用 VPN 或代理。
-
Python 包版本问题?
- 确保使用
manticoresearch-dev
客户端以便支持开发版功能。
- 确保使用
总结和进一步学习资源
ManticoreSearch 的向量搜索功能大大提高了搜索的准确性和智能性。通过本文,你可以初步体验这一强大的工具运用于实际项目中。对于更多信息,请参考官方文档和社区资源。
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—