技术背景介绍
老铁们,今天我们来聊聊 Oracle AI Vector Search,这个神器是为AI工作负载设计的,可以让你基于语义来查询数据,而不是传统的关键词匹配。它最大的魅力在于能够将非结构化数据的语义搜索与业务数据的关系搜索结合到一个系统里。这波操作可以说是相当丝滑,不仅强大,还省去了在多个系统间数据碎片化的麻烦。
在这套系统里,你可以把向量与 Oracle 数据库的一些强大功能结合,比如分区支持、RAC扩展性、Exadata智能扫描,等等。我们都知道,开发过程中的痛点在于数据安全和灾难恢复,这些 Oracle 统统帮你搞定。
初学 Oracle 数据库的建议
如果你刚接触 Oracle 数据库,建议从免费的 Oracle 23 AI 入手,它将为你设置数据库环境提供一个很好的开始。还要注意,最好不要默认使用系统用户,而是创建自己的用户以加强安全性。我先前踩过这个坑,现在分享下经验。
原理深度解析
Oracle AI Vector Search 支持多种向量指数,例如 HNSW 和 IVF,并提供不同的距离策略来分类你的数据。说白了就是通过语义和距离计算来提升搜索效果。以下是几种策略的介绍:
- DOT_PRODUCT:点积策略,适合相似度较高的数据。
- COSINE:余弦策略,常用来计算两个非零向量之间的夹角余弦。
- EUCLIDEAN_DISTANCE:欧几里得距离策略,适合处理几何距离。
实战代码演示
安装前置条件
首先得安装 langchain-community
和 oracledb
,分别用于语言链社区和 Oracle 数据库的 Python 客户端:
pip install -qU langchain-community
pip install oracledb
连接到 Oracle AI Vector Search
下面是一段 Python 代码,演示如何连接到 Oracle 数据库:
import oracledb
username = "username"
password = "password"
dsn = "ipaddress:port/orclpdb1"
try:
connection = oracledb.connect(user=username, password=password, dsn=dsn)
print("Connection successful!")
except Exception as e:
print("Connection failed!")
向量存储初始化
使用不同的距离策略创建向量存储(Vector Stores),并进行文档的加载:
from langchain_community.vectorstores import oraclevs
from langchain_huggingface import HuggingFaceEmbeddings
# 创建 Langchain 文档对象
documents_langchain = [
# 这里是文档加载代码,略去详细内容
]
# 使用各种距离策略创建向量存储
model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
vector_store_dot = OracleVS.from_documents(
documents_langchain,
model,
client=connection,
table_name="Documents_DOT",
distance_strategy=DistanceStrategy.DOT_PRODUCT,
)
# 其他向量存储创建略去...
优化建议分享
在创建搜索索引时,选择合适的参数能够显著提升搜索性能和准确度:
oraclevs.create_index(
connection,
vector_store_dot,
params={"idx_name": "hnsw_idx1", "idx_type": "HNSW"},
)
# 其他索引创建略去...
补充说明和总结
Oracle AI Vector Search 提供了一套强大的工具来处理现代 AI 工作负载,结合 Oracle 数据库的多种特性,这一套工具对于开发人员来说是非常有价值的。关于更多实战的细节,我强烈建议参考 Oracle AI Vector Search 终端到终端演示指南。
今天的技术分享就到这里,希望对大家有帮助。开发过程中遇到问题也可以在评论区交流~
—END—