生产环境部署 Jina AI 搜索底座模型的实战指南

最新推荐文章于 2025-10-07 04:53:52 发布

原创

最新推荐文章于 2025-10-07 04:53:52 发布 · 3.1k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#jina #人工智能

想要打造更好的搜索体验？选择合适的部署方案是关键。Jina AI 针对不同业务场景，提供了多种模型接入方式。

本文将详细介绍各种部署方案，分析它们的优缺点，并结合实际业务场景，给出更实用的最佳实践建议，帮你快速找到最合适的方案。

Jina 搜索底座模型概览

我们的搜索底座模型(Jina AI Search Foundation Models)包括：

Embedding 模型：通过向量空间映射，将数字对象转化为蕴含语义特征的向量表示
Reranker 模型：通过深入的语义分析，优化搜索结果的相关性排序。
小型语言模型（Small Language Models, SLM）：例如针对 HTML 转 Markdown、信息提取等特定场景的 ReaderLM-v2。

本文将以 jina-embeddings-v3 为例，重点介绍以下三种部署方案：

直接通过 Jina API 调用

🔗: https://jina.ai/api-dashboard

基于 AWS SageMaker 等云平台部署

🔗: https://aws.amazon.com/marketplace/pp/prodview-kdi3xkt62lo32

通过商业授权，在 Kubernetes 集群中进行自主托管

接下来，我们将从功能与成本两个方面，全面对比这三个方案，希望能为你在技术选型时提供参考。

核心评估指标

针对不同的部署场景，我们设定了五项关键性能指标：

请求成功率：服务器成功响应请求的比例。
响应延迟：从发送请求到获取结果所花费的总时间。
Token 吞吐量：每秒处理的 token 数量
Token 成本：单个 token 的处理成本

对于 Kubernetes 自托管方案，我们重点考察 动态批处理机制 的影响。该机制通过累积请求，直至达到最大处理量(比如jina-embeddings-v3 最大支持 8192 个 Token)，从而提高计算效率。

本次评估暂不包括以下因素：

弹性伸缩：其效果受到硬件配置、网络架构等多因素的影响，需要单独评估（注：Jina API 已经内置了自动伸缩）。
量化压缩：它主要用于存储和计算，与模型直接使用成本关联不大。

最后，我们将综合总拥有成本（TCO）和单次请求费用，进行全面的成本分析。

部署配置说明

我们对 jina-embeddings-v3 的三种部署方式进行了实际测试：

方案 1：Jina API 直连

通过 Jina API 可以直接调用所有 Embedding 模型，采用预付费模式，并赠送了百万 Token 的测试额度。性能测试基于德国节点，通过公网发起 API 调用。

方案 2：AWS SageMaker 部署

用户可以通过 AWS Marketplace 订阅部署服务，我们提供了实战指南供你参考。

🔗: https://github.com/jina-ai/jina-sagemaker/blob/main/notebooks/Real-time%20embedding.ipynb

测试环境选择了美东 1 区的 ml.g5.xlarge 实例，另外，我们的模型也在 Microsoft Azure 和 Google Cloud Platform 上线了，在这些云平台上模型的表现是近似的。

方案 3：Kubernetes 自托管

【说明】：商业授权需要联系销售团队获取: https://jina.ai/api-dashboard/license-config

我们构建了一个基于 FastAPI 的服务应用，通过 HuggingFace 加载模型，并将其部署在 Amazon EKS 集群中，使用同区域同规格的 g5.xlarge 实例。该服务提供两个接口：

/embed：文本向量化处理。
/health：服务健康监测。

我们将其作为 Kubernetes 服务部署在 Amazon 的 Elastic Kubernetes Service 上，使用 us-east-1

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。