Jina Classifier API:高性能的零样本和小样本分类器

ae703f7dd146c95292145018a8500f0b.png

分类是向量模型的常见下游应用。文本向量模型可以用来识别垃圾邮件或进行情感分析。对于多模态向量模型,比如 jina-clip-v1,可以被用于基于内容的筛选和标签标注等任务。最近,向量模型还充当了大模型路由器(LLM router)的角色,根据任务的复杂性和成本选择合适的模型:将简单的算术问题分配给小模型,将复杂的推理任务交由更强大的大模型。

今天,我们 Jina AI 搜索底座推出了一款高性能分类器:Classifier API,专为处理多模态和多语言数据而设计,支持零样本和小样本分类。

它基于我们最新的向量模型 jina-embeddings-v3jina-clip-v1,并采用了在线被动攻击学习算法(Online Passive-Aggressive Learning),能够实时适应新数据,并以较少的人工干预实现高精度分类。

使用 Classifier API,用户可以首先利用零样本分类器直接启动分类任务。之后,用户可以通过提交少量新样本或在数据分布发生偏移时逐步更新分类器,以很低的成本持续提升分类性能。

此外,Classifier API 还支持用户将自己训练好的分类器设置为公开,促进分类器资源的共享和复用。随着 Jina AI 不断推出新的向量模型,比如即将推出的多语言 jina-clip-v2,我们会确保用户始终能够使用最先进的分类技术。

产品链接:https://jina.ai/classifier

零样本分类:无需训练,开箱即用

Classifier API 提供了强大的零样本分类功能,你不用提前准备任何训练数据,可以直接拿它来对文本或者图片进行分类。

每个分类器一开始都是零样本分类器,以后可以根据需要添加训练数据,变成一个小样本分类器,我们后面会详细说明。

示例 1:大模型路由器

下面这个例子展示了如何用 Classifier API 来做大模型请求的路由器:

curl https://api.jina.ai/v1/classify \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY_HERE" \
  -d '{
    "model": "jina-embeddings-v3",
    "labels": [
      "简单任务",
      "复杂推理",
      "创造性写作"
    ],
    "input": [
      "计算本金 $10,000 投资 5 年,年利率 5%,按季度复利的复利利息。",
      "分析使用 CRISPR 基因编辑技术在人类胚胎中的伦理影响。考虑潜在的医疗益处和长期社会后果。",
      "请写一篇以 AI 拥有自我意识的反乌托邦未来为背景的短篇小说,探索人与 AI 的关系以及意识的本质。",
      "请解释归并排序和快速排序算法在时间复杂度、空间复杂度及实际性能上的区别。",
      "写一首关于自然美和其对人类灵魂疗愈力量的诗。",
      "将以下句子翻译成法语:The quick brown fox jumps over the lazy dog."
    ]
  }'

这个例子展示了如何用 jina-embeddings-v3 把用户的查询(包括英语、中文、日语和德语)分到三个类别里,这三个类别分别对应三种不同规模的大语言模型。

API 返回的结果格式如下:

{
  "usage": {"total_tokens": 256, "prompt_tokens": 256},
  "data": [
    {"object": "classification", "index": 0, "prediction": "简单任务", "score": 0.35216382145881653},
    {"object": "classification", "index": 1, "prediction": "复杂推理", "score": 0.34310275316238403},
    {"object": "classification", "index": 2, "prediction": "创造性写作", "score": 0.3487184941768646},
    {"object": "classification", "index": 3, "prediction": "复杂推理", "score": 0.3520770967
关于 Jina API 的相关信息使用方法,以下是详细的说明: ### Jina API 基础概述 Jina 是一种用于构建端到端搜索引擎的开源框架。它支持多模态数据处理以及分布式架构设计[^2]。通过其灵活的设计模式,开发者可以轻松实现复杂的搜索功能。 #### 安装 Jina 要安装 Jina,可以通过 Python 的包管理工具 pip 来完成: ```bash pip install jina ``` #### 创建简单的 Flow Flow 是 Jina 中的核心概念之一,表示整个系统的执行流程。下面是一个创建简单 Flow 并启动服务的例子: ```python from jina import Flow, Document f = Flow().add(uses='jinahub+schemas://SimpleIndexer') # 添加索引器 Pod with f: doc = Document(text="hello world") # 构建文档对象 response = f.post(on='/index', inputs=doc) # 发送请求至 Flow ``` 上述代码展示了如何定义一个基本的 Flow 结构并发送索引请求给该 Flow[^3]。 #### 使用 RESTful 接口访问 Jina 应用程序 如果希望基于 HTTP 协议调用远程部署的服务,则可启用 `--protocol http` 参数来运行应用实例。例如: ```bash jina pod --name gateway --port-expose 8080 --protocol http ... ``` 此时客户端可通过标准 RestAPI 方式提交查询任务[^4]。 --- ### 高级特性介绍 除了基础操作外,Jina 还提供了许多高级选项供用户探索,比如自定义 Executor 实现特定逻辑、配置 YAML 文件简化复杂设置等[^5]。 对于存储设备挂载命令部分提到的内容并不属于 Jina 范畴而是 Linux 下磁盘分区与文件系统相关内容[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值