分类是向量模型的常见下游应用。文本向量模型可以用来识别垃圾邮件或进行情感分析。对于多模态向量模型,比如 jina-clip-v1
,可以被用于基于内容的筛选和标签标注等任务。最近,向量模型还充当了大模型路由器(LLM router)的角色,根据任务的复杂性和成本选择合适的模型:将简单的算术问题分配给小模型,将复杂的推理任务交由更强大的大模型。
今天,我们 Jina AI 搜索底座推出了一款高性能分类器:Classifier API,专为处理多模态和多语言数据而设计,支持零样本和小样本分类。
它基于我们最新的向量模型 jina-embeddings-v3
和 jina-clip-v1
,并采用了在线被动攻击学习算法(Online Passive-Aggressive Learning),能够实时适应新数据,并以较少的人工干预实现高精度分类。
使用 Classifier API,用户可以首先利用零样本分类器直接启动分类任务。之后,用户可以通过提交少量新样本或在数据分布发生偏移时逐步更新分类器,以很低的成本持续提升分类性能。
此外,Classifier API 还支持用户将自己训练好的分类器设置为公开,促进分类器资源的共享和复用。随着 Jina AI 不断推出新的向量模型,比如即将推出的多语言 jina-clip-v2
,我们会确保用户始终能够使用最先进的分类技术。
产品链接:https://jina.ai/classifier
零样本分类:无需训练,开箱即用
Classifier API 提供了强大的零样本分类功能,你不用提前准备任何训练数据,可以直接拿它来对文本或者图片进行分类。
每个分类器一开始都是零样本分类器,以后可以根据需要添加训练数据,变成一个小样本分类器,我们后面会详细说明。
示例 1:大模型路由器
下面这个例子展示了如何用 Classifier API 来做大模型请求的路由器:
curl https://api.jina.ai/v1/classify \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY_HERE" \
-d '{
"model": "jina-embeddings-v3",
"labels": [
"简单任务",
"复杂推理",
"创造性写作"
],
"input": [
"计算本金 $10,000 投资 5 年,年利率 5%,按季度复利的复利利息。",
"分析使用 CRISPR 基因编辑技术在人类胚胎中的伦理影响。考虑潜在的医疗益处和长期社会后果。",
"请写一篇以 AI 拥有自我意识的反乌托邦未来为背景的短篇小说,探索人与 AI 的关系以及意识的本质。",
"请解释归并排序和快速排序算法在时间复杂度、空间复杂度及实际性能上的区别。",
"写一首关于自然美和其对人类灵魂疗愈力量的诗。",
"将以下句子翻译成法语:The quick brown fox jumps over the lazy dog."
]
}'
这个例子展示了如何用 jina-embeddings-v3
把用户的查询(包括英语、中文、日语和德语)分到三个类别里,这三个类别分别对应三种不同规模的大语言模型。
API 返回的结果格式如下:
{
"usage": {"total_tokens": 256, "prompt_tokens": 256},
"data": [
{"object": "classification", "index": 0, "prediction": "简单任务", "score": 0.35216382145881653},
{"object": "classification", "index": 1, "prediction": "复杂推理", "score": 0.34310275316238403},
{"object": "classification", "index": 2, "prediction": "创造性写作", "score": 0.3487184941768646},
{"object": "classification", "index": 3, "prediction": "复杂推理", "score": 0.3520770967