文本与图像嵌入相关性调试工具最佳实践
1. 项目介绍
correlations
是由 Jina AI 开发的一款开源工具,它提供了一个简单的用户界面,用于调试文本和图像嵌入的相关性。该工具可以用来检查嵌入的“氛围”、晚期分块、多模态检索等,是理解和分析嵌入向量相关性的有效工具。
2. 项目快速启动
在开始之前,确保你已经安装了 Node.js 环境。
安装
首先,克隆项目到本地:
git clone https://github.com/jina-ai/correlations.git
cd correlations
然后,安装项目依赖:
npm install
配置 API Key
获取 Jina API Key,可以从 Jina 官网 申请,申请后设置环境变量:
export JINA_API_KEY=your_jina_key_here
嵌入文本
使用默认设置(换行符分块)嵌入文本文件:
npm run embed -- input.txt -o file1.jsonl
如果你需要嵌入来自 URL 的内容:
npm run embed -- https://example.com/article -o file2.jsonl
可视化相关性
可视化单个文件中的自相关性:
npm run corr -- file1.jsonl
如果要可视化两个文件之间的相关性:
npm run corr -- file1.jsonl file2.jsonl
启动后,相关性可视化界面默认会在 http://localhost:3000
上提供服务。
3. 应用案例和最佳实践
嵌入选项
- 使用标点符号分块:
npm run embed -- input.txt --chunk punctuation
- 按字符数分块:
npm run embed -- input.txt --chunk characters --value 500
- 使用自定义正则表达式分块:
npm run embed -- input.txt --chunk regex --value "\\n\\n"
- 启用晚期分块:
npm run embed -- input.txt --late-chunking
- 指定任务类型:
npm run embed -- input.txt --task-type text-matching
- 自定义输出文件:
npm run embed -- input.txt --output custom.jsonl
图像嵌入
若要嵌入图像,使用 jina-clip-v2
模型:
npm run embed -- all_images.txt --model jina-clip-v2
自定义可视化
- 更改可视化服务器端口:
npm run corr -- file1.jsonl --port 8080
- 比较不同维度的嵌入:
npm run embed -- input.txt --dimensions 512
npm run corr -- output.jsonl
4. 典型生态项目
correlations
作为 Jina AI 生态系统的一部分,与其他开源项目如 Jina、Jina Hub 等紧密集成,为开发者提供了强大的多模态数据处理和检索能力。通过这些工具的结合使用,可以构建复杂的搜索和推荐系统,提升数据处理和分析的效率。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考