文本与图像嵌入相关性调试工具最佳实践

文本与图像嵌入相关性调试工具最佳实践

correlations Simple UI for debugging correlations of text embeddings correlations 项目地址: https://gitcode.com/gh_mirrors/co/correlations

1. 项目介绍

correlations 是由 Jina AI 开发的一款开源工具,它提供了一个简单的用户界面,用于调试文本和图像嵌入的相关性。该工具可以用来检查嵌入的“氛围”、晚期分块、多模态检索等,是理解和分析嵌入向量相关性的有效工具。

2. 项目快速启动

在开始之前,确保你已经安装了 Node.js 环境。

安装

首先,克隆项目到本地:

git clone https://github.com/jina-ai/correlations.git
cd correlations

然后,安装项目依赖:

npm install

配置 API Key

获取 Jina API Key,可以从 Jina 官网 申请,申请后设置环境变量:

export JINA_API_KEY=your_jina_key_here

嵌入文本

使用默认设置(换行符分块)嵌入文本文件:

npm run embed -- input.txt -o file1.jsonl

如果你需要嵌入来自 URL 的内容:

npm run embed -- https://example.com/article -o file2.jsonl

可视化相关性

可视化单个文件中的自相关性:

npm run corr -- file1.jsonl

如果要可视化两个文件之间的相关性:

npm run corr -- file1.jsonl file2.jsonl

启动后,相关性可视化界面默认会在 http://localhost:3000 上提供服务。

3. 应用案例和最佳实践

嵌入选项

  • 使用标点符号分块
npm run embed -- input.txt --chunk punctuation
  • 按字符数分块
npm run embed -- input.txt --chunk characters --value 500
  • 使用自定义正则表达式分块
npm run embed -- input.txt --chunk regex --value "\\n\\n"
  • 启用晚期分块
npm run embed -- input.txt --late-chunking
  • 指定任务类型
npm run embed -- input.txt --task-type text-matching
  • 自定义输出文件
npm run embed -- input.txt --output custom.jsonl

图像嵌入

若要嵌入图像,使用 jina-clip-v2 模型:

npm run embed -- all_images.txt --model jina-clip-v2

自定义可视化

  • 更改可视化服务器端口
npm run corr -- file1.jsonl --port 8080
  • 比较不同维度的嵌入
npm run embed -- input.txt --dimensions 512
npm run corr -- output.jsonl

4. 典型生态项目

correlations 作为 Jina AI 生态系统的一部分,与其他开源项目如 Jina、Jina Hub 等紧密集成,为开发者提供了强大的多模态数据处理和检索能力。通过这些工具的结合使用,可以构建复杂的搜索和推荐系统,提升数据处理和分析的效率。

correlations Simple UI for debugging correlations of text embeddings correlations 项目地址: https://gitcode.com/gh_mirrors/co/correlations

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周澄诗Flourishing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值