Bespoke Curator 开源项目使用教程

Bespoke Curator 开源项目使用教程

curator Synthetic Data curation for post-training and structured data extraction curator 项目地址: https://gitcode.com/gh_mirrors/curator/curator

1. 项目介绍

Bespoke Curator 是一个开源的数据合成和筛选工具,旨在为机器学习模型的训练和结构化数据的提取提供高质量的数据。它是一个基于 Python 的库,可以生成和编辑合成数据,并且提供了一个交互式查看器来监控数据生成过程。Curator 支持结构化输出,并且内置了异步操作、缓存和故障恢复的性能优化。

2. 项目快速启动

首先,您需要安装 Bespoke Curator。可以通过以下命令进行安装:

pip install bespokelabs-curator

接下来,让我们快速启动一个示例,使用 Curator 生成一首诗歌:

from bespokelabs import curator

# 创建一个 LLM 实例
llm = curator.LLM(model_name="gpt-4o-mini")

# 生成诗歌
poem = llm("Write a poem about the importance of data in AI.")

# 打印诗歌
print(poem.to_pandas())

请注意,Curator 默认启用了重试和缓存,以便您可以快速迭代数据管道。如果再次运行相同的提示,您将几乎立即获得相同的响应。您可以在 ~/.cache/curator 删除缓存或通过设置环境变量 export CURATOR_DISABLE_CACHE=true 禁用它。

3. 应用案例和最佳实践

产品特征提取

使用 Curator 对模型进行微调,以识别产品特征。

情感分析

利用 Together.ai 对餐厅评论进行基于方面的情感分析,并使用 Curator 进行微调。

RAFT 实现领域特定文档处理

使用 Retrieval Augmented Fine-Tuning (RAFT) 处理特定领域的文档,生成问题,并为微调大型语言模型准备数据。

数据生成

Bespoke Stratos 推理数据集生成

生成 Bespoke-Stratos-17k 数据集,专注于数学、编程和问题解决数据集的推理轨迹。

Open Thoughts 推理数据集生成

生成 Open-Thoughts-114k 数据集,专注于数学、编程和问题解决数据集的推理轨迹。

多模态

展示通过生成食谱图像的多模态能力。

代码执行

执行 Curator 生成的代码。

3Blue1Brown 视频生成

生成类似 3Blue1Brown 的视频并通过代码执行渲染。

合成图表

合成图表。

函数调用

生成用于微调的函数调用数据。

4. 典型生态项目

Bespoke Curator 可以与多个开源项目配合使用,例如:

  • DeepSeek-R1:一个开源模型,可用于多种自然语言处理任务。
  • Together.ai:用于情感分析的机器学习平台。
  • HuggingFace:提供大量预训练模型和工具,方便与 Curator 集成。

以上是 Bespoke Curator 的基本使用教程,您可以根据具体需求进行扩展和应用。

curator Synthetic Data curation for post-training and structured data extraction curator 项目地址: https://gitcode.com/gh_mirrors/curator/curator

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韶格珍

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值