Bespoke Curator 开源项目使用教程
1. 项目介绍
Bespoke Curator 是一个开源的数据合成和筛选工具,旨在为机器学习模型的训练和结构化数据的提取提供高质量的数据。它是一个基于 Python 的库,可以生成和编辑合成数据,并且提供了一个交互式查看器来监控数据生成过程。Curator 支持结构化输出,并且内置了异步操作、缓存和故障恢复的性能优化。
2. 项目快速启动
首先,您需要安装 Bespoke Curator。可以通过以下命令进行安装:
pip install bespokelabs-curator
接下来,让我们快速启动一个示例,使用 Curator 生成一首诗歌:
from bespokelabs import curator
# 创建一个 LLM 实例
llm = curator.LLM(model_name="gpt-4o-mini")
# 生成诗歌
poem = llm("Write a poem about the importance of data in AI.")
# 打印诗歌
print(poem.to_pandas())
请注意,Curator 默认启用了重试和缓存,以便您可以快速迭代数据管道。如果再次运行相同的提示,您将几乎立即获得相同的响应。您可以在 ~/.cache/curator
删除缓存或通过设置环境变量 export CURATOR_DISABLE_CACHE=true
禁用它。
3. 应用案例和最佳实践
产品特征提取
使用 Curator 对模型进行微调,以识别产品特征。
情感分析
利用 Together.ai 对餐厅评论进行基于方面的情感分析,并使用 Curator 进行微调。
RAFT 实现领域特定文档处理
使用 Retrieval Augmented Fine-Tuning (RAFT) 处理特定领域的文档,生成问题,并为微调大型语言模型准备数据。
数据生成
Bespoke Stratos 推理数据集生成
生成 Bespoke-Stratos-17k 数据集,专注于数学、编程和问题解决数据集的推理轨迹。
Open Thoughts 推理数据集生成
生成 Open-Thoughts-114k 数据集,专注于数学、编程和问题解决数据集的推理轨迹。
多模态
展示通过生成食谱图像的多模态能力。
代码执行
执行 Curator 生成的代码。
3Blue1Brown 视频生成
生成类似 3Blue1Brown 的视频并通过代码执行渲染。
合成图表
合成图表。
函数调用
生成用于微调的函数调用数据。
4. 典型生态项目
Bespoke Curator 可以与多个开源项目配合使用,例如:
- DeepSeek-R1:一个开源模型,可用于多种自然语言处理任务。
- Together.ai:用于情感分析的机器学习平台。
- HuggingFace:提供大量预训练模型和工具,方便与 Curator 集成。
以上是 Bespoke Curator 的基本使用教程,您可以根据具体需求进行扩展和应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考