Data-Juicer v1.1.0 版本发布:分布式数据处理与AI增强能力升级

Data-Juicer v1.1.0 版本发布:分布式数据处理与AI增强能力升级

data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! data-juicer 项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

Data-Juicer 是一个专注于数据预处理和增强的开源工具,旨在为机器学习和深度学习任务提供高效、灵活的数据处理能力。该项目通过丰富的操作符(OPs)支持各种数据类型的处理,特别适合大规模数据集的处理和增强工作。

核心功能升级

分布式数据处理能力增强

v1.1.0版本显著提升了分布式数据处理能力,用户现在可以基于Ray框架执行分布式数据处理任务。这一改进使得处理超大规模数据集成为可能,同时保持了处理流程的灵活性和易用性。项目文档中新增了详细的分布式处理指南,帮助用户快速上手。

值得注意的是,去重操作符现在采用了Actor模式而非之前的Task模式,这一改变带来了两个重要优势:一是用户不再需要安装Redis作为依赖;二是提高了去重操作的性能和稳定性。

AI增强数据处理能力扩展

本版本引入了多个基于AI模型的新型操作符,大幅扩展了数据处理能力:

  1. 图像分割与理解:新增的image_segment_mapper操作符能够对图像执行分割任务,返回目标边界框,为计算机视觉任务提供更丰富的标注数据。

  2. 多模态大模型应用:mllm_mapper操作符利用多模态大模型为图像生成描述文本,打通了视觉与语言模态之间的桥梁。

  3. 创意图像生成:sdxl_prompt2prompt_mapper结合SDXL生成模型和Prompt-to-Prompt图像编辑技术,能够生成语义相似的图像对,为对比学习等任务提供数据支持。

  4. 文本增强与过滤

    • sentence_augmentation_mapper利用大语言模型对文本进行增强,生成语义一致的变体
    • text_pair_similarity_filter基于文本对相似度进行样本筛选

系统优化与稳定性提升

用户体验改进

  1. 错误日志汇总:运行结束时自动汇总警告和错误日志,使问题定位更加直观,特别是在启用了容错机制的情况下。

  2. 操作符成熟度标签:为所有操作符引入了三级成熟度标签:

    • alpha:基础功能实现完成
    • beta:在alpha基础上增加了单元测试
    • stable:在beta基础上进行了Data-Juicer特有的优化
  3. 文档自动化:新增操作符时自动更新相关文档,减轻了开发者的维护负担。

技术架构优化

  1. 容错机制:添加了全局skip_op_error参数,允许在分析器和执行器中启用容错功能,同时保持单元测试的严格性。

  2. 模型管理:修复了模型强制下载的问题,优化了模型加载流程。

  3. 性能优化:解决了结果数据集样本数少于工作线程数时的保存问题,提升了系统稳定性。

  4. 参数调整:针对vllm-based操作符更新了max_tokens和max_new_tokens参数,避免生成内容过短的问题。

应用场景与案例

Data-Juicer v1.1.0特别适合以下场景:

  1. 多模态数据处理:结合图像分割、文本生成等操作符,可以构建复杂的数据处理流水线,为多模态学习任务准备高质量数据。

  2. 数据增强与扩充:通过AI模型生成语义一致的变体数据,有效缓解数据稀缺问题。

  3. 大规模数据去重:分布式去重能力使得处理亿级规模数据集成为可能。

  4. 数据质量分析:丰富的过滤器和分析器帮助用户深入理解数据特征和质量。

总结

Data-Juicer v1.1.0版本在分布式处理能力和AI增强功能方面取得了显著进步,为数据处理工作流提供了更强大的工具集。新引入的操作符特别关注了多模态数据处理需求,反映了当前AI研究的前沿方向。系统的稳定性和易用性改进使得该工具更适合生产环境部署。随着DJ-Cookbook中行业特定数据处理配方的不断丰富,Data-Juicer正在成为数据科学家和AI工程师不可或缺的工具之一。

data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! data-juicer 项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

管锁开

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值