开年巨献|OpenCSG携UltraFeedback中文数据集强势来袭

01

背景

近年来,人工智能,特别是自然语言处理(NLP)领域正经历前所未有的飞跃,其影响正深刻地重塑全球产业格局。其中,语言模型凭借其在智能客服、内容生成、自动翻译和智能搜索等领域的广泛应用,已然成为推动技术进步的关键引擎。而预训练模型,作为NLP技术的核心基石,通过海量数据的训练,积累了强大的知识储备,不断突破技术边界。然而,预训练模型的效能高度依赖于高质量的数据集,尤其在中文NLP领域,数据质量的挑战更为突出。尽管英文预训练数据集资源丰富,但中文领域却面临大规模、高质量数据集匮乏的困境,这无疑制约了中文NLP技术的进一步发展,特别是在教育、智能搜索等关键领域,高质量的数据集需求尤为迫切。这不仅是挑战,更是机遇,预示着中文NLP领域蕴藏着巨大的发展潜力。

2024年,OpenCSG 社区开源了 Chinese Fineweb Edu、Chinese Smoltalk 和 Chinese Cosmopedia 等一系列高质量中文数据集,这为全球开源社区注入了宝贵的资源。凭借这些杰出的成果和开放的共享理念,OpenCSG 在全球范围内赢得了广泛的赞誉和高度的认可,彰显了其在开源领域的领先地位。

针对中文NLP领域高质量数据集的迫切需求,OpenCSG社区近年来投入巨资,致力于打造顶尖中文预训练数据集。2025年伊始,社区隆重推出UltraFeedback-Chinese数据集,这款数据集以其规模宏大、粒度精细、类型多样等特性脱颖而出,专为奖励模型和批评模型的训练量身定制,并能完美支持PPO和DPO等先进训练方法。UltraFeedback-Chinese不仅借鉴了国际领先的数据集构建经验,更采用了与UltraFeedback相同的方法,从而确保了其在中文NLP训练中的有效性和实用性。该数据集的推出,标志着中文NLP领域在数据资源建设上迈出了关键一步。

UltraFeedback-Chinese 的推出,不仅填补了中文预训练数据集的空白,也为中文NLP技术的进步提供了强有力的支持,特别是在提升模型对复杂语言处理的能力方面显示出显著的优势。OpenCSG团队将继续依据用户反馈和技术发展的需要,不断完善和扩充UltraFeedback-Chinese数据集,致力于为全球中文NLP社区提供更加丰富和高质量的数据资源。


02

UltraFeedback数据集介绍

UltraFeedback 是一个大规模、细粒度且多样化的偏好数据集,专为训练强大的奖励模型和评价模型而设计。该数据集收集了约64,000条来自多种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN)的提示语,并利用这些提示查询多个大型语言模型,为每个提示生成四种不同的响应,共产生256,000个样本。为了收集高质量的偏好数据和文本反馈,设计了一套详细的注释指南,涵盖了指令遵循、真实性、诚实性和有用性四个方面。通过这些细致的指导,GPT-4对收集的样本进行注释,确保了数据的质量和实用性。

03

UltraFeedback Chinese数据集介绍

UltraFeedback-Chinese 是根据UltraFeedback数据集的构建方法制定的中文版本,专为训练强大的奖励模型和批评模型而设计。该数据集支持PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)两种训练方式。UltraFeedback-Chinese 在数据格式上与原始的UltraFeedback保持一致,同样包含对指令遵循、真实性、诚实性和有用性这四个方面的细致评分,评分由深度学习模型deepseek-v3生成。

UltraFeedback-Chinese 数据集从多种资源收集了约58,000个中文指令,包括但不限于 smoltalk-chinese, silk-road/Wizard-LM-Chinese-instruct-evol, shareAI/ShareGPT-Chinese-English-90k, wenbopan/Chinese-dpo-pairs, 和 Maxlinn/TruthfulQA_zh。这些数据不仅覆盖了广泛的主题和任务类型,而且通过精心设计的生成模型和反馈机制,提供了高质量和多样性的文本样本。

为确保数据集的质量和适用性,每个指令均由多个先进的模型生成多个响应,并通过系统的提示加以指导,强调指令遵循、真实性、诚实性和有用性等关键维度。此外,通过对响应进行细致的评分和筛选,构建了适用于DPO训练的UltraFeedback-Chinese-binarized版本,进一步提升了模型训练的效率和效果。

下载地址:

OpenCSG社区:https://opencsg.com/datasets/MagicAI/UltraFeedback-chinese

huggingface社区:https://huggingface.co/datasets/opencsg/UltraFeedback-chinese

数据收集与模型响应

我们从多个中文资源库中收集了约58k条中文指令,涵盖了以下数据集:

源数据集数量
smoltalk-chinese25935
silk-road/Wizard-LM-Chinese-instruct-evol12468
shareAI/ShareGPT-Chinese-English-90k11259
wenbopan/Chinese-dpo-pairs7753
Maxlinn/TruthfulQA_zh805

对于每个instruction,我们从以下9个模型中,随机抽取4个,生成4个response。同时,每次生成response时,会随机选取一种 system prompt,用于强调 instruction-following, truthfulness, honesty, helpfulness 这4个方面中的某个方面:

  • deepseek-v3
  • gpt-4o-mini
  • qwen2.5-72b-instruct
  • qwen2-7b-instruct
  • qwen2.5-1.5b-instruct
  • phi3.5-mini-instruct
  • Llama3.1-8B-Chinese-Chat
  • mistral-v0.1-instruct-chinese
  • glm-4-9b-chat

数据集变体:UltraFeedback-Chinese-Binarized

UltraFeedback-Chinese-Binarized 是从 UltraFeedback-Chinese 转化而来的版本,专为DPO训练优化。通过设定权重 {instruction-following: 0.2, truthfulness: 0.2, honesty: 0.2, helpfulness: 0.4} 对每个响应的分数进行加权,以计算得到每个响应的综合评分(overall score)。在此基础上,我们从每条样本的四个响应中选出得分最高的作为chosen response,随机选取一个作为rejected response,以此构建适用于DPO训练的数据集。

实验

我们利用 UltraFeedback-Chinese-Binarized 及其他中文DPO数据集对在 fineweb-edu-chinese 上预训练后,在 smoltalk-chinese 上进行指令微调的2b模型进行DPO训练。训练过程包括2个训练周期,采用5e-6的cosine学习率衰减,global batch size设定为128。训练完成后,在AlighBench平台上评估了该模型的中文对话能力,结果显示UltraFeedback-Chinese在提升模型综合性能方面表现出色。

评估结果

训练结束后,我们在 AlighBench 上评估了其中文对话能力,结果如下。结果表明,ultrafeedback-chinese 对模型综合能力的提升高于其他DPO数据集。其中,ultrafeedback-chinese-binarized-lowest 的效果优于 ultrafeedback-chinese-binarized。可能的原因是:在 ultrafeedback-chinese-binarized 中,可能存在分数较为接近的chosen和rejected response,带来了噪声;而在 ultrafeedback-chinese-binarized-lowest 中,正负样本的差距则更明显。

代码

https://github.com/yuyijiong/ultrafeedback-chinese

我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!

作者及单位

原文作者:俞一炅、戴紫赟、Tom Pei

单位:OpenCSG LLM Research Team

### 关于国内网络流量攻击的公共数据集 在国内,获取高质量的公网络流量攻击数据集可能具有一定挑战性,但仍然有一些可靠的资源可以用于研究和发。以下是几个推荐的数据集及相关资源: #### 1. **Kaggle 和 UCI 数据集** 虽然这些平台并非专门针对国内网络流量攻击设计,但仍提供了许多通用的网络安全相关数据集。例如,UCI 机器学习库中的 NSL-KDD 数据集是一个经典的入侵检测数据集,尽管其背景来源于国外环境,但对于理解网络攻击模式具有一定的借鉴意义[^1]。 #### 2. **Apache Spot** 作为一款专注于网络流量分析的开源解决方案,Apache Spot 不仅提供了一套完整的框架来处理网络流量日志(如 Netflow、sFlow),还内置了一些示例数据集用于演示用途。它利用无监督学习算法(如 LDA)识别异常行为,适合用来构建自定义的网络攻击检测模型[^2]。 #### 3. **特定标注数据集** 如果需要更加贴近实际应用场景的数据,则可考虑一些已标注好的专用数据集。比如提到的一个包含约 2000 个网站 SSH 隧道上的 SSL 流量记录集合,该数据集中每条样本都被标记了对应的类别标签 (website),非常适合训练分类器以区分正常访问与恶意活动[^3]。 #### 4. **OpenCSG FIN 数据集** 由 OpenCSG 提供的一系列金融领域相关的数据集也可能隐含部分涉及网络安全方面的信息。尽管官方描述未明确指出是否存在直接关联到网络攻击的内容,但从行业特性推测,这类资料往往涵盖了较多敏感操作监控细节,值得进一步探索验证价值所在[^4]。 #### 5. **RunnerGo 平台及其生态贡献** 最后值得一提的是 RunnerGo —— 这是一款采用 Apache-2.0 协议发布的全栈测试工具链产品,旨在简化软件质量保障流程的同时鼓励社区协作改进功能模块。尽管当前版本重点放在接口测试等方面,未来或许能够扩展至支持更多复杂场景下的安全性评估需求之上[^5]。 ```python import pandas as pd # 假设加载了一个 CSV 文件形式的安全事件日志表单 df = pd.read_csv('network_traffic_logs.csv') def analyze_network_attacks(dataframe): """ 对给定 DataFrame 执行初步统计分析 """ summary_stats = dataframe.describe() attack_counts_per_type = dataframe['attack_label'].value_counts() return { 'summary': summary_stats, 'attacks_by_category': attack_counts_per_type } results = analyze_network_attacks(df) print(results) ``` 上述脚本展示了如何读取并解析一份典型的网络通信记录文件,并对其进行基础层面的信息汇总展示过程。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值