导言:
第63届国际计算语言学协会年(ACL 2025)于7月27日至8月1日在奥地利维也纳举行。作为NLP领域最具影响力的顶级盛会,今年的ACL依然吸引了全球众多顶尖学者参与,投稿数量与质量再创新高。
在本届大会上,由上海人工智能实验室OpenDataLab团队与华东师范大学团队联合提出的研究成果《Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models》荣获“最佳主题论文奖”(Best Theme Paper Award)。
Meta-rater框架聚焦于提升大语言模型预训练的数据筛选效率,首次提出利用小规模代理模型,在仅约为1B模型训练开销1%的成本下,预测最优数据组合。相比以往依赖大规模试错的“黑箱式”方法,Meta-rater显著降低了算力开销,并通过多维度质量评估体系打破传统筛选标准的局限。
这一方法不仅提高了大模型训练的性价比,也为“什么是高质量语料”提供了全新的理解洞察。其在ACL 2025 获奖,展现了OpenDataLab团队在AI数据领域的深厚积累与创新能力。
论文链接
https://aclanthology.org/2025.acl-long.533/
代码与数据集:
https://github.com/opendatalab/Meta-rater


一、解密Meta-rater:如何智能筛选数据?
Meta-rater的核心思想是“四两拨千斤”。它通过一个高效的流程,即使用代理模型来训练一个能够预测验证集损失的回归模型,从而学习到最优权重,将这些新维度与现有的质量指标进行整合,最终精准定位出最优的数据组合策略。
-
多维质量评分:研究人员为数据集中的每份文档,从25个不同维度进行打分。其中,首创了PRRC四大质量维度,即专业性(Professionalism)、可读性(Readability)、推理深度(Reasoning)和洁净度(Cleanliness),此外还涵盖了文本统计特征与领域重要性等其他方面。

Meta-rater中采集的25个不同维度的评分指标
- 训练“代理模型”:随机生成数百种不同的“评分权重组合”,团队根据每一种权重组合筛选出的数据,训练一个极小规模的“代理模型”(仅18M参数)。
- 收集“权重-性能”数据:每个代理模型训练完后,团队在同一个验证集上测试其性能(用损失函数loss衡量)并记录下数百个“权重组合”与“模型性能”的对应数据点。
- 拟合回归模型:用这些数据点,团队训练一个回归模型LightGBM,让其学习“数据权重组合”和“模型最终性能”之间的复杂非线性关系。
- 预测最优权重组合:使用训练好的回归模型,即可在不实际训练任何大模型的情况下,快速地在巨大的权重空间中进行搜索,高效地预测出能够使模型性能达到最佳(即验证集loss最小)的“黄金权重配比”。

Meta-rater算法流程
二、从数据到洞见:实验结果与核心发现

Meta-rater与随机选择、SOTA基线(QuRating-Educational Value)在1.3B模型预训练上的性能对比
实验结果表明,使用Meta-rater筛选的数据进行预训练,可将1.3B模型的收敛速度直接翻倍,并将下游任务平均性能提升3.23%,并且这一优势在扩展到7.2B参数的大模型时依然显著。与此同时,Meta-rater筛选方法所需的计算量仅占1.3B模型预训练的0.7%,充分突出了其极高的性价比优势!

Meta-rater构建仅占1.3B模型预训练所需计算量的0.7%
值得一提的是,团队通过Meta-rater实验发现,在25个质量维度中,“教育价值”(EducationalValue)的权重最高(5.64%),而PRRC指标中的“推理”(Reasoning)(4.44%)和“专业性”(Professionalism)(4.05%)也贡献显著。相比之下,传统上可能被看重的“写作风格”(WritingStyle)的权重几乎为零(0.05%)。这不仅为我们提供了具有基准意义、经过量化评估的高质量数据,也为研究人员理解何为“高质量数据”提供了全新的、数据驱动的深刻理解。

Meta-rater为每一个数据质量评估指标(rater)所分配到的权重
三、理念与实践:Meta-rater的幕后团队OpenDataLab
Meta-rater的诞生,并非来自抽象的理论设想,而是源于一个具体且迫切的实际需求——为大语言模型“书生·浦语”(InternLM:https://intern-ai.org.cn/home)构建高质量的预训练数据集。
当时,研究团队面临的核心挑战是:如何在海量原始数据中,依托有限的计算资源和时间,快速筛选出真正能够提升模型性能的高价值数据。传统的数据筛选方式,依赖人工经验或单一维度打分,往往效率低下、效果有限,难以系统性满足大模型的预训练需求。为了突破这一限制瓶颈,Meta-rater框架应运而生。
作为Meta-rater框架的研发团队——上海人工智能实验室OpenDataLab始终聚焦人工智能发展的关键领域——数据,长期专注于AI-Ready数据,致力于提供高质量、可获取、可信赖的数据资源,推动AI技术从“可用”走向“好用”。
Meta-rater的提出,正是OpenDataLab以“DataCentric”为理念在大模型时代的集中体现。除本研究外,OpenDataLab还推出了多个具有广泛影响力的开源成果,包括:
-
OpenDataLab开放数据平台:集成大量高质量、多模态、多语种的数据集,为全球开发者和研究者提供便捷的数据获取入口;
-
MinerU文档智能解析工具:具备工业级文档解析能力,可高效从非结构化文档中提取结构化信息,广泛应用于科研、企业与AI模型训练场景。
上述成果已获得全球数十万开发者与研究者的广泛关注和持续使用,体现了团队在AI数据领域的深厚积累与创新能力。
未来,OpenDataLab将持续深耕AI-Ready数据,推动Meta-rater等前沿研究成果在更多应用场景中落地,助力全球AI研究者与开发者高效获取优质数据,赋能人工智能技术持续进化。
更多关于Meta-rater的使用方法和结果
欢迎访问以下地址👇
代码与数据集:
3097

被折叠的 条评论
为什么被折叠?



