
ai
文章平均质量分 89
mt448139
这个作者很懒,什么都没留下…
展开
-
少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效
MeCo 还超越了数据挑选基线。研究者使用相同的优化超参数和相同的数据量(DCLM 上的 160B)来训练所有模型,其中 8B 模型是个个例,它使用 80B token 进行训练,由于资源限制和训练不稳定而导致学习率较低。为了确保通用性,研究者在冷却阶段,使用了没有任何元数据的标准预训练文档来训练模型,该阶段涵盖了预训练过程最后 10% 的步骤。值得注意的是,当将 240B 基线模型与 160B MeCo 模型比较时,由于数据量较大,基线模型表现出的困惑度要低得多,但这两个模型实现了类似的平均性能。原创 2025-01-08 16:41:57 · 936 阅读 · 0 评论 -
够新!够权威!2025十大AI技术趋势
随着人工智能(AI)技术的不断发展,2025年将迎来一系列重要的技术趋势,推动各行业的变革和进步。原创 2025-01-08 16:40:43 · 1583 阅读 · 0 评论