Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

本文是LLM系列文章,针对《Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model》的翻译。

中文微型LLM:预训练以中文为中心的大型语言模型

摘要

在这项研究中,我们介绍了CT-LLM,这是一个2B大语言模型(LLM),它说明了在开发LLM时优先考虑汉语的关键转变。CT-LLM独特地从头开始,它与传统方法不同,主要结合了中文文本数据,利用了12000亿个token的广泛语料库,包括8000亿个中文token、3000亿个英文token和1000亿个代码token。这种战略组合有助于该模型在理解和处理中文方面的卓越能力,通过对齐技术进一步增强了这一能力。CT-LLM在CHC Bench上表现出色,擅长中文任务,并通过SFT展示了其英语熟练程度。这项研究挑战了主要在英语语料库上训练LLM,然后将其适应其他语言的主流范式,拓宽了LLM训练方法的视野。通过将训练中文LLM的全过程开源,包括使用获得的大规模适当预训练中文语料库(MAP-CC)、精心选择的多学科中文硬案例基准(CHC Bench)和2B大小的中文微型LLM(CT-LLM)的详细数据处理程序,我们的目标是促进学术界和工业界的进一步探索和创新,为更具包容性和通用性的语言模型铺平道路。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值