本文是LLM系列文章,针对《Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model》的翻译。
摘要
在这项研究中,我们介绍了CT-LLM,这是一个2B大语言模型(LLM),它说明了在开发LLM时优先考虑汉语的关键转变。CT-LLM独特地从头开始,它与传统方法不同,主要结合了中文文本数据,利用了12000亿个token的广泛语料库,包括8000亿个中文token、3000亿个英文token和1000亿个代码token。这种战略组合有助于该模型在理解和处理中文方面的卓越能力,通过对齐技术进一步增强了这一能力。CT-LLM在CHC Bench上表现出色,擅长中文任务,并通过SFT展示了其英语熟练程度。这项研究挑战了主要在英语语料库上训练LLM,然后将其适应其他语言的主流范式,拓宽了LLM训练方法的视野。通过将训练中文LLM的全过程开源,包括使用获得的大规模适当预训练中文语料库(MAP-CC)、精心选择的多学科中文硬案例基准(CHC Bench)和2B大小的中文微型LLM(CT-LLM)的详细数据处理程序,我们的目标是促进学术界和工业界的进一步探索和创新,为更具包容性和通用性的语言模型铺平道路。