关于
本项目与Firefly一脉相承,专注于低资源增量预训练,既支持对Baichuan2、Qwen、InternLM等原生中文模型进行增量预训练,也可对LLaMA2、Falcon等英文模型进行中文词表扩充,然后进行增量预训练。
我们开源了Firefly-LLaMA2-Chinese模型,这是中英双语系列模型。
我们以LLaMA2🦙为基座模型,对LLaMA2进行中文词表扩充,使用22GB中英文预训练语料对其进行增量预训练。
最后使用大规模中英文多轮对话指令对模型进行训练。
我们对模型进行了榜单评测和人工评测,与现有的开源工作相比,具有不错的竞争力。
在Open LLM