当生成式AI和大模型的飓风呼啸而来,全球掀起了一场狂热的GPT竞赛,大量紧迫的前沿议题随之接踵而至:
语言、视觉、多模态大模型分别有哪些研究突破口?如何显著提升大模型的计算速度、效率和扩展性?怎样确保大模型始终安全可控、符合人类意图和价值观?国内产学研界亟待做些什么,才能更好地迎接大模型时代?
目录
2. 可监督微调/Supervised Fine-tuning(SFT)
AquilaChat-7B
简介/Overview
Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,在Aquila的训练过程中实现了比Magtron+DeepSpeed zero-2将近8倍的训练效率。Aquila语言大模型是在中英文高质量语料基础上从0开始训练的ÿ