1、学习总结:
长达半年的一个鹏程脑海200G大模型的训练过程,是人工智能界的又一宏大壮观的景象!该项目旨在打造NLP(自然语言处理)预训练大模型的底座,实现2个亿参数的稠密性人工智能大模型,将是对国内人工智能技术和国内人工智能训练芯片的一次巨大挑战!
2、学习心得:
【1】通过自己的使用发现,同样的参数的英伟达和昇腾芯片,昇腾可以表现出更加优越的性能,国产芯片昇腾也不弱!
【2】人工智能网络云训练平台ModelArts优点也是非常明显,远程操控,让更多热爱人工智能的人也可以实现更加优越的存储性能和训练速度,实现一个超群的精度计算。
【3】盘古大模型:21年4月实现了第一个版本的α版本,与家喻户晓的GPT-3相比,网络结构更加简单轻便,少了32层网络,训练时设置了更小的Batch Size和更小的学习率,在昇腾910芯片上采取数据、模型、流水线、优化器多种并行方式训练实现了不错的性能。
- 数据集处理:训练数据收集了百科类文章、电子书、网页数据等多样化的中文数据;采取了四个阶段的数据清洗策略,其中使用了fastText模型过滤、hash去重、n-gram算法以及ppl