small-doge：快速训练微型语言模型的强大工具-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00600/article/details/146904027

small-doge：快速训练微型语言模型的强大工具

small-doge Doge Family of Small Language Model 项目地址: https://gitcode.com/gh_mirrors/smal/small-doge

在当前人工智能技术飞速发展的时代，小型、快速、高效的语言模型变得越来越重要。今天，我们要为大家介绍一个开源项目——small-doge，它不仅具有极快的训练速度，而且模型大小仅为13M，非常适合资源受限的环境。

项目介绍

small-doge是一个致力于开发快速、小型语言模型的开源项目。它旨在从零开始，通过高效的数据处理和训练流程，在短短3小时内即可训练出13M大小的微型语言模型Doge-20M。这个项目不仅能够帮助研究者快速验证想法，还能为具身通用人工智能的道路添砖加瓦。

项目技术分析

small-doge的核心技术包括Dynamic Mask Attention和Cross Domain Mixture of Experts。Dynamic Mask Attention是一种在训练时使用与值状态相关的自注意力的机制，可以有效解决长文本中的问题。Cross Domain Mixture of Experts则通过密集线性层和稀疏嵌入层的组合，减少了模型的持续迭代成本。

此外，small-doge还使用了具有可学习参数的RMSNorm和Residual，以适应深度模型的梯度范围。这些技术的结合，使得small-doge在保持模型精度的同时，大幅提升了训练和推理的速度。