MiniMind:3小时完全从0训练一个仅有26M的小参数GPT,最低仅需2G显卡即可推理训练!
MiniMind是一个开源的微型语言模型,它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M,大约是GPT3的1/7000,非常适合快速部署和实验。TIP](截至2024-9-17)minimind训练了3个型号模型,最小仅需26M(0.02B),即可具备流畅的对话能力!该分析在一个带有Torch 2.1.2、CUDA 12.2和Flash Attention 2的RTX 3090 GPU上运行。
原创
2024-09-21 00:21:46 ·
916 阅读 ·
0 评论