DeepSeek领域小模型训练

最新推荐文章于 2025-04-10 11:42:25 发布

!chen

最新推荐文章于 2025-04-10 11:42:25 发布

阅读量472

点赞数 5

分类专栏：技术分享文章标签：自动化

本文链接：https://blog.youkuaiyun.com/xdpcxq/article/details/145691483

版权

模型训练俗称炼丹，而炼丹是修士特权，这就显得模型训练离普通人很远了。

虽然是笑谈，但如果对其中情况不太了解确实也会因为其背后深厚、复杂的技术知识以及所需的硬件成本所唬住。

但由于DeepSeek加了一把火，后续出现了很多开源项目，正在将模型训练这个只有“修仙者才能做的炼丹行为”难度一再降低，我相信不用多久云平台就会更好积累，到时候人人都可“炼丹”。

另一方面，模型训练依赖与庞大的数据，在这几年各大厂商不断内卷过程中都对外释放了很多优质数据集。

之前，DeepSeek-R1 虽然开源，但也没有完全开源，训练数据、训练脚本等关键信息并未完全公布。

而后，因为大模型领域内卷得确实过于厉害，有不同牛逼的团队开始复刻DeepSeek-R1，其中比较出名的是Open R1项目，他们宣称要补齐 DeepSeek 未公开的技术细节，包括：

所以，以后（一年内）的大模型领域，我们是既有牛逼的开源基座模型，又有高质量的训练数据集，还有各种训练秘籍，更有低成本的训练平台，2025是国内AI元年，站在工程角度，这是完全没问题的...

这块等他们后后续后，值得我们进一步关注。

而今天我们尝试用现成的数据集、开源基座模型去尝试蒸馏下DeepSeek的形成一个医疗小模型，带大家感受下什么是炼丹。

比如，如何使用OptiFlow框架，对LLaMA-7B模型进行高效的微调，以满足低显存环境下医学推理任务的需求。

数据大概长这个样子：

{
        "Question": "根据描述，一个1岁的孩子在夏季头皮出现多处小结节，长期不愈合，且现在疮大如梅，溃破流脓，口不收敛，头皮下有空洞，患处皮肤增厚。这种病症在中医中诊断为什么病？",