AI学习资料留档(持续更新)

一、模型部署/硬件资源

1、动态量化版部署方法、大小

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送! | 机器之心

2、

二、模型应用

1、deepseek R1+cursor使用 

不卡顿、免费的满血版DeepSeek-R1 API,在无问芯穹这里用上了,更有异构算力鼎力相助 | 机器之心

2、

三、技术研究

1、模型训练对高质量有用数据的需求,团队开发了学习影响力度量(Learning Impact Measurement, LIM)方法。通过分析模型的学习曲线,LIM 可以自动识别那些与模型学习进程高度匹配的 "黄金样本"。

大模型强化学习新发现:删减84%数据反提升效果 | 机器之心

2、一个可供参考的微调“大礼包”

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍 | 机器之心

3、利用代码形成思维链来训练,而不是单纯用代码训练(这个感觉可以参考实践)

DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升 | 量子位

论文地址:
https://arxiv.org/abs/2502.07316
GitHub:
https://github.com/hkust-nlp/CodeIO

4、利用思维链做微调

Qwen2.5思维链微调代码实操 + 多卡Lora微调完整代码-优快云博客

参考文献:

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

http://arxiv.org/pdf/2201.11903

翻译:

论文翻译 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链提示在大型语言模型中引出推理_chain-of-thought prompting elicits reasoning in la-优快云博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值