自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

asd8705的专栏

asd8705 优快云认证博客专家优快云认证企业博客

码龄12年

84: 原创

3万+: 周排名

1万+: 总排名

31万+: 访问

: 等级

3037: 积分

214: 粉丝

359: 获赞

15: 评论

578: 收藏

私信

关注

热门文章

分类专栏

推荐系统 2篇
大局观 3篇
职业规划 2篇
机器学习 12篇
JNI 7篇
算法 1篇
推荐算法 1篇
Android 2篇
学习方法 2篇
图像检索 1篇
Caffe 1篇
自然语言处理 19篇
面试题 3篇
深度学习 11篇

最新评论

什么是DeepSeek-R1蒸馏模型？
飞鲨风中转: -是不是可以理解为：那些小尺寸的蒸馏模型，是通过蒸馏Deepseek-R1得到的？
什么是DeepSeek-R1蒸馏模型？
冷小鱼: 可以理解为，数据集是 deepseek提供（生成）的，模型可以是目前开源的任何模型？
什么是DeepSeek-R1蒸馏模型？
asd8705: 蒸馏模型是通过使用DeepSeek-R1生成的800000个推理数据样本对较小的基础模型（如Qwen和Llama系列）进行微调而创建的。蒸馏过程涉及对推理数据的监督微调（SFT），但不包括额外的强化学习（RL）阶段。这使得该过程对于较小的模型来说更高效、更容易实现。是通过用R1生成的带中间推理过程的COT语料来微调模型
什么是DeepSeek-R1蒸馏模型？
冷小鱼: 是不是少了蒸馏的详细步骤那？
使用微调OneKE来实现识别人名、公司名、和产品名称
weixin_47655874: 博主，请问OneKE微调后的效果如何呀，在没有微调的情况下，我用OneKE和Qwen2-7B来进行某个领域的关系抽取，发现QWen的效果好很多

最新文章

自然语言处理

关注

关注数：文章数：19 文章阅读量：9133 文章收藏量：20

作者: asd8705

这个作者很懒，什么都没留下…

展开