🎉 公益性质的「赋范大模型技术社区」现已集结超3W大模型技术学习者、爱好者!干货技术助力超400W次成长!
🔸 写在前面
现在社群数量已超过100个,会出现已有问题被重复回答,或是问题较多自己的问题被遗漏的情况。
虽然是公益性质的社区,但仍希望能尽可能的解决大家的问题,做起来会很困难,但是“为每个人提供有价值的技术赋能”是我们一直以来的企业愿景,也是「赋范大模型技术社区」建立的初衷。
在这样的前提下,我们发起了“回答一个好问题”栏目!并由专人进行维护、整理和编辑,目的是帮助大家更好地学习!
🔎 本期 Q&A
Q1:微调的主要目的是什么?
核心用途:1️⃣对话风格的微调;2️⃣知识灌注;3️⃣推理能力的提升;4️⃣任务特定能力(如Agent能力)的提升。
Q2:为什么微调后数学能力提升但代码能力下降?
微调会对模型的原始能力有一些影响,围绕某一部分能力微调的时候另一部分能力可能会下降。这一点非常微妙,如果我们只是进行小范围微调可能不会影响其他几个方面的能力,但是如果带入几万条数据,然后训练了一个epoch的话,就会对模型原始能力造成很深度的影响。比如会极大程度偏向当前数据集的能力(如数学),同时可能导致其他能力(如代码)下降。解决方法:
- 训练次数少一点,减轻对其他能力的影响。
- 能力要大幅上涨,微调数据集不能只是一个方面,需要涵盖其他领域数据(如代码数据),以平衡模型能力。
其实,微调是一个难度很大的工作,稍有不慎就会出现各种各样的问题。
Q3:数据量太小(如几十或几百条)怎么办?
可以通过大模型生成问答数据来扩展数据集数量规模,否则确实可能无法有效训练。
Q4:数据集清洗可以平台化吗?
不同数据集格式差异大甚至完全不一样,通常都需要手动清洗(在代码环境中完成),但清洗过程一般不会太复杂。
Q5:如果模型原始能力不存在,能否通过微调实现知识灌注?
大模型通常具备基础领域知识,若新知识能与现有自然语言关联,能力可迁移;但细节知识(如企业财报数据)需依赖RAG技术,无法仅靠微调完成。
Q6:多模态数据可以用来微调吗?
只有具备多模态能力的模型支持多模态微调;单模态模型无法微调多模态数据。
Q7: 哪些多模态模型适合微调?
千问VL、Omni等支持多模态微调,但Omni成本较高;千问2.5 VL是目前微调较多的选择。
Q8:怎么让没有注释的代码数据集变得“有注释”?
在指令中添加需求,例如“请生成带注释的代码”,模型就能学会生成含注释的代码,无需原始数据本身带注释。
Q9:微调Qwen3后模型回答乱码是为什么?
这个会有很多很多的原因,比如说数据格式选得不对,或者是内部提示词模板加载有问题,都会出现一些乱码。
Q10:微调后文本检索不准确怎么办?
微调适合“理解性”知识灌注,不适合细节记忆,如细节检索(如金融大数据领域围绕各个不同企业的研报进行检索解读)就需要结合RAG或Graph RAG技术,因为类似于财报这种的知识检索,比如需要让模型知道哪家公司、哪年营收多少、利润率、法人、邮箱等等,这种非常细节的知识是很难通过微调进行知识灌注完成的。
Q11:微调是否像“炼丹”?结果是否不可控?
因为结果往往不可控,同样的经验在不同模型上不一定有效。调参、数据、策略等变量太多,调优过程非常依赖经验。其实深度学习领域普遍存在不可控性,需反复验证。
Q12:怎么评估模型效果呢?
可以用 EvalScope 框架,结合不同评测数据集来评估微调后模型在各类任务上的表现。
Q13:如何处理时序数据?(持续数据与预测模型)
可将文本模型转换为预测模型,针对时序问题(如趋势预测)进行微调。
Q14:「全量指令微调」和「预训练」需要的算力大小是不是一样的呢?
不一样。一般预训练需要的时间长很多,所以我们会加显卡来降低时间,但是全量指令微调和预训练所需要的【最低显卡标准】是一致的,能跑圈全量指令微调的机器也能跑预训练,只是时间问题
数据量 |
GPU需求 |
训练时间 | |
预训练 |
TB级 |
数十到数百张 |
数周到数月 |
全量微调 |
GB级 |
几张到十几张 |
数天到数周 |
Q15:全量微调70b fp16精度的模型,需要多少算力呢?
llama-factory给的标准来看,最低1200G显存,加上数据、推理之类的,也就是20张80G的显卡(20张H800,如果能有的话)
ps:社区已上线相关的硬件配置自查表喔~
❓猜你想问
1、为什么我的问题没有得到解答?
大模型技术社区为公益性质社区,不提供付费问答哦~如果你的问题没有得到解答,大概率是
-
群内的大家都比较忙,问题被遗漏了
-
问题过于笼统,不了解具体情况是没办法提供帮助的哦
例如-提问:如何打造一个行业智能体?
建议提问方式:我是xx领域,希望解决xx问题,通过xx技术是否能实现?可以达到xx效果吗?
-
提问被判定为讨论性质的内容,群友不感兴趣也就不会进行回答哦
-
其他未知情况~
2、该如何保障回答质量与真伪?
赋范大模型技术社区为公益性质社区,非官方发布资讯无法保证真伪,群友的回答可以作为你的参考哦。而本文整理问答经过:
-
专人整理与编辑
-
大模型初筛并判定可信度
-
一线总监级技术大佬复核
3、如何更快找到相关答案?
-
群友卧虎藏龙,欢迎在社群内提问呀~
-
九天老师每周直播,除了超硬核的前沿、干货内容,还会在中场和临近结束时进行答疑,千万别错过啦!
-
QA文档会收录至大模型技术社区,借用飞书左上角的智能搜索,也能很方便找到相关答案哦~
🗺 加入我们
📍更多大模型技术相关内容,⬇️请点击原文进入赋范大模型技术社区即可领取~
为每个人提供最有价值的技术赋能!【公益】大模型技术社区已经上线!内容完全免费,涵盖20多套工业级方案 + 10多个企业实战项目 + 400万开发者筛选的实战精华~不定期开展大模型硬核技术直播公开课,对标市面千元价值品质,社区成员限时免费听!