公益性质的「赋范大模型技术社区」现已集结超3W大模型技术学习者、爱好者!干货技术帮助超400W次成长!
作为中文互联网头部大模型技术学习聚集地,除了前沿、硬核的干货内容,还有专门负责社群的同事,维护良好的学习氛围,帮助每个阶段的小伙伴都能在社群内获得自己需要的干货内容。
而社区交流,一直是「赋范大模型技术社区」不可或缺的一部分,社区内的成员技术、知识、观点的交流,有问题一起解决的学习氛围,是加速成长的秘籍。
虽然负责社群运营的小伙伴一直用心管理,但现在社群数量已经接近80个,会出现已有问题被重复回答,或是问题较多,自己的问题被遗漏的情况。
能提出一个好问题,本身就是一件非常有价值的事情!
虽然是公益性质的社区,但仍希望能尽可能的解决大家的问题,做起来会很困难,但是“为每个人提供有价值的技术赋能”是我们一直以来的企业愿景,也是「赋范大模型技术社区」建立的初衷。
在这样的前提下,我们发起了“回答一个好问题”栏目!精选往期精华问答及高频问答(不限于老师的回答),并由专人进行维护、整理和编辑,目的是帮助大家更好的学习!
🤩 十个好问题
Q1:R1能进行Agent开发吗?
1. R1没有Function calling功能,无法调用外部工具,若通过嫁接的方法让R1模型能够间接调用外部工具,实现效果也非常不稳定,达不到工业级应用水准
2. R1每次对话都先进行复杂的思考,Agent要求模型短频快的进行多次响应,这就导致借助R1构建的智能体运行效率非常低;
3. R1模型还存在一定的幻觉,会无中生有的创造一些“事实”,这对于一个需要精密复杂协作的Agent来说,会严重影响准确率。
Q2:微调大模型的数据集该如何整理?有什么流程吗?
1. 先判断是否真的需要微调,大部分时候,90%的场景里根本不需要微调,需要的是RAG。
2. 如果真的需要微调,需要收集整理所有格式的数据,pdf、word等去掉图像提取出纯文字,表格数据中有文字的部分提取成文字,全是数字的表格是用不上的,整理出自己有的数据之后,分辨能用于微调的和不能用于微调的。
- 只要是文字描述的、都可以用于微调,语言风格、专业能力适合微调
- 纯数字表格不适合微调、纯粹需要让模型“记住”的信息(比如用户列表、产品列表)不适合微调
3. 如果有适合微调的文字数据,将文字数据直接全部链接起来,轮流上去重算法、祛毒算法,让大模型结合数据做一些人造的问答对增加数据多样性,保存成JSONL,然后直接按token分割,走常规微调流程。
4. 如果没有适合微调的数据,那就要么用规则来造,要么用大模型来造,总之得整理出适合微调的问答对数据,然后再上去重算法、祛毒算法、结合一些开源的数据增加多样性、保存成JSONL,按token分割,走微调流程。
Tips:这里是没有通用的代码的,因为每个公司的原始数据不一样,会导致处理的流程就不一样。但是这里面几乎所有流程的代码都可以依赖GPT或者deepseek来写,因为这些代码本身都比较简单。
总结:在做微调之前先判断自己的任务到底适不适合微调,根据我的经验,大部分时候都不需要微调,大部分企业也没有足够的算力和足够的时间来做微调,不如RAG简单快捷成本还低一些
Q3:老师直播演示用的OpenWeather是收费的吗?
公开课里用到的,查询天气的网站是免费的,并且无需使用任意魔法,同时调用的API也是免费的,属于公益性质的API,所以才会作为教学使用。
API获取,注册后申请即可,无需付费。
Q4:大模型做SQL数据库查询不靠谱,有什么办法吗?
大概率和你的Prompt有关系,直接和大模型说“做下数据分析”肯定是不行的,但是你可以制作一个专家文档或数据词典,并配合详细的Prompt,再让他去查数据,就会非常准确了。
大模型思考不准确的核心原因,不是思考能力不行,只是他不知道当前数据集之间的潜在关系,已经不知道一些专有名词。
Q5:最快搭建Agent的方法是什么?
如果一定追求速度的话,那CrewAI+AtoGen+OpenAI的Agent Python是最容易的,几行代码就能创建一个多智能体系统,比低代码平台如Dify、Coze这些低代码平台还快。但是只能做出来玩,如果是企业级开发,那都还是需要系统学习的。
Q6:低代码平台如Dify做企业知识库有什么优缺点吗?
优点就是快,部署简单。
缺点是很难优化,这是所有低代码开发框架都有的特性,因为本身就是通过拖拉拽的方式进行开发,所以很多功能都是定死的,优化空间有限。
同时如果逻辑复杂,数据量大,这些低代码开发框架用起来会非常卡。
Q7:MCP应该用ts编写?还是用Python编写?
ts语言或Python都支持相关编写,但一般都是用的Python来编写MCP,这也更符合大模型技术人的编程习惯
Q8:所有大模型都支持MCP吗?MCP和Function Calling有什么关系?
Function Calling封装好的 ,方便效用的就是MCP,可以简单这么理解
大模型支持Funciton Calling就支持MCP,但并不是所有的大模型都支持Function Calling,比如R1就不支持。
Q9: 微调后的模型可以量化吗?
微调后的模型,在没有改变模型格式的情况下是可以量化的,借用Llama.cpp即可进行量化
Q10:DeepSeek R1的Q4(int4)版本、1.58比特版本分别能达到原版模型多大的性能?
根据DeepSeek官方发布资讯,671B的Q4量化版本一般能达到原版90%的性能,1.58比特版本,一般能达到原版70%。
实际情况则要被测试过后,看是否能满足自己的需求。
❓猜你想问:
1、为什么我的问题没有得到解答?
大模型技术社区为公益性质社区,不提供付费问答哦~如果你的问题没有得到解答,大概率是
1)群内的大家都比较忙,问题被遗漏了
2)问题过于笼统,不了解具体情况是没办法提供帮助的哦
如:
提问:如何打造一个行业智能体?
建议提问方式:我是xx领域,希望解决xx问题,通过xx技术是否能实现?可以达到xx效果吗?
3)提问被判定为讨论性质的内容,群友不感兴趣也就不会进行回答哦
4)其他未知情况~
2、该如何保障回答质量与真伪?
赋范大模型技术社区为公益性质社区,非官方发布资讯无法保证真伪,群友的回答可以作为你的参考哦。而本文整理问答经过:
1)专人整理与编辑
2)大模型初筛并判定可信度
3)一线总监级技术大佬复核
也请小伙伴注意,问题的提出大都有时间、场景的局限性,可能当时的问题已经有了更好的解决方案。而最好的解决方案,一定是自己实践过哒!
3、如何更快找到相关答案?
1)群友卧虎藏龙,欢迎在社群内提问呀~
2)九天老师每周直播,除了超硬核的前沿、干货内容,还会在中场和临近结束时进行答疑,千万别错过啦!
3)QA文档会收录至大模型技术社区,借用飞书左上角的智能搜索,也能很方便找到相关答案哦~
————————————————————————
为每个人提供最有价值的技术赋能!【公益】大模型技术社区已经上线!
九天&菜菜&菊安酱&木羽老师,30+套原创系统教程,涵盖国内外主流「开&闭源大模型」调用与部署,RAG、Agent、微调实战案例…所有内容免费公开,还将定期追更最新大模型技术进展~
📍完整视频讲解+学习课件+项目源码包获取⬇️请点击原文进入赋范大模型技术社区即可领取~