「有问必答栏目」关于LLM，回答一个好问题（3.24-3.31）

赋范大模型技术社区

于 2025-04-02 12:29:57 发布

阅读量695

点赞数 5

CC 4.0 BY-SA版权

文章标签：人工智能 ai AI编程 python 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fufan_LLM/article/details/146941387

公益性质的「赋范大模型技术社区」现已集结超3W大模型技术学习者、爱好者！干货技术帮助超400W次成长！

作为中文互联网头部大模型技术学习聚集地，除了前沿、硬核的干货内容，还有专门负责社群的同事，维护良好的学习氛围，帮助每个阶段的小伙伴都能在社群内获得自己需要的干货内容。

而社区交流，一直是「赋范大模型技术社区」不可或缺的一部分，社区内的成员技术、知识、观点的交流，有问题一起解决的学习氛围，是加速成长的秘籍。

虽然负责社群运营的小伙伴一直用心管理，但现在社群数量已经接近80个，会出现已有问题被重复回答，或是问题较多，自己的问题被遗漏的情况。

能提出一个好问题，本身就是一件非常有价值的事情！

虽然是公益性质的社区，但仍希望能尽可能的解决大家的问题，做起来会很困难，但是“为每个人提供有价值的技术赋能”是我们一直以来的企业愿景，也是「赋范大模型技术社区」建立的初衷。

在这样的前提下，我们发起了“回答一个好问题”栏目！精选往期精华问答及高频问答（不限于老师的回答），并由专人进行维护、整理和编辑，目的是帮助大家更好的学习！

🤩 十个好问题

Q1：R1能进行Agent开发吗？

1. R1没有Function calling功能，无法调用外部工具，若通过嫁接的方法让R1模型能够间接调用外部工具，实现效果也非常不稳定，达不到工业级应用水准

2. R1每次对话都先进行复杂的思考，Agent要求模型短频快的进行多次响应，这就导致借助R1构建的智能体运行效率非常低；

3. R1模型还存在一定的幻觉，会无中生有的创造一些“事实”，这对于一个需要精密复杂协作的Agent来说，会严重影响准确率。

Q2：微调大模型的数据集该如何整理？有什么流程吗？

1. 先判断是否真的需要微调，大部分时候，90%的场景里根本不需要微调，需要的是RAG。

2. 如果真的需要微调，需要收集整理所有格式的数据，pdf、word等去掉图像提取出纯文字，表格数据中有文字的部分提取成文字，全是数字的表格是用不上的，整理出自己有的数据之后，分辨能用于微调的和不能用于微调的。

- 只要是文字描述的、都可以用于微调，语言风格、专业能力适合微调

- 纯数字表格不适合微调、纯粹需要让模型“记住”的信息（比如用户列表、产品列表）不适合微调

3. 如果有适合微调的文字数据，将文字数据直接全部链接起来，轮流上去重算法、祛毒算法，让大模型结合数据做一些人造的问答对增加数据多样性，保存成JSONL，然后直接按token分割，走常规微调流程。

4. 如果没有适合微调的数据，那就要么用规则来造，要么用大模型来造，总之得整理出适合微调的问答对数据，然后再上去重算法、祛毒算法、结合一些开源的数据增加多样性、保存成JSONL，按token分割，走微调流程。

Tips：这里是没有通用的代码的，因为每个公司的原始数据不一样，会导致处理的流程就不一样。但是这里面几乎所有流程的代码都可以依赖GPT或者deepseek来写，因为这些代码本身都比较简单。

总结：在做微调之前先判断自己的任务到底适不适合微调，根据我的经验，大部分时候都不需要微调，大部分企业也没有足够的算力和足够的时间来做微调，不如RAG简单快捷成本还低一些

Q3:老师直播演示用的OpenWeather是收费的吗？

公开课里用到的，查询天气的网站是免费的，并且无需使用任意魔法，同时调用的API也是免费的，属于公益性质的API，所以才会作为教学使用。

API获取，注册后申请即可，无需付费。

Q4：大模型做SQL数据库查询不靠谱，有什么办法吗？

大概率和你的Prompt有关系，直接和大模型说“做下数据分析”肯定是不行的，但是你可以制作一个专家文档或数据词典，并配合详细的Prompt，再让他去查数据，就会非常准确了。

大模型思考不准确的核心原因，不是思考能力不行，只是他不知道当前数据集之间的潜在关系，已经不知道一些专有名词。

Q5：最快搭建Agent的方法是什么？

如果一定追求速度的话，那CrewAI+AtoGen+OpenAI的Agent Python是最容易的，几行代码就能创建一个多智能体系统，比低代码平台如Dify、Coze这些低代码平台还快。但是只能做出来玩，如果是企业级开发，那都还是需要系统学习的。

Q6：低代码平台如Dify做企业知识库有什么优缺点吗？

优点就是快，部署简单。

缺点是很难优化，这是所有低代码开发框架都有的特性，因为本身就是通过拖拉拽的方式进行开发，所以很多功能都是定死的，优化空间有限。

同时如果逻辑复杂，数据量大，这些低代码开发框架用起来会非常卡。

Q7：MCP应该用ts编写？还是用Python编写？

ts语言或Python都支持相关编写，但一般都是用的Python来编写MCP，这也更符合大模型技术人的编程习惯

Q8：所有大模型都支持MCP吗？MCP和Function Calling有什么关系？

Function Calling封装好的，方便效用的就是MCP，可以简单这么理解

大模型支持Funciton Calling就支持MCP，但并不是所有的大模型都支持Function Calling，比如R1就不支持。

Q9: 微调后的模型可以量化吗？

微调后的模型，在没有改变模型格式的情况下是可以量化的，借用Llama.cpp即可进行量化

Q10：DeepSeek R1的Q4（int4）版本、1.58比特版本分别能达到原版模型多大的性能？

根据DeepSeek官方发布资讯，671B的Q4量化版本一般能达到原版90%的性能，1.58比特版本，一般能达到原版70%。

实际情况则要被测试过后，看是否能满足自己的需求。

❓猜你想问：

1、为什么我的问题没有得到解答？

大模型技术社区为公益性质社区，不提供付费问答哦~如果你的问题没有得到解答，大概率是

1）群内的大家都比较忙，问题被遗漏了

2）问题过于笼统，不了解具体情况是没办法提供帮助的哦

如：

提问：如何打造一个行业智能体？

建议提问方式：我是xx领域，希望解决xx问题，通过xx技术是否能实现？可以达到xx效果吗？

3）提问被判定为讨论性质的内容，群友不感兴趣也就不会进行回答哦

4）其他未知情况~

2、该如何保障回答质量与真伪？

赋范大模型技术社区为公益性质社区，非官方发布资讯无法保证真伪，群友的回答可以作为你的参考哦。而本文整理问答经过：

1）专人整理与编辑

2）大模型初筛并判定可信度

3）一线总监级技术大佬复核

也请小伙伴注意，问题的提出大都有时间、场景的局限性，可能当时的问题已经有了更好的解决方案。而最好的解决方案，一定是自己实践过哒！

3、如何更快找到相关答案？

1）群友卧虎藏龙，欢迎在社群内提问呀~

2）九天老师每周直播，除了超硬核的前沿、干货内容，还会在中场和临近结束时进行答疑，千万别错过啦！

3）QA文档会收录至大模型技术社区，借用飞书左上角的智能搜索，也能很方便找到相关答案哦~

————————————————————————

为每个人提供最有价值的技术赋能！【公益】大模型技术社区已经上线！

九天&菜菜&菊安酱&木羽老师，30+套原创系统教程，涵盖国内外主流「开&闭源大模型」调用与部署，RAG、Agent、微调实战案例…所有内容免费公开，还将定期追更最新大模型技术进展~

📍完整视频讲解+学习课件+项目源码包获取⬇️请点击原文进入赋范大模型技术社区即可领取～

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。