「有问必答栏目」关于LLM,回答一个好问题(3.24-3.31)

公益性质的「赋范大模型技术社区」现已集结超3W大模型技术学习者、爱好者!干货技术帮助超400W次成长!

作为中文互联网头部大模型技术学习聚集地,除了前沿、硬核的干货内容,还有专门负责社群的同事,维护良好的学习氛围,帮助每个阶段的小伙伴都能在社群内获得自己需要的干货内容。

而社区交流,一直是「赋范大模型技术社区」不可或缺的一部分,社区内的成员技术、知识、观点的交流,有问题一起解决的学习氛围,是加速成长的秘籍。

虽然负责社群运营的小伙伴一直用心管理,但现在社群数量已经接近80个,会出现已有问题被重复回答,或是问题较多,自己的问题被遗漏的情况。

能提出一个好问题,本身就是一件非常有价值的事情!

虽然是公益性质的社区,但仍希望能尽可能的解决大家的问题,做起来会很困难,但是“为每个人提供有价值的技术赋能”是我们一直以来的企业愿景,也是「赋范大模型技术社区」建立的初衷。

在这样的前提下,我们发起了“回答一个好问题”栏目!精选往期精华问答及高频问答(不限于老师的回答),并由专人进行维护、整理和编辑,目的是帮助大家更好的学习!

🤩 十个好问题

Q1:R1能进行Agent开发吗?

1.  R1没有Function calling功能,无法调用外部工具,若通过嫁接的方法让R1模型能够间接调用外部工具,实现效果也非常不稳定,达不到工业级应用水准

2. R1每次对话都先进行复杂的思考,Agent要求模型短频快的进行多次响应,这就导致借助R1构建的智能体运行效率非常低;

3. R1模型还存在一定的幻觉,会无中生有的创造一些“事实”,这对于一个需要精密复杂协作的Agent来说,会严重影响准确率。

Q2:微调大模型的数据集该如何整理?有什么流程吗?

1. 先判断是否真的需要微调,大部分时候,90%的场景里根本不需要微调,需要的是RAG。

2. 如果真的需要微调,需要收集整理所有格式的数据,pdf、word等去掉图像提取出纯文字,表格数据中有文字的部分提取成文字,全是数字的表格是用不上的,整理出自己有的数据之后,分辨能用于微调的和不能用于微调的。

- 只要是文字描述的、都可以用于微调,语言风格、专业能力适合微调

- 纯数字表格不适合微调、纯粹需要让模型“记住”的信息(比如用户列表、产品列表)不适合微调

3. 如果有适合微调的文字数据,将文字数据直接全部链接起来,轮流上去重算法、祛毒算法,让大模型结合数据做一些人造的问答对增加数据多样性,保存成JSONL,然后直接按token分割,走常规微调流程。

4. 如果没有适合微调的数据,那就要么用规则来造,要么用大模型来造,总之得整理出适合微调的问答对数据,然后再上去重算法、祛毒算法、结合一些开源的数据增加多样性、保存成JSONL,按token分割,走微调流程。

Tips:这里是没有通用的代码的,因为每个公司的原始数据不一样,会导致处理的流程就不一样。但是这里面几乎所有流程的代码都可以依赖GPT或者deepseek来写,因为这些代码本身都比较简单。

总结:在做微调之前先判断自己的任务到底适不适合微调,根据我的经验,大部分时候都不需要微调,大部分企业也没有足够的算力和足够的时间来做微调,不如RAG简单快捷成本还低一些

Q3:老师直播演示用的OpenWeather是收费的吗?

公开课里用到的,查询天气的网站是免费的,并且无需使用任意魔法,同时调用的API也是免费的,属于公益性质的API,所以才会作为教学使用。

API获取,注册后申请即可,无需付费。

Q4:大模型做SQL数据库查询不靠谱,有什么办法吗?

大概率和你的Prompt有关系,直接和大模型说“做下数据分析”肯定是不行的,但是你可以制作一个专家文档或数据词典,并配合详细的Prompt,再让他去查数据,就会非常准确了。

大模型思考不准确的核心原因,不是思考能力不行,只是他不知道当前数据集之间的潜在关系,已经不知道一些专有名词。

Q5:最快搭建Agent的方法是什么?

如果一定追求速度的话,那CrewAI+AtoGen+OpenAI的Agent Python是最容易的,几行代码就能创建一个多智能体系统,比低代码平台如Dify、Coze这些低代码平台还快。但是只能做出来玩,如果是企业级开发,那都还是需要系统学习的。

Q6:低代码平台如Dify做企业知识库有什么优缺点吗?

优点就是快,部署简单。

缺点是很难优化,这是所有低代码开发框架都有的特性,因为本身就是通过拖拉拽的方式进行开发,所以很多功能都是定死的,优化空间有限。

同时如果逻辑复杂,数据量大,这些低代码开发框架用起来会非常卡。

Q7:MCP应该用ts编写?还是用Python编写?

ts语言或Python都支持相关编写,但一般都是用的Python来编写MCP,这也更符合大模型技术人的编程习惯

Q8:所有大模型都支持MCP吗?MCP和Function Calling有什么关系?

Function Calling封装好的 ,方便效用的就是MCP,可以简单这么理解

大模型支持Funciton Calling就支持MCP,但并不是所有的大模型都支持Function Calling,比如R1就不支持。

Q9: 微调后的模型可以量化吗?

微调后的模型,在没有改变模型格式的情况下是可以量化的,借用Llama.cpp即可进行量化

Q10:DeepSeek R1的Q4(int4)版本、1.58比特版本分别能达到原版模型多大的性能?

根据DeepSeek官方发布资讯,671B的Q4量化版本一般能达到原版90%的性能,1.58比特版本,一般能达到原版70%。

实际情况则要被测试过后,看是否能满足自己的需求。

❓猜你想问:

1、为什么我的问题没有得到解答?

大模型技术社区为公益性质社区,不提供付费问答哦~如果你的问题没有得到解答,大概率是

1)群内的大家都比较忙,问题被遗漏了

2)问题过于笼统,不了解具体情况是没办法提供帮助的哦

如:

提问:如何打造一个行业智能体?

建议提问方式:我是xx领域,希望解决xx问题,通过xx技术是否能实现?可以达到xx效果吗?

3)提问被判定为讨论性质的内容,群友不感兴趣也就不会进行回答哦

4)其他未知情况~

2、该如何保障回答质量与真伪?

赋范大模型技术社区为公益性质社区,非官方发布资讯无法保证真伪,群友的回答可以作为你的参考哦。而本文整理问答经过:

1)专人整理与编辑

2)大模型初筛并判定可信度

3)一线总监级技术大佬复核

也请小伙伴注意,问题的提出大都有时间、场景的局限性,可能当时的问题已经有了更好的解决方案。而最好的解决方案,一定是自己实践过哒!

3、如何更快找到相关答案?

1)群友卧虎藏龙,欢迎在社群内提问呀~

2)九天老师每周直播,除了超硬核的前沿、干货内容,还会在中场和临近结束时进行答疑,千万别错过啦!

3)QA文档会收录至大模型技术社区,借用飞书左上角的智能搜索,也能很方便找到相关答案哦~

————————————————————————

为每个人提供最有价值的技术赋能!【公益】大模型技术社区已经上线!

九天&菜菜&菊安酱&木羽老师,30+套原创系统教程,涵盖国内外主流「开&闭源大模型」调用与部署,RAG、Agent、微调实战案例…所有内容免费公开,还将定期追更最新大模型技术进展~

📍完整视频讲解+学习课件+项目源码包获取⬇️请点击原文进入赋范大模型技术社区即可领取~

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值