- 博客(34)
- 收藏
- 关注
原创 亲测有效!4个「越用越会」的AI协作心法,提效80%+| Agentic同行计划
本期非常幸运的采访到了流月同学,除了拥有丰富的大模型落地经验,还是资深的技术主管、后端架构师,并且不吝啬在学习和AI使用上的投入,个人累计投入近20W!在刚开始时他也一度认为AI只能帮倒忙,宁愿把钱扔掉也不再使用AI辅助工具,到现在AI提效80%以上!采访过程中,也感受到了流月同学不止有非常丰富的开发经验,对人文的思考、对哲学的思考也非常深刻,如:“康德曾说过:人是目的而不是手段”“不要结果而享受过程,AI是无法替代你的”“AI没有童年,它就没有独特的经历”“不能为了用AI而用AI”……
2025-04-08 22:00:00
221
原创 「有问必答栏目」关于LLM,回答一个好问题(3.31-4.6)
Debug的话,首先需要看下报错的日志信息,如果是出现retry字样,大概率是没连上GPT模型,此时需要看下配置文件里面的模型名称、API-KEY和反响代理地址有没有填写正确,而如果是出现类似empty字样,则说明模型没有顺利识别实体,此时可以考虑换成更高性能的模型,比如GPT-4o来构建知识图谱,或者对数据集进行下清洗,使其表意通畅。虽然是公益性质的社区,但仍希望能尽可能的解决大家的问题,做起来会很困难,但是“为每个人提供有价值的技术赋能”是我们一直以来的企业愿景,也是「赋范大模型技术社区」建立的初衷。
2025-04-08 17:23:57
571
原创 重写万行代码+重构项目结构,KTransformers最新V0.24版部署与调用实战!
KTransformers(发音为“Quick Transformers”)旨在通过先进的内核优化和计算分布/并行化策略 来增强你使用Transformers的体验。KTransformers 是一个灵活、以 Python 为中心的框架,其核心设计理念是可扩展性。与 Transformers 兼容的接口符合 OpenAI 和 Ollama 规范的 RESTful API一个简化版的 ChatGPT 风格 Web UI(最新版已弃用)
2025-04-07 18:42:44
670
原创 「有问必答栏目」关于LLM,回答一个好问题(3.24-3.31)
公益性质的「赋范大模型技术社区」现已集结超3W大模型技术学习者、爱好者!干货技术帮助超400W次成长!作为中文互联网头部大模型技术学习聚集地,除了前沿、硬核的干货内容,还有专门负责社群的同事,维护良好的学习氛围,帮助每个阶段的小伙伴都能在社群内获得自己需要的干货内容。而社区交流,一直是「赋范大模型技术社区」不可或缺的一部分,社区内的成员技术、知识、观点的交流,有问题一起解决的学习氛围,是加速成长的秘籍。
2025-04-02 12:29:57
668
原创 【源码级详解】MCP+DeepSeek-V3-0324搭建 mini Manus 开发实战!
本文内容出自九天老师公开课,介绍DeepSeek-V3-0324最新模型,深度结合MCP进行智能体开发实战,带你手搓一个minimanus!本期内容是实战完整部分,DS函数调用详解和MCP讲解可进入社区领取完整版。话不多说,我们直接开始!
2025-04-01 22:45:00
1098
原创 Open AI 官宣将开源推理模型!这是DeepSeek给逼的了(手动狗头
⏰今晚(周二)8:30!🚀九天老师将开启【Agents-SDK+MCP+DeepSeek】公开课直播,从零带你「手搓mini manus」!过去五年,Open AI 以 GPT 系列模型占领高地,而 DeepSeek 的“开源+低成本”组合拳彻底改变了游戏规则。这是继2019开源 GPT-2 后,首次打破“闭源垄断”战略,而这场变革的背后, DeepSeek 成最大推手~这几个月各家大模型你追我赶,多重压力下,Open AI终于想起来自己名字里的“Open”了🤭。OpenAI终于要Open了?
2025-04-01 16:29:23
362
原创 10+年编程经验:拥抱新技术才是立身之本 | Agentic同行计划
为每个人提供最有价值的技术赋能」,2025年我们和赋范空间的小伙伴们一起来!发起的“Agentic 时代同行计划”会和我们的学员一起,分享自己的经历、经验,集结群体的智慧一起拥抱Agentic新时代!受访者:Marmot同学,10+年工作经验,大模型项目落地负责人
2025-03-30 14:06:46
996
原创 [特殊字符] 欢迎使用赋范大模型技术社区 | Getting started
我猜咱们未来可能会有一些更深的链接,或者会有一些机会合作点什么,为了能更高效愉悦地沟通,不妨先查看这篇「社区使用说明文档」💓~
2025-03-29 18:30:00
672
原创 代码能力太弱,如何借助大模型落地企业项目?| Agentic同行计划
想清楚之后借助大模型帮助开发是很快的,比如我现在使用一个开源的RAGflow,我看中了它的知识库能力,想要自己做一个适配自己内部的知识库管理页面,就可以直接使用cursor帮我们开发好前后端实现快速上线。在我刚开始时,非常想要快速的接收所有的学习内容,所以就各种看课程和相关视频,但是自己动手实践比较少,很多内容没有自己从0到1的来一遍,这样导致自己在实际中,总是出现有印象但就是写不出来的尴尬。就像前面说的,现在更多的是要求自己知道怎么使用它就好,之后就是多实践,当我使用的更熟练的时候,还能再变通的去使用。
2025-03-28 16:56:17
1180
原创 花费上百万部署DeepSeek,为什么只能当“陪聊”?0基础搞懂Agent开发框架 | 科普向
AutoGen是微软提出的AI Agent开发框架,也是当下主流开发框架之一。AutoGen框架的第一大特色是支持创建对话式应用。也就是说它构建多代理的方式是使多个智能体能够相互交流,从而促进不同智能体之间的合作以完成最终的任务。简单的理解就是这个框架可以让不同的Agent建立起通信的连接,然后它提供给开发者的使用方式是,其一可以为每个Agent自定义大模型、角色、工具及行为。其二可以创建不同的对话模式,包括一问一答、联合聊天、分层聊天等等,从而实现高度个性化的应用场景设计。
2025-03-27 18:52:20
702
原创 最强Agent大模型!DeepSeek-V3-0324模型详细介绍与深度评测!
实际上,新款V3模型是国内首款、也是全球最强的具备强推理性能的对话模型,而在Agent技术大爆发的今天,这款模型才是DeepSeek盛名之下第一款具备工业级Agent开发能力的基础模型,甚至我相信未来,这款模型的影响力将不输于DeepSeek-R1模型。并且,得益于DeepSeek V3模型架构和R1模型架构完全一致,本地部署的R1模型可以无缝切换到V3模型,而若想进一步深入学习V3模型的Agent开发技术,也欢迎大家扫码加入大模型技术社区,我将持续为大家提供前沿技术视野和技术干货教学。
2025-03-27 16:50:15
923
原创 从0手撕代码搭建MCP Client与Server!详解DeepSeek、ollama、vLLM接入MCP实战!
本期内容详解学习MCP必备技术基础,讲解MCP客户端、服务器开发方法及二者接入流程等等。
2025-03-25 19:00:16
7410
原创 搞大模型开发Dify够用吗?详解企业级大模型项目落地的核心技术要求丨Agentic同行计划
从“陪聊”到“生产力”:企业级大模型项目落地的核心技术要求
2025-03-24 19:12:59
734
原创 微调 vs RAG:大模型落地应该怎么选?看完这篇你就懂了!
“垂直领域应该用微调还是RAG?”“我是要做金融领域的大模型开发,选微调还是RAG?
2025-03-20 16:57:03
535
原创 手把手教你,动手写一个MCP Server并在 Cline中使用!
「MCP技术实战」来啦‼️带你从0到1快速掌握这项爆火🔥Agent技术!
2025-03-20 14:58:03
3722
1
原创 双非硕士转行大模型,拒绝百度算法offer,入职鹅厂的核心能力是什么? | Agentic同行计划
九天老师的python课程至,今仍然是我看了市面上全部python课程讲的最清晰易懂的(尤其是对我这种从上大学开始已经七八年再没接触任何数学知识的人来说,真的是救命稻草!花钱上课的目的,我觉得不管是校招还是转行,最需要的首先是框架明确,思路梳理清晰,知道自己未来要投递的方向需要哪些技能,JD一般会怎么设置(虽然也是跟菜菜老师学的。我觉得是自己根据自己,不管是在校期间的项目场景还是在企业的业务场景,能认真思考哪些环节是可以用大模型或者Agent 实现的,首先明确能干活的场景。
2025-03-15 00:14:45
792
原创 消费级显卡微调工业级大模型!仅需20G显存,QwQ-32B高效微调实战!
QwQ微调实战教程来啦,最低20G显存,快速打造定制化QwQ-32B推理大模型!
2025-03-14 19:26:35
1738
原创 60G内存+14G显存运行满血DeepSeek R1!Ktransformers+Unsloth联合部署方案实践!
采用KTransformers部署Unsloth动态量化DeepSeek R1满血模型的全网最高性价比部署方案!
2025-03-13 21:01:12
1912
原创 OpenAI Agent发布会独家深度解读!两年来最大更新!10行代码即可开发专属Manus智能体!
而最最最关键的是,OpenAI还开源了能实现response API全套功能的OpenAI Agents SDK,不同于去年开源的swarm是一个实验项目,现在的Agents SDK是一个真正意义的企业级Multi Agent开发工具,这也是OpenAI截止目前最有诚意的开源项目。观前提醒,这场发布会信息量巨大,光是更新的技术文档就有3万多字,我尽量用通俗的语言帮大家梳理最高价值的信息,此外,我们团队第一时间翻译了本次OpenAI大更新的完整技术文档,大家感兴趣的话扫码即可领取。
2025-03-12 11:57:53
491
2
原创 比肩DeepSeek!QwQ+ollama、vLLM、llama.cpp部署方案详解,个人&企业部署方案介绍!
QwQ是Qwen系列的大模型之一,专注于推理能力(reasoning)。相比于传统的指令微调(instruction-tuned)模型,QwQ 具备思考与推理(thinking and reasoning)的能力,因此在各种下游任务(特别是复杂问题)上,能实现显著的性能提升。QwQ-32B是该系列的中等规模推理模型,其性能可媲美当前最先进的推理模型,如和o1-mini。
2025-03-11 14:56:28
1533
原创 QwQ vs DeepSeek!QwQ模型性能深度评测!谁才是开源一哥?
整体来看,QwQ除了在逻辑推理能力、真实物理世界理解能力,以及科研能力方面,和DeepSeek R1有一定的差距外,其他方面能力,如编程、数学、长文本编写、问答和翻译等,均能达到85%以上DeepSeek R1的水准。看起来两个模型的问答都很精彩,但相比之下QwQ模型对于拿破仑的知错改错不认错的性格,把握的更加到位,这点可以在QwQ模型的思考过程中看出。QwQ-32B模型性能评测来啦!最后一个问题,是一个量子力学问题,问的是两个不同寿命的量子态,需要多少的能量差,才能在观测的时候被分开。
2025-03-07 22:11:28
931
1
原创 全栈大模型知识库,持续更新!0基础无忧!
在淘宝、闲鱼等平台上,不少商家打着“本地部署”的概念兜售DeepSeek接入教程,标价最高达到10万元,最低仅有0.01元。根据需求选择不同的基座模型,进行微调、RAG、Agent开发,才能算真正学会了大模型,而这些都能在大模型技术社区中找到。大模型技术社区2.0版本最新更新,专业助教老师耗时半个月整理,0基础的小伙伴也能快速定位自己所需要的技术。随着DeepSeek的爆火,掌握 DeepSeek 已经不仅仅是程序员的专利,而熟悉大模型的小伙伴们都知道,学会DeepSeek部署只是入门大模型第一步,
2025-03-07 16:51:35
604
原创 QwQ模型介绍与性能实测!1/10硬件成本,性能比肩DeepSeek R1模型
而现在,时隔3个月,QWQ模型再度回归,和此前Preview模型不同,现在的QWQ-32B正式版模型能力暴涨,在数学、编程等推理领域的能力甚至和671B的DeepSeek R1模型相当,并在强化学习的后训练阶段,原创性的提出了多段强化学习训练法,并在每个RL训练阶段,单独专注于提升模型的某一个方面的能力,如第一个阶段训练模型代码能力、第二个阶段训练模型编程能力等。QWQ系列模型,是阿里千问模型中的推理类大模型,早在去年12月就发布了QWQ-32B-Preview预览模型,也是当时业内最早开源的推理大模型。
2025-03-06 18:32:14
1782
原创 万元服务器运行满血DeepSeek!全网最全低成本部署方案+硬件采购避坑指南!
相比之下,Unsloth提出的动态量化方案会更加综合一些,所谓动态量化的技术,指的是可以围绕模型的不同层,进行不同程度的量化,关键层呢,就量化的少一些,非关键层量化的多一些,最终得到了一组比Q2量化程度更深的模型组,分别是1.58-bit、1.73-bit和2.22-bit模型组。· 确认硬件型号和运行模式:如果是CPU+GPU混合推理,那4代志强CPU推理性能更强,如果是纯GPU推理,需要确认是图形显卡、如A6000,还是推理训练一体显卡,如A100,如果图形显卡,那未来可能无法进行模型训练和模型微调;
2025-02-24 18:42:52
2699
原创 【全网首个】KTransformer部署高性能DeepSeek R1模型实战
DeepSeek R1满血版模型是一个671B的超大尺寸模型,正常部署需要至少1200G显存左右,哪怕是半精度运行,也需要490G以上的显存,需要8卡A100服务器才能带动。现在,借助KTransformers,我们可以将部分模型权重加载到内存上,并且分配部分计算工作由CPU完成,从而大幅降低GPU的负载!但是由于KTransformers需要深度挖掘硬件计算性能,因此部署和调用会需涉及到非常多硬件底层的库,项目部署和使用门槛很高。很多bug全网都没有解决方案!
2025-02-20 20:24:02
5155
5
原创 基于DeepSeek与Swarm的全场景多智能体客服实战解析(含全套源码)
这里需要注意的是,对于大多数在线服务的API来说,都需要通过API key来进行身份验证,尽管OpenWeather相对更加Open,有非常多的免费使用的次数,但身份验证仍然是必要的防止API被滥用的有效手段。而在Chat模型执行Function calling时,模型会根据用户提问的语义自动检索并挑选合适的函数进行使用,整个过程并不需要人工手动干预指定使用某个函数,大预言模型能够充分发挥自身的语义理解优势,在函数库中自动挑选合适函数进行运行,并给出问题的答案。湿度为21%,风速为5.12米/秒。
2025-02-19 19:44:18
1297
原创 0基础也能学会的DeepSeek 蒸馏实战
在 combined_text 字段中, <|begin_of_thought|> 和 <|end_of_thought|> 用来标记 思维过程的开始和结束,而 "<|begin_of_solution|>" 和 "<|end_of_solution|>" 用来 标记解决方案的开始和结束。:在长时间的预训练任务中,系统中断或需要暂停是常见的情况。并且,DeepSeek R1模型的蒸馏过程也非常简单,直接使用R1训练过程中,第三步的80万条精选数据集,对其他小尺寸模型进行SFT有监督微调即可。
2025-02-18 21:14:24
1591
原创 【万字详解】DeepSeek R1是如何训练出来的
此时我们再输入“长江、”,模型就不再进行成语接龙,而是会理解当前是一个对话任务,模型会推测用户的对话意图,可能是想要了解长江的一些信息,因此,模型的回复就是一系列关于长江的基本信息。Base模型呢还处于牙牙学语的状态,能够根据自己所学知识,完成类似“成语接龙”的对话,例如我们输入“长江、”,模型就会输出“黄河”,这是因为模型训练的语料中,长江往往和黄河一起出现。GRPO能够以极低的算力消耗,在持续的训练过程中让大模型自主诞生思考能力,也就是原论文中重墨重彩描绘的模型“aha时刻”,也就是模型“开悟”时刻。
2025-02-17 16:57:28
1084
原创 可能是全网首个DeepSeek R1 GRPO算法实战教学
DeepSeek R1极具开创性的提出了一整套模型训练方法,其中最大的功臣就是今天要实战的GRPO算法。
2025-02-16 21:31:18
1258
原创 0基础构建DeepSeek私有知识库问答【极速实战】
全网用上DeepSeek后,最苦恼的就是“服务器繁忙,请稍后再试”除此之外,有想法的小伙伴希望他能回答自己行业的问题,如法律、医疗等领域,DeepSeek就“信口开河”。让大模型既保持通用智慧,又能精准驾驭特定领域的知识(还要规避服务器繁忙)就是本次为大家带来的「DeepSeek+RAG」要完成的使命🫡
2025-02-12 18:43:22
1032
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人