- 博客(684)
- 收藏
- 关注
原创 Transformer架构精讲:从原理到实践,一文读懂大模型的核心技术(建议收藏)
本文详细解析了Transformer架构的核心原理,通过通俗易懂的方式讲解tokenization、词嵌入、位置编码及注意力机制等关键技术。无论你是AI初学者还是希望深入理解大模型的开发者,本文都能帮助你系统掌握这一革命性架构,为理解和应用大语言模型奠定坚实基础。花了一点时间来学习和研究经典的transformer架构及原理,这个是2017年谷歌的一个论文,开拓了AI的新时代,尽量通俗易懂的解释一下,做好笔记把它记录下来。
2025-10-05 10:03:10
1129
原创 收藏必备:大模型微调全流程:从ChatGLM-6B到Qwen2.5-7B的实战指南
本文系统总结了大模型微调的完整流程,从目标确定、数据准备到模型部署的7大步骤,详解了LoRA参数高效微调原理。无论你是初学者还是有一定经验的开发者,都能通过本文掌握微调大模型的核心技术与方法,提升模型在特定场景的性能表现。前面2篇做了模型微调实战,一个是智谱ChatGLM-6B模型,另外一个Qwen2.5-7B模型,这篇在实战的基础上做一个总结,梳理出模型微调的一般流程。大模型微调(Fine-tuning)是在预训练模型的基础上,通过特定领域或任务的数据进行针对性训练,以提升模型在目标场景中的性能。
2025-10-05 10:02:05
962
原创 收藏必备!从LangChain到LangGraph:大模型开发框架全方位解析与实战指南
本文系统对比了LangChain、LangGraph和LangSmith三大AI开发框架的核心特性与应用场景。LangChain提供链式编程接口,适合简单任务;LangGraph支持动态工作流编排,是构建复杂Agent系统的理想选择;LangSmith作为监控平台,提供调试、追踪和评估功能。文章还解析了RAG技术如何通过检索增强生成解决LLM的知识局限问题。三大框架各司其职又相互协同,为开发者提供了从基础调用到复杂系统构建的全套工具链,是开发现代AI应用的重要技术支撑。
2025-10-04 19:38:01
1578
原创 【珍藏】企业级RAG系统构建全攻略:从文档预处理到生成增强
摘要:本文剖析企业级RAG系统构建的三大核心环节——文档预处理、召回与生成增强,针对复杂文档处理、问题优化等难点提供实用解决方案。通过统一文档格式、多维度问题优化、上下文压缩等技巧,提升系统效率与准确性。文章强调业务场景适配的重要性,并分享文档转换、标签提取等实战经验,帮助开发者构建高质量RAG系统。最后指出AI时代率先掌握技术者的竞争优势,呼应大模型学习的重要性。全文兼顾技术深度与实用价值,为RAG项目优化提供系统指导。
2025-10-04 19:31:17
858
原创 【建议收藏】手把手教你搭建Agent:从基础到进阶,扣子平台实战指南
近一年agent不断火热,或是大模型借助工具自助决策完成任务,或是通过静态编排的工作流自动顺序执行结果,让我们在处理相关任务时效率得到指数级提高。尽管可以在很多智能体商店找到一些场景下的agent项目,但为了能够个性化满足自己的需求,最好还是可以自己了解、尝试搭建一些基础agent。本篇就以扣子平台为例,给大家做个agent的入门介绍(其实各平台比如dify、n8n业务逻辑都大差不差,选择扣子是因为国内平台,好理解些);
2025-08-29 16:21:13
985
原创 手把手教你在 Windows 上轻松部署本地大语言模型:Ollama 与 Open-WebUI 的完整指南!
欢迎来到本教程!本文将详细介绍如何在。
2025-06-24 16:07:36
1023
原创 Hugging Face Transformers库入门,轻松调用BERT、GPT等预训练模型!
回想起来,Transformers库最大的价值不是让我们变懒了,而是降低了AI的门槛。以前只有大厂才能玩得起的深度学习模型,现在个人开发者也能轻松上手。这种技术民主化的趋势,正在重塑整个行业的格局。不过话说回来,工具再好,基础还是要扎实。理解Attention机制、掌握模型调优技巧、知道何时该用什么模型,这些"内功"才是真正的核心竞争力。毕竟,会用锤子不等于会盖房子,你说对吧?
2025-06-24 16:01:36
907
原创 一个月面试17家公司!打不过就加入!如何踩中风口转行AI算法工程师?
“面了17家,挂了15家,最后2家给的薪资还不如我现在的工作……”这是半年前一位转行AI失败的读者给我的留言。但短短4个月后,他成功入职某大厂AI算法岗,薪资翻倍。
2025-06-11 17:03:02
816
原创 为什么那么多人转行AI产品经理?
随着年初Deepseek的爆火,AI工具彻底进入到更加大众的视野里。在感叹AI工具的进步时,AI产品经理这个岗位也变得十分火热。在其之前,互联网转行大热岗位就已经是产品经理了。而现在,则从“人人都是产品经理”细分到“人人都是AI产品经理”
2025-06-11 16:53:08
863
原创 转行AI产品经理的秘诀:不懂AI的产品经理正被淘汰,而AI产品经理却在“躺赚“
当ChatGPT横空出世,当AI绘画刷屏朋友圈,当智能客服越来越"聪明"……你有没有想过,这些改变我们生活的AI产品背后,都有一群特殊的"产品经理"在默默耕耘?
2025-06-07 18:29:07
936
原创 拿下36K的AI产品经理offer,他是如何实现职业转型的?
随着人工智能技术的飞速发展,AI产品经理这一职位逐渐成为科技行业的香饽饽。不少技术专业的应届生、技术岗、行业经验资深产品经理纷纷转型AI赛道。
2025-06-07 18:25:47
834
原创 GitHub 42k Star项目,全网疯传的大模型神书,还学不会算我输!
知名人工智能研究员、畅销书《Python 机器学习》的作者 Sebastian Raschka 最近又有一本新书出版 Build a Large Language Model from Scratch !
2025-06-07 18:18:30
621
原创 超实用!Dify快速接入本地MCP服务
Dify 可以通过插件实现 MCP 服务调用,而被调用的 MCP 服务基本可以分为以下两类:通用 MCP 服务(非本地 MCP 服务)。本地 MCP 服务。
2025-06-04 15:21:00
4291
原创 Qwen3 4B + LLaMA Factory: 让大模型高效学习新闻领域分类
本教程以Qwen最新开源的 Qwen3-4B-Instruct 模型为例,介绍如何使用 PAI 平台及 LLaMA Factory 训练框架微调得到新闻标题分类器:给定新闻的类别范围,通过自然语言触发新闻标题分类的功能,并以特定的格式进行返回。
2025-06-04 14:59:20
785
原创 从入门到精通Transformer,掌握NLP技术这本书必看《从零开始构建最先进的NLP模型》
ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!
2025-06-03 16:29:44
1066
原创 解构 Transformer:用图解透视 AI 时代的核心模型
以下是整理后的笔记版本。这部分的所有内容都是针对训练单个微型批次,这意味着不同图中的所有张量都是一起的。为了使内容易于理解,并借鉴笔记本中的想法,我们将训练模型来复制标记。例如,一旦训练完成,“dog run”应该翻译成“dog run”。
2025-06-03 16:28:38
684
原创 斯坦福大佬笔记曝光!带你彻底搞懂 Transformer 与 LLM 大语言模型
想象一下你在阅读一句话:“我今天下午在公园里看到一只可爱的泰迪熊在看书。”过去的模型(比如 RNN、LSTM) 就像一个眼神不太好的人,从左到右一个词一个词地读,读到后面的词就可能忘了前面的细节,而且一次只能处理一个词,效率不高。处理长句子时,它可能只记得“看书”,但忘了是谁在看书(泰迪熊)。
2025-06-03 16:14:39
1029
原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码
复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!
2025-06-01 11:30:00
171
原创 使用Ollama本地运行大模型,彻底杜绝私有信息泄露,无限token随便用
这一篇介绍,如何把大模型搬到本地,彻底杜绝个人或企业知识泄露和无限token的问题。本文提到的工具:Ollama + DeepSeek + CherryStudio(可选)当然如果有条件,可以自行对大模型进行微调,训练更符合自己需要的大模型。这个需要一定的硬件要求和技术能力支撑,不在本篇探讨范围。
2025-05-30 21:34:06
1434
原创 使用Ragas自动化评测RAG知识问答系统的各项表现
Hello,大家好呀。用纯代码手搓了一个RAG本地知识问答系统,使用过程中发现:如果本地文档文档质量比较高的情况下,答案还是相当不错的一旦知识库文件质量本身不好,或者知识库文件过多,相似的知识被分散在了不同的块,回答就会出现偏差。
2025-05-30 21:32:02
920
原创 2024清华大学:大模型安全实践白皮书(附42页完整PDF下载)
该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。
2025-05-29 16:08:18
744
原创 一文说清楚“知识蒸馏“(让“小模型”也能拥有“大智慧”)
知识蒸馏是一种机器学习技术,目的是将预先训练好的大型模型(即 “教师模型”)的学习成果转移到较小的 "学生模型 "中。蒸馏技术可以帮助我们开发更轻量化的生成模型,用于智能对话、内容创作等领域。
2025-05-29 16:06:41
1121
原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码
复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!
2025-05-27 11:31:24
295
原创 Dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选?超详细指南~
这篇文章会从实用角度出发,通过详细的功能对比、真实的使用体验和具体的应用场景,帮助你在Dify、Coze、n8n、FastGPT和RAGFlow这五款主流平台中找到最适合自己的那一个。无论你是AI开发者、企业用户,还是刚接触AI的新手,这篇对比分析都能为你提供清晰的选择指南。
2025-05-27 11:29:54
1813
原创 十分钟学会微调大语言模型
本文就来介绍一种大语言模型微调的方法,使用的工具是我最近在用的 Text Generation WebUI,它提供了一个训练LoRA的功能。
2025-05-23 16:01:12
999
原创 清华大学:大模型安全实践白皮书(附完整PDF下载)
该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。
2025-05-23 15:59:41
555
原创 使用LangChain写一个生成文章标题、描述以及给出优化建议的智能写作助手
在本章节中,我们将通过构建一个简单的基于 Qwen3-32B 的大语言模型(LLM)的写作助手来介绍 LangChain。
2025-05-21 16:07:47
1153
原创 别再只会聊天了!带你搞懂 AI Agent + Function Calling 全流程
别再只会聊天了!带你搞懂 AI Agent + Function Calling 全流程
2025-05-21 15:55:12
699
原创 LLM入门必读!两本顶级AI大模型书籍,国内国外巅峰之作!
当下,大模型无疑仍是最具前沿性、就业市场覆盖范围最广泛的研究与应用方向。在这里各位初学者精心推荐两本大模型相关书籍,这两本书是目前我所接触到的、最适合初学者实现从入门到进阶学习需求的优质书籍。
2025-05-20 17:50:40
351
原创 dify案例分享-魔搭+Dify王炸组合!10分钟搭建你的专属 生活小助理
今天主要带大家了解并实现了基于魔搭社区 MCP 广场和 Dify 平台的 AI Agent 智能体工作流方案。我们介绍了 MCP Server 的相关概念,包括其架构、工作原理、主要功能以及发展现状。MCP Server 作为一种轻量级服务程序,为 AI 模型与外部资源的连接提供了高效、安全的解决方案。这个方案属于比较实用且具有一定创新性的方案,能够帮助用户打造一个集吃饭、学习、看新闻、出门旅行为一体的 AI Agent 智能体。感兴趣的小伙伴可以按照本文步骤去尝试。
2025-05-15 22:06:20
1185
原创 Qwen3 本地部署指南:打造完全离线的AI助手
本指南面向程序员读者,将详细介绍如何在本地机器上部署 Qwen3,无需依赖任何云服务或 API 密钥。
2025-05-13 14:16:01
2715
原创 2024清华大学重磅发布:大模型安全实践白皮书(附42页完整PDF下载)
该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。
2025-05-13 14:12:06
370
原创 LangChain+WebBaseLoader实现大模型基于网页内容的问答系统
"""基于检索增强生成(RAG)的对话机器人该类实现了一个完整的RAG对话系统,包括:1. 从网页加载知识库2. 文本切分与向量化存储3. 基于历史的检索增强4. 多轮对话记忆"""self,):"""初始化RAG聊天机器人参数:ollama_base_url (str): Ollama API的基础URLllm_model (str): 用于生成回答的语言模型名称embedding_model (str): 用于文本嵌入的模型名称。
2025-05-07 15:52:08
1074
原创 “返回个啥玩意儿?”用LangChain4j优雅格式化LLM结果!
终于来到最强的部分!你可以让 LangChain4j 把模型返回的结构化数据,自动映射到你定义的 Java 类上。比如我们定义一个 POJO:然后定义服务接口:LangChain4j 会使用 Jackson 或者 Gson(具体视你依赖而定)来解析 JSON,并自动转为 Java 对象!只要模型能返回类似这样的结构化数据:你就能直接拿到一个 Java 对象,无需手动解析。
2025-05-05 15:19:50
985
原创 【AI大模型微调实战】Qwen2-0.5B+Lora+alpaca_zh 微调实战,附完整可运行源代码
预训练大模型在训练过程中,虽然学到了很多通用知识,但是很多时候,大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”,它可能会给出一个笼统的解释。但要是让模型严格按照某一格式(比如论文格式)回答时,可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式,但这并不改变模型的本质。因此,对这种需要改变模型回答模式的需求,我们一般对预训练模型进行微调。大模型微调的方法有很多。
2025-05-03 14:15:00
1028
原创 从入门到精通Transformer,NLP小白跟学系列《从零开始构建最先进的NLP模型》
国内第1本Transformer——变形金刚红书《从零开始构建最先进的NLP模型》如果一定要说未来谁能引领人工智能世界,是Transformer而非chatGPT!编辑推荐★★★★★ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!
2025-05-01 09:30:00
671
原创 通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
总结来说,client 应用负责管理跟 MCP Server 的连接、发现工具有哪些,并在 AI 大模型和 MCP Server 之间充当信使。它将用户 prompt 和可用的工具信息发送给大模型。至于具体的工具使用决策权,还是在于 LLM。LLM 根据用户问题和收到的工具描述/格式,判断是否需要使用工具,以及使用哪一个。这实际上也是 MCP 的核心价值:MCP 并没有发明工具调用的概念,它只是围绕大模型的工具调用能力,提供了一套标准化的通信协议和框架。
2025-04-28 16:43:28
1785
原创 从零开始开发一个 MCP Server!保姆级教程!
本文从 MCP Server 开发实战出发,完整演示了从零搭建一个 MCP Server 的流程。你不仅掌握了 MCP Server 的构建方式,也能体验到了 MCP 工具在开发者日常工作中带来的提效魔法。
2025-04-28 16:26:24
2589
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅