自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(674)
  • 收藏
  • 关注

原创 转行AI产品经理的秘诀:不懂AI的产品经理正被淘汰,而AI产品经理却在“躺赚“

当ChatGPT横空出世,当AI绘画刷屏朋友圈,当智能客服越来越"聪明"……你有没有想过,这些改变我们生活的AI产品背后,都有一群特殊的"产品经理"在默默耕耘?

2025-06-07 18:29:07 531

原创 拿下36K的AI产品经理offer,他是如何实现职业转型的?

随着人工智能技术的飞速发展,AI产品经理这一职位逐渐成为科技行业的香饽饽。不少技术专业的应届生、技术岗、行业经验资深产品经理纷纷转型AI赛道。

2025-06-07 18:25:47 621

原创 GitHub 42k Star项目,全网疯传的大模型神书,还学不会算我输!

知名人工智能研究员、畅销书《Python 机器学习》的作者 Sebastian Raschka 最近又有一本新书出版 Build a Large Language Model from Scratch !

2025-06-07 18:18:30 325

原创 超实用!Dify快速接入本地MCP服务

Dify 可以通过插件实现 MCP 服务调用,而被调用的 MCP 服务基本可以分为以下两类:通用 MCP 服务(非本地 MCP 服务)。本地 MCP 服务。

2025-06-04 15:21:00 580

原创 Qwen3 4B + LLaMA Factory: 让大模型高效学习新闻领域分类

本教程以Qwen最新开源的 Qwen3-4B-Instruct 模型为例,介绍如何使用 PAI 平台及 LLaMA Factory 训练框架微调得到新闻标题分类器:给定新闻的类别范围,通过自然语言触发新闻标题分类的功能,并以特定的格式进行返回。

2025-06-04 14:59:20 569

原创 从入门到精通Transformer,掌握NLP技术这本书必看《从零开始构建最先进的NLP模型》

ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!

2025-06-03 16:29:44 1015

原创 解构 Transformer:用图解透视 AI 时代的核心模型

以下是整理后的笔记版本。这部分的所有内容都是针对训练单个微型批次,这意味着不同图中的所有张量都是一起的。为了使内容易于理解,并借鉴笔记本中的想法,我们将训练模型来复制标记。例如,一旦训练完成,“dog run”应该翻译成“dog run”。

2025-06-03 16:28:38 626

原创 斯坦福大佬笔记曝光!带你彻底搞懂 Transformer 与 LLM 大语言模型

想象一下你在阅读一句话:“我今天下午在公园里看到一只可爱的泰迪熊在看书。”过去的模型(比如 RNN、LSTM) 就像一个眼神不太好的人,从左到右一个词一个词地读,读到后面的词就可能忘了前面的细节,而且一次只能处理一个词,效率不高。处理长句子时,它可能只记得“看书”,但忘了是谁在看书(泰迪熊)。

2025-06-03 16:14:39 910

原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码

复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!

2025-06-01 11:30:00 129

原创 使用Ollama本地运行大模型,彻底杜绝私有信息泄露,无限token随便用

这一篇介绍,如何把大模型搬到本地,彻底杜绝个人或企业知识泄露和无限token的问题。本文提到的工具:Ollama + DeepSeek + CherryStudio(可选)当然如果有条件,可以自行对大模型进行微调,训练更符合自己需要的大模型。这个需要一定的硬件要求和技术能力支撑,不在本篇探讨范围。

2025-05-30 21:34:06 1217

原创 使用Ragas自动化评测RAG知识问答系统的各项表现

Hello,大家好呀。用纯代码手搓了一个RAG本地知识问答系统,使用过程中发现:如果本地文档文档质量比较高的情况下,答案还是相当不错的一旦知识库文件质量本身不好,或者知识库文件过多,相似的知识被分散在了不同的块,回答就会出现偏差。

2025-05-30 21:32:02 690

原创 2024清华大学:大模型安全实践白皮书(附42页完整PDF下载)

该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。

2025-05-29 16:08:18 634

原创 一文说清楚“知识蒸馏“(让“小模型”也能拥有“大智慧”)

知识蒸馏是一种机器学习技术,目的是将预先训练好的大型模型(即 “教师模型”)的学习成果转移到较小的 "学生模型 "中。蒸馏技术可以帮助我们开发更轻量化的生成模型,用于智能对话、内容创作等领域。

2025-05-29 16:06:41 874

原创 10分钟让WPS接入DeepSeek,实现AI赋能

本文介绍如何通过 WPS JS宏调用 DeepSeek 大模型,实现自动化文本扩写功能。

2025-05-29 16:04:45 522

原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码

复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!

2025-05-27 11:31:24 256

原创 Dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选?超详细指南~

这篇文章会从实用角度出发,通过详细的功能对比、真实的使用体验和具体的应用场景,帮助你在Dify、Coze、n8n、FastGPT和RAGFlow这五款主流平台中找到最适合自己的那一个。无论你是AI开发者、企业用户,还是刚接触AI的新手,这篇对比分析都能为你提供清晰的选择指南。

2025-05-27 11:29:54 990

原创 十分钟学会微调大语言模型

本文就来介绍一种大语言模型微调的方法,使用的工具是我最近在用的 Text Generation WebUI,它提供了一个训练LoRA的功能。

2025-05-23 16:01:12 938

原创 清华大学:大模型安全实践白皮书(附完整PDF下载)

该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。

2025-05-23 15:59:41 506

原创 使用LangChain写一个生成文章标题、描述以及给出优化建议的智能写作助手

在本章节中,我们将通过构建一个简单的基于 Qwen3-32B 的大语言模型(LLM)的写作助手来介绍 LangChain。

2025-05-21 16:07:47 1089

原创 别再只会聊天了!带你搞懂 AI Agent + Function Calling 全流程

别再只会聊天了!带你搞懂 AI Agent + Function Calling 全流程

2025-05-21 15:55:12 614

原创 LLM入门必读!两本顶级AI大模型书籍,国内国外巅峰之作!

当下,大模型无疑仍是最具前沿性、就业市场覆盖范围最广泛的研究与应用方向。在这里各位初学者精心推荐两本大模型相关书籍,这两本书是目前我所接触到的、最适合初学者实现从入门到进阶学习需求的优质书籍。

2025-05-20 17:50:40 324

原创 dify案例分享-魔搭+Dify王炸组合!10分钟搭建你的专属 生活小助理

今天主要带大家了解并实现了基于魔搭社区 MCP 广场和 Dify 平台的 AI Agent 智能体工作流方案。我们介绍了 MCP Server 的相关概念,包括其架构、工作原理、主要功能以及发展现状。MCP Server 作为一种轻量级服务程序,为 AI 模型与外部资源的连接提供了高效、安全的解决方案。这个方案属于比较实用且具有一定创新性的方案,能够帮助用户打造一个集吃饭、学习、看新闻、出门旅行为一体的 AI Agent 智能体。感兴趣的小伙伴可以按照本文步骤去尝试。

2025-05-15 22:06:20 663

原创 Qwen3 本地部署指南:打造完全离线的AI助手

本指南面向程序员读者,将详细介绍如何在本地机器上部署 Qwen3,无需依赖任何云服务或 API 密钥。

2025-05-13 14:16:01 1535

原创 2024清华大学重磅发布:大模型安全实践白皮书(附42页完整PDF下载)

该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。

2025-05-13 14:12:06 298

原创 LangChain+WebBaseLoader实现大模型基于网页内容的问答系统

"""基于检索增强生成(RAG)的对话机器人该类实现了一个完整的RAG对话系统,包括:1. 从网页加载知识库2. 文本切分与向量化存储3. 基于历史的检索增强4. 多轮对话记忆"""self,):"""初始化RAG聊天机器人参数:ollama_base_url (str): Ollama API的基础URLllm_model (str): 用于生成回答的语言模型名称embedding_model (str): 用于文本嵌入的模型名称。

2025-05-07 15:52:08 919

原创 “返回个啥玩意儿?”用LangChain4j优雅格式化LLM结果!

终于来到最强的部分!你可以让 LangChain4j 把模型返回的结构化数据,自动映射到你定义的 Java 类上。比如我们定义一个 POJO:然后定义服务接口:LangChain4j 会使用 Jackson 或者 Gson(具体视你依赖而定)来解析 JSON,并自动转为 Java 对象!只要模型能返回类似这样的结构化数据:你就能直接拿到一个 Java 对象,无需手动解析。

2025-05-05 15:19:50 760

原创 【AI大模型微调实战】Qwen2-0.5B+Lora+alpaca_zh 微调实战,附完整可运行源代码

预训练大模型在训练过程中,虽然学到了很多通用知识,但是很多时候,大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”,它可能会给出一个笼统的解释。但要是让模型严格按照某一格式(比如论文格式)回答时,可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式,但这并不改变模型的本质。因此,对这种需要改变模型回答模式的需求,我们一般对预训练模型进行微调。大模型微调的方法有很多。

2025-05-03 14:15:00 846

原创 从入门到精通Transformer,NLP小白跟学系列《从零开始构建最先进的NLP模型》

国内第1本Transformer——变形金刚红书《从零开始构建最先进的NLP模型》如果一定要说未来谁能引领人工智能世界,是Transformer而非chatGPT!编辑推荐★★★★★ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!

2025-05-01 09:30:00 645

原创 通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)

总结来说,client 应用负责管理跟 MCP Server 的连接、发现工具有哪些,并在 AI 大模型和 MCP Server 之间充当信使。它将用户 prompt 和可用的工具信息发送给大模型。至于具体的工具使用决策权,还是在于 LLM。LLM 根据用户问题和收到的工具描述/格式,判断是否需要使用工具,以及使用哪一个。这实际上也是 MCP 的核心价值:MCP 并没有发明工具调用的概念,它只是围绕大模型的工具调用能力,提供了一套标准化的通信协议和框架。

2025-04-28 16:43:28 1238

原创 从零开始开发一个 MCP Server!保姆级教程!

本文从 MCP Server 开发实战出发,完整演示了从零搭建一个 MCP Server 的流程。你不仅掌握了 MCP Server 的构建方式,也能体验到了 MCP 工具在开发者日常工作中带来的提效魔法。

2025-04-28 16:26:24 1386 2

原创 GitHub 42k Star项目,全网疯传的大模型神书,还学不会算我输!

在大多数 LLM 实现倾向于使用高级包(如transformers, timm)的时代,看到通过使用基本的 PyTorch 元素逐步开发 LLM 的核心构建块,真是令人耳目一新。Sebastian Raschka 以深入浅出的方式,从最初的设计和创建,到使用通用语料库进行预训练,直至针对特定任务进行微调,带领读者深刻理解 LLM 的内部工作原理。这本书强烈推荐给那些希望了解大语言模型实践经验的人。这本书中,作者通过简明的文字、直观的图表和具体的实例,逐步揭示了构建大语言模型(LLM)的全过程。

2025-04-25 17:17:11 784

原创 一文秒懂AI核心:Agent、RAG、Function Call与MCP全解析

如今大语言模型(LLM)的风头一时无两,它们能写诗、能聊天、能编程,简直无所不能!但你有没有发现,有时候它们也挺“傻白甜”的?比如问它今天的天气,它可能给你一个“根据我的知识库…”的过时答案;让它帮你整理本地文件,它只能表示爱莫能助。这是因为 LLM 本身像一个博学但与世隔绝的大脑。,以及一个新晋的潜力股——。今天,我们就用大白话+生动比喻,带你一次搞懂这四大金刚,看看它们是如何协同作战,让 AI 从“理论派”变身“实干家”的!之前/docs#general。

2025-04-21 16:15:22 671

原创 Spring AI 基于ollama:qwen:7b + pgvector 实现RAG问答系统

了解完嵌入模型、向量数据库相关知识后,在此基础上可以实现一个RAG本地问答系统。

2025-04-21 16:08:04 940

原创 《多模态大模型:技术原理和实战》揭露多模态大模型本质,大模型入门必看!

多模态大模型:技术原理与实战》详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战,本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。《多模态大模型:技术原理与实战》适用于从事人工智能工作的专业技术人员,比如算法工程师、研发工程师等,也适用于对多模态大模型感兴趣的各类从业者,比如产品经理、项目经理和各级管理人员等。彭勇。

2025-04-16 16:18:14 949

原创 LangChain + 模型上下文协议(MCP):AI 智能体 Demo

是由 Anthropic 推出的开源协议,旨在为大型语言模型(LLM)提供安全、可解释、可扩展的外部数据与工具集成方案。

2025-04-14 16:52:02 944

原创 图解 LangChain 物流优化,三天不睡只为你设计最优配送路径

2. 数据处理实用功能1. 路径优化计算2. 时间窗口处理3. 多目标优化LangChain 物流优化工具是连接 AI 与物流业务的桥梁,可以帮你:学会用 LangChain 来做物流优化,真不是吹的。试试呗,让你从满头大汗的深夜加班中解脱出来!配送效率蹭蹭往上涨,老板可能会给你加薪…好吧,至少省点油钱是真的。大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “”“”等问题热议不断。不如成为,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的 AI 行业,

2025-04-11 15:16:16 1023

原创 图解 LangChain 餐饮推荐,反复调试只为你打造个性化菜单系统

2. 工具集成2. 检索增强生成3. 自定义工具链2. 构建多步菜单过滤器LangChain库是构建智能推荐系统的强大工具,可以帮你:大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “”“”等问题热议不断。不如成为,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现

2025-04-10 16:36:39 992

原创 人工智能 | 2024中国智能算力行业白皮书:产业图谱、市场规模等

由沙利文和天罡智算联合发布,聚焦于中国智能算力行业的现状和发展趋势。智能算力通常指的是支撑人工智能应用的计算能力,包括但不限于数据处理、机器学习、深度学习等任务的能力。分析当前智能算力的关键技术,例如 GPU、TPU、FPGA、ASIC 等。探讨人工智能芯片的发展,包括硬件加速、云计算和边缘计算。讨论智能算力在不同行业中的应用,如金融、医疗、交通等。报告介绍了智能算力行业的背景、定义和重要性。分析市场的主要参与者、竞争格局和市场份额。提供智能算力市场的规模、增长率和预测。

2025-04-07 14:55:14 425

原创 漫画趣解:大模型预训练、后训练、微调

不过,一般后训练(像前面说的强化学习方法),发生在。

2025-04-07 14:54:13 1053

原创 大模型应用实战:使用PEFT库进行ChatGLM3-6B模型的QLORA高效微调

LoRA的核心思想是将可调整的低秩矩阵注入到Transformer架构的每一层中,充当"适配器"的作用。这样可以使模型针对特定任务进行调整和专门化,同时最大限度地减少额外的参数数量,提高参数效率。QLoRA是LoRA的扩展版本,在微调过程中引入了量化技术,以进一步提高参数效率。QLoRA利用LoRA的原理,并引入了4位NormalFloat(NF4)量化和双重量化技术,进一步减少了存储和计算资源的使用。

2025-03-31 21:28:32 1046

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除