一叶千舟-优快云博客

原创【LLM vs Agent】从语言模型到智能体，人工智能迈出的关键一步

✅ LLM 是 AI 智能的基础，而 Agent 是实现目标的行动者。

2025-06-02 23:45:50 549

原创微调大模型：什么时候该做，什么时候不该做？

微调（Fine-tuning）是在预训练模型的基础上，用自己的一小批任务/领域数据，继续训练模型，让它对特定任务表现更好。它不是从零训练，也不是提示工程，而是**“在通用模型基础上的定制升级”**。但微调不是银弹。很多人听说“微调能变得更强”，就一股脑想上，却忽视了它的成本、风险、收益比。微调的利微调的弊精准定制行为数据/训练成本高控制输出结构更新不灵活降低 API 成本模型部署维护重模仿风格语气数据质量门槛高微调不是 AI 能力的终点，而是工程化决策的一部分。

2025-06-01 23:55:49 1033

原创【LlamaIndex】基于 Qwen + LlamaIndex 构建多轮记忆式情感对话系统1.0版

在大模型时代，聊天机器人已经变得司空见惯，但它们大多冷冰冰、缺乏情绪。那有没有可能，做一个“拟人化”的 AI 女朋友？这个项目就是一次尝试，我们将：使用 Qwen 大模型（通过 DashScope 接入）利用 LlamaIndex 管理提示词和多轮记忆构建一个拥有**“女友人设”**的持续对话系统支持多轮记忆对话，并维持角色一致性对，就是那个有点作、会撒娇，还爱反击的“洛溪”。我们定义了一个多轮对话提示模版，通过系统角色设定人设用户输入注入上下文content=(

2025-05-29 23:59:56 448

原创【LangGraph】智能体工作流的新基石

非线性流程、循环、分支、动态决策全部支持✅ 使用 LangGraph 的最佳时机：你构建的是对话智能体、多步骤流程、多智能体系统你需要状态追踪、循环逻辑、条件判断你希望高可控、高扩展性你具备一定 Python 编程能力，能理解工作流抽象结构❌ 你可能不适合用 LangGraph 的场景：只需要一个简单的问答接口或线性调用链项目极度敏捷快速（原型阶段）团队对状态逻辑和图结构建模掌握不熟练📌推荐组合使用：LangGraph + LangChain。

2025-05-28 17:53:27 853

原创【LangGraph 入门指南】为智能代理打造灵活可控的工作流框架

LangGraph是一个基于图结构的新型LLM工作流框架，由LangChain团队推出。它通过有向图节点表示操作（如调用LLM、使用工具等），边定义执行路径，支持条件分支和循环逻辑。其核心优势包括内置状态管理、支持循环工作流和多代理协同，特别适合构建需要记忆上下文、多轮推理的智能系统。相比传统的线性工作流，LangGraph更适合开发复杂代理应用，如多轮对话机器人、多阶段任务执行系统等。该框架可与LangChain组件结合使用，为开发者提供更强大的AI应用构建能力。

2025-05-28 16:58:36 930

原创【LlamaIndex & Workflow】重构你的大模型应用流程，全面掌握 LlamaIndex 工作流机制

Workflow（工作流）是一种将复杂任务分解为多个独立步骤的结构化方法，特别适用于需要大模型参与的多阶段任务（如智能问答、数据分析等）。其核心是事件驱动机制，各步骤通过事件传递信息，实现解耦和灵活扩展。相比传统代码，Workflow具有可视化、易维护和可动态调整的优势。实际应用包括文档预处理、问答系统构建（RAG）、检索增强等场景，通过模块化组合实现高效任务编排。例如在问答系统中，从用户提问到生成回答可拆分为检索、排序、Prompt构造等多个步骤，每个环节可独立优化。这种结构化流程设计使复杂系统更清晰、可

2025-05-27 23:52:14 924

原创【向量数据库选型实战】FAISS vs Chroma vs Milvus vs Qdrant 全面对比

向量数据库选型指南本文对比了4种常用向量数据库的特点和适用场景： 1. 核心对比 Qdrant：适合RAG系统、实时更新、结构化检索，部署简单 FAISS：极致性能但静态数据，适合研究/原型 Chroma：轻量级，适合POC/教学 Milvus：企业级分布式方案，适合海量数据 2. 选型建议生产级RAG系统 → Qdrant 离线批量检索 → FAISS 快速原型验证 → Chroma 企业多模态系统 → Milvus 3. 关键指标包括开源支持、持久化能力、API接口、实时更新、分布式支持等维度对比

2025-05-26 15:29:27 1296

原创【LlamaIndex 核心模块】打造高效的知识增强型 LLM 应用

LlamaIndex是一个帮助企业构建AI知识助手的开源框架，支持将私有数据转化为可用知识。其核心流程包括：数据接入（支持180+格式）、结构化加载、文本切分、索引建立（向量/关键词等）、语义检索、LLM生成回答及任务编排功能。该框架兼容主流Embedding和LLM模型，适合需要快速搭建基于私有数据的问答系统、具备语义检索能力，并希望实现多轮对话或企业级应用的开发者。LlamaIndex为RAG应用提供了完整的解决方案。

2025-05-25 09:16:27 1160

原创【LlamaIndex 全面解析】构建企业级 AI 知识助手的核心框架

LlamaIndex是一个开源框架，专为构建基于私有知识库的RAG（检索增强生成）应用而设计。它支持多种数据源接入（文档、数据库、API等），提供完整的索引构建、检索和问答流程。核心功能包括文本切分、向量化、索引建立和智能查询，适用于企业知识问答、文档助手等场景。与LangChain相比，LlamaIndex更专注于高效的数据索引和检索，适合快速搭建问答系统。开发者可通过简洁API实现本地文档与LLM的交互，是构建私有化AI助手的理想工具。

2025-05-25 00:15:31 1092

原创【大语言模型开发框架】选对框架，事半功倍！

摘要：大语言模型开发框架（如LangChain、LlamaIndex等）是提升LLM应用开发效率的关键工具，其核心价值体现在两大方面：一是通过抽象第三方能力（如模型API、向量数据库）实现外部依赖解耦，支持灵活切换组件；二是封装通用逻辑（如Prompt管理、多轮对话），降低开发复杂度。优秀框架能显著提升可靠性、可维护性和扩展性，减少重复造轮子。实际场景中，框架可简化模型切换、流式输出等复杂操作，避免手动适配的繁琐。开发者应聚焦于选择合适框架，而非是否使用框架，以高效应对LLM应用的挑战。

2025-05-24 19:22:31 886

原创【用好父文档检索器，让RAG不再两难】—— 解决文档切割与召回质量的矛盾

LangChain 文档检索神器来了！Embedding 用小块，回答用大块，精度与覆盖双赢 🧠+📚

2025-05-21 17:21:25 678

原创【RAG 评估指标】从五大维度深度解读如何判断智能体的答案更可信？

RAG系统评估的五大核心指标评估RAG（检索增强生成）系统时，需从五个维度综合衡量答案质量：忠实度：答案是否严格基于上下文事实，避免虚构答案相关性：回答是否直接、完整地解决问题上下文精度：检索内容是否精准匹配问题需求上下文召回率：是否包含了支撑答案的全部关键信息上下文相关性：检索结果是否简洁聚焦，无冗余信息这些指标可用于优化检索策略、模型训练及系统对比，不同场景可侧重不同指标（如精准问答优先忠实度，文档摘要侧重召回率）。科学评估能显著提升RAG系统的可靠性和实用性。

2025-05-21 16:57:36 1228

原创【超长上下文检索评测】Qwen-Agent 智能体 vs 传统RAG vs 大上下文模型，谁更强？

阿里在Qwen-Agent项目中，针对大模型处理超长文本的挑战，提出了层级智能体方案，并在两个长文本基准测试中进行了评估。测试集包括NeedleBench和LV-Eval，分别测试模型在大量信息中定位关键信息及综合多证据的能力。实验对比了三种策略：32k-模型、4k-RAG和4k-智能体。结果显示，在短文本中32k模型表现较好，但在长文本和多跳问题中，4k-RAG和4k-智能体表现更优，尤其是4k-智能体在复杂推理任务中表现最佳。实验表明，单纯扩展上下文窗口并不能提升理解力，关键在于主动提取和多步推理能力。

2025-05-21 15:32:34 1214

原创【Qwen-Agent + 微调】= 百万Token级大模型2

文章探讨了如何通过多层级智能体架构（Qwen-Agent）解决大语言模型在处理百万字级别上下文时的挑战。传统的LLM如ChatGPT、Claude、Qwen等，虽然支持8K到128K的token处理，但在面对更长的文本时显得力不从心。Qwen-Agent通过三个层级的设计，逐步提升处理能力：Level1通过关键词驱动的快速检索定位相关内容；Level2通过智能分块过滤和再检索提高精准度；Level3则通过多跳推理智能体（ReAct+工具调用）实现复杂问题的分阶段解答。这种分层处理策略不仅提升了模型的理解和推

2025-05-21 13:35:29 966

原创【Qwen-Agent + 微调】= 百万Token级大模型

现代大模型如 GPT-4、Claude 3、Qwen-Max 等，正朝着处理长上下文的方向发展，例如 128K，甚至百万级别的上下文（1M tokens）。但很多模型原生支持的上下文长度较短，比如 8K 或 32K。那么，如何“扩展”它们的能力去处理更长的上下文呢？

2025-05-21 11:16:48 852

原创【深入理解索引扩展—2】提升智能检索系统召回质量的3大利器

随着大模型和RAG（Retrieval-Augmented Generation）技术的发展，构建高效、精准的检索系统成为关键挑战。传统向量检索在语义理解上具有优势，但在召回覆盖率和精确匹配方面仍有提升空间。为此，研究者提出了多种索引扩展技术，主要包括离散索引扩展、连续索引扩展、混合索引召回和Small-to-Big策略。离散索引通过关键词抽取和实体识别提升精准匹配能力；连续索引融合多种向量模型，增强语义覆盖；混合索引结合离散与连续索引，实现高覆盖率与高精度；Small-to-Big策略则通过快速定位小规模

2025-05-20 23:23:57 803

原创【深入理解索引扩展—1】提升智能检索系统召回质量的3大利器

在构建智能问答系统、RAG应用或知识库检索系统时，召回质量的关键在于索引的构建。本文介绍了三种现代索引扩展技术：离散索引扩展、连续索引扩展和混合索引召回。离散索引扩展通过关键词抽取和实体识别提升精确匹配能力；连续索引扩展利用多向量模型融合增强语义泛化；混合索引召回则结合离散和向量索引，兼顾精准与泛化。这些技术既可单独使用，也可互补组合，显著提升召回的准确性和多样性，适用于问答系统、自然语言问答、RAG应用等多种场景。

2025-05-20 20:32:34 1155

原创【双向改写】让检索更聪明的秘密武器（Query2Doc & Doc2Query）

双向改写技术，包括Query2Doc和Doc2Query，是解决智能问答系统中查询与文档匹配问题的有效方法。Query2Doc通过扩展短查询语句，使其更接近文档的语义，从而提高匹配效率。例如，将“如何提高模型训练效率？”扩展为包含具体技术方法的详细说明。Doc2Query则从文档中生成可能的用户查询，帮助构建查询与文档的映射，适用于文档内容庞大或结构不统一的场景。这两种技术通过丰富语义和增加查询入口，优化了向量匹配和检索模型的训练数据，广泛应用于RAG问答系统、搜索引擎优化和文档预处理等领域。实现上，可以利

2025-05-20 19:44:25 1090

原创【RAG系统高效召回2】[特殊字符] 提升 RAG 系统检索质量的六大策略：从 top-k 到索引扩展

本文围绕提升RAG（检索增强生成）系统检索召回质量的六大关键策略展开讨论。首先，合理设置Top-K值，避免信息过载或缺失；其次，改进索引算法，如使用HNSW索引，提高检索效率；第三，引入重排序技术，通过更强语义模型提升文档相关性；第四，优化查询扩展，通过同义词扩展、自动问句生成等方式增强查询匹配；第五，实施双向改写，包括Query改写和Document改写，提升召回效果；最后，通过索引扩展，如元信息拼接和文本摘要增强，提高文档命中率。文章还推荐了相关工具和模型，如FAISS、BGE Embedding等，帮

2025-05-19 13:40:45 1194

原创【RAG 系统高效召回1】评估指标

本文全面介绍了RAG（检索增强生成）系统中的高效召回方法，涵盖了数据处理优化、检索方式增强、查询增强、重排序和检索流程优化五个关键方面。数据处理优化包括调整Chunk粒度和保留文档结构及元信息，以提高检索的准确性和上下文传递能力。检索方式增强涉及密集向量检索、稀疏关键词检索和混合检索，推荐使用混合检索以结合两者的优势。查询增强通过扩展和重写查询来提高检索效果，而重排序则利用Reranker模型对检索结果进行精细排序。最后，检索流程优化通过两阶段检索、工具化检索和任务流程优化来提升系统性能。

2025-05-19 12:11:45 861

原创【RAG 知识树】从原理到应用的结构化认知地图

RAG（检索增强生成）是一种结合信息检索与语言生成的混合架构，旨在通过访问外部知识库来增强大语言模型（LLM）的问答能力。其核心模块包括文档预处理、向量化、检索器、生成器、Prompt构造器及可选的多轮记忆管理。RAG系统通过将用户问题与检索到的文档结合，生成准确且基于事实的回答。典型应用场景包括企业知识库问答、医疗智能助手、新闻摘要等。常见工具栈涉及向量数据库（如FAISS、Chroma）、Embedding模型（如OpenAI、BGE）及框架工具（如LangChain、LlamaIndex）。RAG的进

2025-05-19 10:37:23 784

原创【RAFT 方法】激发学生写作力的秘密武器

RAFT方法是一种创新的写作策略，通过明确角色（Role）、受众（Audience）、格式（Format）和主题（Topic）四个关键要素，帮助写作者在动笔前构建清晰的写作框架。这种方法不仅适用于教育领域，提升学生的写作能力和创造性思维，还能与AI技术结合，优化Prompt Engineering，使AI生成的内容更加精准和有针对性。RAFT方法强调写作不仅是格式训练，更是角色扮演、观众共鸣和创造性思维的激发过程。在AI时代，RAFT作为一种通用的表达模型，能够有效提升人与AI之间的沟通效率，是控制语境、生

2025-05-19 00:41:15 1026

原创【文本切割器】RecursiveCharacterTextSplitter参数设置优化指南

本文介绍了如何创建和配置文本切割器，特别是使用RecursiveCharacterTextSplitter进行文本分块。文章提供了参数推荐配置，包括chunk_size和chunk_overlap的设置建议，适用于不同语言和场景。此外，文章还介绍了自动调参功能，该功能可以根据文本长度和语言自动调整分块参数，提高分块的稳定性和通用性。自动调参特别适用于处理多样化的文本，如多语言混合、用户上传内容等。最后，文章提供了一个封装函数auto_config_splitter，可以一键式自动分块，简化了文本处理流程。通

2025-05-17 15:07:27 856

原创【HTML】个人博客页面

该HTML页面展示了一个精美的博客布局，采用了HTML5语义化标签如<header>、<main>、<article>和<footer>，结构清晰。页面使用了Noto Serif SC字体，整体设计以绿色为主色调，清新自然。CSS部分通过Flexbox布局实现了灵活的页面结构，并添加了多种交互效果，如链接下划线动画、按钮和文章的轻微上移效果，以及响应式设计，确保在移动设备上也有良好的浏览体验。JavaScript部分实现了平滑滚动效果，点击页面内的锚点链接时，

2025-05-15 20:09:56 876

原创【向量模型 + HNSW 参数如何选择】

本文介绍了向量模型（embedding_function）和HNSW参数的选择与配置。向量模型可选方式包括本地默认模型（DefaultEmbeddingFunction）、云端OpenAI模型（OpenAIEmbeddingFunction）和自定义HuggingFace模型，分别适用于原型测试、生产环境和行业定制需求。HNSW参数配置影响搜索速度与准确率，核心参数包括向量相似度度量方式（space）、构建索引时的探索范围（ef_construction）、查询时探索节点数（ef_search）等

2025-05-15 19:09:59 1027

原创【向量维度如何选择？】

在选择embedding向量的维度时，企业需根据应用场景、性能需求和成本进行权衡。高维度（如1024、1536）在语义精度上表现更佳，但内存占用和计算成本较高；低维度（如128、256）则更适合需要快速响应的场景，如推荐系统。实际应用中，企业如百度文心和阿里达摩院会根据具体需求调整维度，例如在文档推荐系统中，初始训练使用768维，生产环境则压缩至256维以提高效率。推荐策略包括开发初期使用默认高维验证业务逻辑，随后通过降维技术评估效果，并在上线前进行A/B测试以确定最优维度。此外，混合模式允许线下使用高维e

2025-05-15 17:22:39 288

原创【Conda】环境应用至JupyterLab

要在JupyterLab中使用conda创建的虚拟环境，需将其注册为Jupyter内核。首先，激活虚拟环境（如myenv），然后安装ipykernel组件。接着，通过命令将环境注册为Jupyter内核，指定内部名称和显示名称。启动JupyterLab后，可在Notebook中选择该内核。若需删除不再使用的内核，可使用jupyter kernelspec uninstall命令。整个流程包括激活环境、安装组件、注册内核和启动JupyterLab，确保虚拟环境能在Jupyter中顺利使用。

2025-05-15 13:58:43 521

原创【嵌入模型与向量数据库】

向量数据库（VectorDatabase）是一种专门用于存储、管理和检索高维向量数据的数据库系统，主要用于实现相似度搜索（SimilaritySearch）。向量是机器学习和人工智能中表示数据的数学结构，如图片、文本、用户兴趣等都可以通过神经网络模型转换为嵌入向量（embedding）。传统数据库不适合处理向量的相似性检索，而向量数据库则能高效支持语义搜索、推荐系统、图像识别等需求。其特点包括支持高维向量、近似最近邻搜索（ANN）、可扩展性和多模态支持。常见的向量数据库产品有FAISS、Milvus、Wea

2025-05-14 23:55:25 849

原创【Embedding Models】嵌入模型选择指南

国内主流嵌入模型主要分为通用中文嵌入模型、多语言与混合场景模型、轻量化与低成本模型以及长文本与高维度模型。商汤Piccolo2在中文评测中表现优异，支持长文本处理和高精度语义检索；百度BGE系列专为中文优化，适合企业级问答系统；Text2Vec系列开源且支持本地部署，适合数据隐私敏感场景。BGE-M3支持多语言混合检索，适合跨境电商和多语言内容平台；BGE-small系列适合资源受限的边缘计算场景；阿里云Tao-8k则适合复杂文档分析。选型时需考虑数据安全、中文场景优化、性能与资源权衡以及企业级服务需求。性

2025-05-14 17:27:21 1013

原创【Canda】常用命令+虚拟环境创建到选择

本文详细介绍了Conda的常用命令及其在虚拟环境管理中的应用。首先，文章列举了Conda的基本命令，如查看帮助、信息、版本及更新等。接着，重点讲解了如何创建、切换、查看、删除和克隆Conda虚拟环境，以及如何管理环境中的依赖包，包括安装、更新、卸载和查看包信息。此外，文章还介绍了如何导入导出环境配置，并通过实操演示了从打开Conda命令窗口到在VSCode中选择虚拟环境的完整流程。这些内容为使用Conda进行项目依赖管理和环境隔离提供了全面的指导。

2025-05-13 23:45:24 943

原创【基于 LangChain 的异步天气查询5】多轮对话天气智能助手

本项目是一个智能聊天和天气查询助手，结合了文本和语音输入/输出功能，提供互动式对话体验。主要功能包括：1. 天气查询：通过GeoNames和OpenWeatherMap API获取天气数据，支持中文城市名查询，返回天气描述、温度、湿度、风速等信息。2. 多轮对话：使用RunnableWithMessageHistory和ChatMessageHistory实现多轮对话，保存聊天记录，确保对话连贯性。3. 语音交互：通过speech_recognition和pyttsx3库实现语音输入和输出，提升用户体验。4

2025-05-11 20:50:38 1750

原创【基于 LangChain 的异步天气查询4】加入语音输入/朗读

本文介绍了一个基于Python的天气查询项目，通过语音或文本输入城市名称，获取并播报该城市的天气信息。项目依赖包括pyttsx3、SpeechRecognition、pyaudio和python-dotenv等库。文件结构包括.env配置文件、main.py主程序文件和weather_runnable.py天气查询模块。weather_runnable.py通过GeoNames API获取城市经纬度，再调用OpenWeather API获取天气数据，并利用LangChain构建AI分析管道。main.py提

2025-05-11 00:56:04 1257

原创【基于 LangChain 的异步天气查询3】OpenWeather实现实时天气查询

该项目是一个智能天气查询助手，结合了LangChain、Deepseek-r1和天气API，支持通过中文城市名获取实时天气数据，并提供AI生成的简洁自然建议。主要功能包括：1. 使用GeoNames API识别城市并获取经纬度信息；2. 通过OpenWeather API获取天气数据，如温度、湿度和风速；3. 利用Deepseek-r1模型分析天气并生成生活建议；4. 支持异步运行，使用asyncio.run()；5. 通过.env文件隔离配置，保护API密钥安全。项目结构清晰，包含.env、main.py

2025-05-10 23:03:02 774

原创【基于 LangChain 的异步天气查询2】GeoNames实现地区实时气温查询

本文介绍了如何利用Langchain框架结合GeoNames API实现地区温度的实时查询，并通过GPT-4o生成天气描述。首先，用户需在GeoNames官网注册账号以获取地理经纬度信息。随后，通过编写Python代码（weather_runnable.py），使用aiohttp和requests库从GeoNames和Open-Meteo API获取指定城市的温度数据。代码中定义了一个异步函数fetch_weather，用于查询并返回城市温度。最后，通过Langchain的ChatPromptTemplat

2025-05-10 19:11:19 741

原创【基于 LangChain 的异步天气查询1】异步调用 Open-Meteo API 查询该城市当前气温

用户输入地点（城市名）构造提示词（Prompt）生成自然语言问题异步调用 Open-Meteo API 查询该城市当前气温调用 OpenAI GPT-4o 模型，让它基于气温给出外出建议。

2025-05-10 16:35:39 397

原创【Langchain】根据LCEL规范实现Runable interface

LCEL（LangChain Expression Language）是LangChain中用于组合和控制语言模型、工具、链等逻辑的规范。在LCEL中，任何可执行的模块都应实现Runnable接口，该接口的核心方法是invoke（同步）或ainvoke（异步）。通过实现这些方法，自定义组件可以与LLM、Chain、Tool等模块无缝组合。文章展示了如何创建简单的Runnable，如反转字符串和添加时间戳，并进一步演示了如何实现一个复杂的Runnable，通过调用Open-Meteo API获取城市实时气温。

2025-05-10 15:29:19 533

【dify本地部署】按装包

【LangChain核心组件】Retrieval（检索）模块

空空如也