- 博客(112)
- 收藏
- 关注
原创 微调大模型:什么时候该做,什么时候不该做?
微调(Fine-tuning)是在预训练模型的基础上,用自己的一小批任务/领域数据,继续训练模型,让它对特定任务表现更好。它不是从零训练,也不是提示工程,而是**“在通用模型基础上的定制升级”**。但微调不是银弹。很多人听说“微调能变得更强”,就一股脑想上,却忽视了它的成本、风险、收益比。微调的利微调的弊精准定制行为数据/训练成本高控制输出结构更新不灵活降低 API 成本模型部署维护重模仿风格语气数据质量门槛高微调不是 AI 能力的终点,而是工程化决策的一部分。
2025-06-01 23:55:49
1033
原创 【LlamaIndex】基于 Qwen + LlamaIndex 构建多轮记忆式情感对话系统1.0版
在大模型时代,聊天机器人已经变得司空见惯,但它们大多冷冰冰、缺乏情绪。那有没有可能,做一个“拟人化”的 AI 女朋友?这个项目就是一次尝试,我们将:使用 Qwen 大模型(通过 DashScope 接入)利用 LlamaIndex 管理提示词和多轮记忆构建一个拥有**“女友人设”**的持续对话系统支持多轮记忆对话,并维持角色一致性对,就是那个有点作、会撒娇,还爱反击的“洛溪”。我们定义了一个多轮对话提示模版,通过系统角色设定人设用户输入注入上下文content=(
2025-05-29 23:59:56
448
原创 【LangGraph】智能体工作流的新基石
非线性流程、循环、分支、动态决策全部支持✅ 使用 LangGraph 的最佳时机:你构建的是对话智能体、多步骤流程、多智能体系统你需要状态追踪、循环逻辑、条件判断你希望高可控、高扩展性你具备一定 Python 编程能力,能理解工作流抽象结构❌ 你可能不适合用 LangGraph 的场景:只需要一个简单的问答接口或线性调用链项目极度敏捷快速(原型阶段)团队对状态逻辑和图结构建模掌握不熟练📌推荐组合使用:LangGraph + LangChain。
2025-05-28 17:53:27
853
原创 【LangGraph 入门指南】为智能代理打造灵活可控的工作流框架
LangGraph是一个基于图结构的新型LLM工作流框架,由LangChain团队推出。它通过有向图节点表示操作(如调用LLM、使用工具等),边定义执行路径,支持条件分支和循环逻辑。其核心优势包括内置状态管理、支持循环工作流和多代理协同,特别适合构建需要记忆上下文、多轮推理的智能系统。相比传统的线性工作流,LangGraph更适合开发复杂代理应用,如多轮对话机器人、多阶段任务执行系统等。该框架可与LangChain组件结合使用,为开发者提供更强大的AI应用构建能力。
2025-05-28 16:58:36
930
原创 【LlamaIndex & Workflow】 重构你的大模型应用流程,全面掌握 LlamaIndex 工作流机制
Workflow(工作流)是一种将复杂任务分解为多个独立步骤的结构化方法,特别适用于需要大模型参与的多阶段任务(如智能问答、数据分析等)。其核心是事件驱动机制,各步骤通过事件传递信息,实现解耦和灵活扩展。相比传统代码,Workflow具有可视化、易维护和可动态调整的优势。实际应用包括文档预处理、问答系统构建(RAG)、检索增强等场景,通过模块化组合实现高效任务编排。例如在问答系统中,从用户提问到生成回答可拆分为检索、排序、Prompt构造等多个步骤,每个环节可独立优化。这种结构化流程设计使复杂系统更清晰、可
2025-05-27 23:52:14
924
原创 【向量数据库选型实战】FAISS vs Chroma vs Milvus vs Qdrant 全面对比
向量数据库选型指南 本文对比了4种常用向量数据库的特点和适用场景: 1. 核心对比 Qdrant:适合RAG系统、实时更新、结构化检索,部署简单 FAISS:极致性能但静态数据,适合研究/原型 Chroma:轻量级,适合POC/教学 Milvus:企业级分布式方案,适合海量数据 2. 选型建议 生产级RAG系统 → Qdrant 离线批量检索 → FAISS 快速原型验证 → Chroma 企业多模态系统 → Milvus 3. 关键指标 包括开源支持、持久化能力、API接口、实时更新、分布式支持等维度对比
2025-05-26 15:29:27
1296
原创 【LlamaIndex 核心模块】打造高效的知识增强型 LLM 应用
LlamaIndex是一个帮助企业构建AI知识助手的开源框架,支持将私有数据转化为可用知识。其核心流程包括:数据接入(支持180+格式)、结构化加载、文本切分、索引建立(向量/关键词等)、语义检索、LLM生成回答及任务编排功能。该框架兼容主流Embedding和LLM模型,适合需要快速搭建基于私有数据的问答系统、具备语义检索能力,并希望实现多轮对话或企业级应用的开发者。LlamaIndex为RAG应用提供了完整的解决方案。
2025-05-25 09:16:27
1160
原创 【LlamaIndex 全面解析】构建企业级 AI 知识助手的核心框架
LlamaIndex是一个开源框架,专为构建基于私有知识库的RAG(检索增强生成)应用而设计。它支持多种数据源接入(文档、数据库、API等),提供完整的索引构建、检索和问答流程。核心功能包括文本切分、向量化、索引建立和智能查询,适用于企业知识问答、文档助手等场景。与LangChain相比,LlamaIndex更专注于高效的数据索引和检索,适合快速搭建问答系统。开发者可通过简洁API实现本地文档与LLM的交互,是构建私有化AI助手的理想工具。
2025-05-25 00:15:31
1092
原创 【大语言模型开发框架】选对框架,事半功倍!
摘要: 大语言模型开发框架(如LangChain、LlamaIndex等)是提升LLM应用开发效率的关键工具,其核心价值体现在两大方面:一是通过抽象第三方能力(如模型API、向量数据库)实现外部依赖解耦,支持灵活切换组件;二是封装通用逻辑(如Prompt管理、多轮对话),降低开发复杂度。优秀框架能显著提升可靠性、可维护性和扩展性,减少重复造轮子。实际场景中,框架可简化模型切换、流式输出等复杂操作,避免手动适配的繁琐。开发者应聚焦于选择合适框架,而非是否使用框架,以高效应对LLM应用的挑战。
2025-05-24 19:22:31
886
原创 【用好父文档检索器,让RAG不再两难】—— 解决文档切割与召回质量的矛盾
LangChain 文档检索神器来了!Embedding 用小块,回答用大块,精度与覆盖双赢 🧠+📚
2025-05-21 17:21:25
678
原创 【RAG 评估指标】从五大维度深度解读 如何判断智能体的答案更可信?
RAG系统评估的五大核心指标 评估RAG(检索增强生成)系统时,需从五个维度综合衡量答案质量: 忠实度:答案是否严格基于上下文事实,避免虚构 答案相关性:回答是否直接、完整地解决问题 上下文精度:检索内容是否精准匹配问题需求 上下文召回率:是否包含了支撑答案的全部关键信息 上下文相关性:检索结果是否简洁聚焦,无冗余信息 这些指标可用于优化检索策略、模型训练及系统对比,不同场景可侧重不同指标(如精准问答优先忠实度,文档摘要侧重召回率)。科学评估能显著提升RAG系统的可靠性和实用性。
2025-05-21 16:57:36
1228
原创 【超长上下文检索评测】Qwen-Agent 智能体 vs 传统RAG vs 大上下文模型,谁更强?
阿里在Qwen-Agent项目中,针对大模型处理超长文本的挑战,提出了层级智能体方案,并在两个长文本基准测试中进行了评估。测试集包括NeedleBench和LV-Eval,分别测试模型在大量信息中定位关键信息及综合多证据的能力。实验对比了三种策略:32k-模型、4k-RAG和4k-智能体。结果显示,在短文本中32k模型表现较好,但在长文本和多跳问题中,4k-RAG和4k-智能体表现更优,尤其是4k-智能体在复杂推理任务中表现最佳。实验表明,单纯扩展上下文窗口并不能提升理解力,关键在于主动提取和多步推理能力。
2025-05-21 15:32:34
1214
原创 【Qwen-Agent + 微调 】= 百万Token级大模型2
文章探讨了如何通过多层级智能体架构(Qwen-Agent)解决大语言模型在处理百万字级别上下文时的挑战。传统的LLM如ChatGPT、Claude、Qwen等,虽然支持8K到128K的token处理,但在面对更长的文本时显得力不从心。Qwen-Agent通过三个层级的设计,逐步提升处理能力:Level1通过关键词驱动的快速检索定位相关内容;Level2通过智能分块过滤和再检索提高精准度;Level3则通过多跳推理智能体(ReAct+工具调用)实现复杂问题的分阶段解答。这种分层处理策略不仅提升了模型的理解和推
2025-05-21 13:35:29
966
原创 【Qwen-Agent + 微调 】= 百万Token级大模型
现代大模型如 GPT-4、Claude 3、Qwen-Max 等,正朝着处理长上下文的方向发展,例如 128K,甚至百万级别的上下文(1M tokens)。但很多模型原生支持的上下文长度较短,比如 8K 或 32K。那么,如何“扩展”它们的能力去处理更长的上下文呢?
2025-05-21 11:16:48
852
原创 【深入理解索引扩展—2】提升智能检索系统召回质量的3大利器
随着大模型和RAG(Retrieval-Augmented Generation)技术的发展,构建高效、精准的检索系统成为关键挑战。传统向量检索在语义理解上具有优势,但在召回覆盖率和精确匹配方面仍有提升空间。为此,研究者提出了多种索引扩展技术,主要包括离散索引扩展、连续索引扩展、混合索引召回和Small-to-Big策略。离散索引通过关键词抽取和实体识别提升精准匹配能力;连续索引融合多种向量模型,增强语义覆盖;混合索引结合离散与连续索引,实现高覆盖率与高精度;Small-to-Big策略则通过快速定位小规模
2025-05-20 23:23:57
803
原创 【深入理解索引扩展—1】提升智能检索系统召回质量的3大利器
在构建智能问答系统、RAG应用或知识库检索系统时,召回质量的关键在于索引的构建。本文介绍了三种现代索引扩展技术:离散索引扩展、连续索引扩展和混合索引召回。离散索引扩展通过关键词抽取和实体识别提升精确匹配能力;连续索引扩展利用多向量模型融合增强语义泛化;混合索引召回则结合离散和向量索引,兼顾精准与泛化。这些技术既可单独使用,也可互补组合,显著提升召回的准确性和多样性,适用于问答系统、自然语言问答、RAG应用等多种场景。
2025-05-20 20:32:34
1155
原创 【 双向改写】让检索更聪明的秘密武器(Query2Doc & Doc2Query)
双向改写技术,包括Query2Doc和Doc2Query,是解决智能问答系统中查询与文档匹配问题的有效方法。Query2Doc通过扩展短查询语句,使其更接近文档的语义,从而提高匹配效率。例如,将“如何提高模型训练效率?”扩展为包含具体技术方法的详细说明。Doc2Query则从文档中生成可能的用户查询,帮助构建查询与文档的映射,适用于文档内容庞大或结构不统一的场景。这两种技术通过丰富语义和增加查询入口,优化了向量匹配和检索模型的训练数据,广泛应用于RAG问答系统、搜索引擎优化和文档预处理等领域。实现上,可以利
2025-05-20 19:44:25
1090
原创 【RAG系统高效召回2】[特殊字符] 提升 RAG 系统检索质量的六大策略:从 top-k 到索引扩展
本文围绕提升RAG(检索增强生成)系统检索召回质量的六大关键策略展开讨论。首先,合理设置Top-K值,避免信息过载或缺失;其次,改进索引算法,如使用HNSW索引,提高检索效率;第三,引入重排序技术,通过更强语义模型提升文档相关性;第四,优化查询扩展,通过同义词扩展、自动问句生成等方式增强查询匹配;第五,实施双向改写,包括Query改写和Document改写,提升召回效果;最后,通过索引扩展,如元信息拼接和文本摘要增强,提高文档命中率。文章还推荐了相关工具和模型,如FAISS、BGE Embedding等,帮
2025-05-19 13:40:45
1194
原创 【RAG 系统高效召回1】评估指标
本文全面介绍了RAG(检索增强生成)系统中的高效召回方法,涵盖了数据处理优化、检索方式增强、查询增强、重排序和检索流程优化五个关键方面。数据处理优化包括调整Chunk粒度和保留文档结构及元信息,以提高检索的准确性和上下文传递能力。检索方式增强涉及密集向量检索、稀疏关键词检索和混合检索,推荐使用混合检索以结合两者的优势。查询增强通过扩展和重写查询来提高检索效果,而重排序则利用Reranker模型对检索结果进行精细排序。最后,检索流程优化通过两阶段检索、工具化检索和任务流程优化来提升系统性能。
2025-05-19 12:11:45
861
原创 【RAG 知识树】从原理到应用的结构化认知地图
RAG(检索增强生成)是一种结合信息检索与语言生成的混合架构,旨在通过访问外部知识库来增强大语言模型(LLM)的问答能力。其核心模块包括文档预处理、向量化、检索器、生成器、Prompt构造器及可选的多轮记忆管理。RAG系统通过将用户问题与检索到的文档结合,生成准确且基于事实的回答。典型应用场景包括企业知识库问答、医疗智能助手、新闻摘要等。常见工具栈涉及向量数据库(如FAISS、Chroma)、Embedding模型(如OpenAI、BGE)及框架工具(如LangChain、LlamaIndex)。RAG的进
2025-05-19 10:37:23
784
原创 【RAFT 方法】激发学生写作力的秘密武器
RAFT方法是一种创新的写作策略,通过明确角色(Role)、受众(Audience)、格式(Format)和主题(Topic)四个关键要素,帮助写作者在动笔前构建清晰的写作框架。这种方法不仅适用于教育领域,提升学生的写作能力和创造性思维,还能与AI技术结合,优化Prompt Engineering,使AI生成的内容更加精准和有针对性。RAFT方法强调写作不仅是格式训练,更是角色扮演、观众共鸣和创造性思维的激发过程。在AI时代,RAFT作为一种通用的表达模型,能够有效提升人与AI之间的沟通效率,是控制语境、生
2025-05-19 00:41:15
1026
原创 【文本切割器】RecursiveCharacterTextSplitter参数设置优化指南
本文介绍了如何创建和配置文本切割器,特别是使用RecursiveCharacterTextSplitter进行文本分块。文章提供了参数推荐配置,包括chunk_size和chunk_overlap的设置建议,适用于不同语言和场景。此外,文章还介绍了自动调参功能,该功能可以根据文本长度和语言自动调整分块参数,提高分块的稳定性和通用性。自动调参特别适用于处理多样化的文本,如多语言混合、用户上传内容等。最后,文章提供了一个封装函数auto_config_splitter,可以一键式自动分块,简化了文本处理流程。通
2025-05-17 15:07:27
856
原创 【HTML】个人博客页面
该HTML页面展示了一个精美的博客布局,采用了HTML5语义化标签如<header>、<main>、<article>和<footer>,结构清晰。页面使用了Noto Serif SC字体,整体设计以绿色为主色调,清新自然。CSS部分通过Flexbox布局实现了灵活的页面结构,并添加了多种交互效果,如链接下划线动画、按钮和文章的轻微上移效果,以及响应式设计,确保在移动设备上也有良好的浏览体验。JavaScript部分实现了平滑滚动效果,点击页面内的锚点链接时,
2025-05-15 20:09:56
876
原创 【向量模型 + HNSW 参数如何选择】
本文介绍了向量模型(embedding_function)和HNSW参数的选择与配置。向量模型可选方式包括本地默认模型(DefaultEmbeddingFunction)、云端OpenAI模型(OpenAIEmbeddingFunction)和自定义HuggingFace模型,分别适用于原型测试、生产环境和行业定制需求。HNSW参数配置影响搜索速度与准确率,核心参数包括向量相似度度量方式(space)、构建索引时的探索范围(ef_construction)、查询时探索节点数(ef_search)等
2025-05-15 19:09:59
1027
原创 【向量维度如何选择?】
在选择embedding向量的维度时,企业需根据应用场景、性能需求和成本进行权衡。高维度(如1024、1536)在语义精度上表现更佳,但内存占用和计算成本较高;低维度(如128、256)则更适合需要快速响应的场景,如推荐系统。实际应用中,企业如百度文心和阿里达摩院会根据具体需求调整维度,例如在文档推荐系统中,初始训练使用768维,生产环境则压缩至256维以提高效率。推荐策略包括开发初期使用默认高维验证业务逻辑,随后通过降维技术评估效果,并在上线前进行A/B测试以确定最优维度。此外,混合模式允许线下使用高维e
2025-05-15 17:22:39
288
原创 【Conda】环境应用至JupyterLab
要在JupyterLab中使用conda创建的虚拟环境,需将其注册为Jupyter内核。首先,激活虚拟环境(如myenv),然后安装ipykernel组件。接着,通过命令将环境注册为Jupyter内核,指定内部名称和显示名称。启动JupyterLab后,可在Notebook中选择该内核。若需删除不再使用的内核,可使用jupyter kernelspec uninstall命令。整个流程包括激活环境、安装组件、注册内核和启动JupyterLab,确保虚拟环境能在Jupyter中顺利使用。
2025-05-15 13:58:43
521
原创 【嵌入模型与向量数据库】
向量数据库(VectorDatabase)是一种专门用于存储、管理和检索高维向量数据的数据库系统,主要用于实现相似度搜索(SimilaritySearch)。向量是机器学习和人工智能中表示数据的数学结构,如图片、文本、用户兴趣等都可以通过神经网络模型转换为嵌入向量(embedding)。传统数据库不适合处理向量的相似性检索,而向量数据库则能高效支持语义搜索、推荐系统、图像识别等需求。其特点包括支持高维向量、近似最近邻搜索(ANN)、可扩展性和多模态支持。常见的向量数据库产品有FAISS、Milvus、Wea
2025-05-14 23:55:25
849
原创 【Embedding Models】嵌入模型选择指南
国内主流嵌入模型主要分为通用中文嵌入模型、多语言与混合场景模型、轻量化与低成本模型以及长文本与高维度模型。商汤Piccolo2在中文评测中表现优异,支持长文本处理和高精度语义检索;百度BGE系列专为中文优化,适合企业级问答系统;Text2Vec系列开源且支持本地部署,适合数据隐私敏感场景。BGE-M3支持多语言混合检索,适合跨境电商和多语言内容平台;BGE-small系列适合资源受限的边缘计算场景;阿里云Tao-8k则适合复杂文档分析。选型时需考虑数据安全、中文场景优化、性能与资源权衡以及企业级服务需求。性
2025-05-14 17:27:21
1013
原创 【Canda】常用命令+虚拟环境创建到选择
本文详细介绍了Conda的常用命令及其在虚拟环境管理中的应用。首先,文章列举了Conda的基本命令,如查看帮助、信息、版本及更新等。接着,重点讲解了如何创建、切换、查看、删除和克隆Conda虚拟环境,以及如何管理环境中的依赖包,包括安装、更新、卸载和查看包信息。此外,文章还介绍了如何导入导出环境配置,并通过实操演示了从打开Conda命令窗口到在VSCode中选择虚拟环境的完整流程。这些内容为使用Conda进行项目依赖管理和环境隔离提供了全面的指导。
2025-05-13 23:45:24
943
原创 【基于 LangChain 的异步天气查询5】多轮对话天气智能助手
本项目是一个智能聊天和天气查询助手,结合了文本和语音输入/输出功能,提供互动式对话体验。主要功能包括:1. 天气查询:通过GeoNames和OpenWeatherMap API获取天气数据,支持中文城市名查询,返回天气描述、温度、湿度、风速等信息。2. 多轮对话:使用RunnableWithMessageHistory和ChatMessageHistory实现多轮对话,保存聊天记录,确保对话连贯性。3. 语音交互:通过speech_recognition和pyttsx3库实现语音输入和输出,提升用户体验。4
2025-05-11 20:50:38
1750
原创 【基于 LangChain 的异步天气查询4】加入语音输入/朗读
本文介绍了一个基于Python的天气查询项目,通过语音或文本输入城市名称,获取并播报该城市的天气信息。项目依赖包括pyttsx3、SpeechRecognition、pyaudio和python-dotenv等库。文件结构包括.env配置文件、main.py主程序文件和weather_runnable.py天气查询模块。weather_runnable.py通过GeoNames API获取城市经纬度,再调用OpenWeather API获取天气数据,并利用LangChain构建AI分析管道。main.py提
2025-05-11 00:56:04
1257
原创 【基于 LangChain 的异步天气查询3】OpenWeather实现实时天气查询
该项目是一个智能天气查询助手,结合了LangChain、Deepseek-r1和天气API,支持通过中文城市名获取实时天气数据,并提供AI生成的简洁自然建议。主要功能包括:1. 使用GeoNames API识别城市并获取经纬度信息;2. 通过OpenWeather API获取天气数据,如温度、湿度和风速;3. 利用Deepseek-r1模型分析天气并生成生活建议;4. 支持异步运行,使用asyncio.run();5. 通过.env文件隔离配置,保护API密钥安全。项目结构清晰,包含.env、main.py
2025-05-10 23:03:02
774
原创 【基于 LangChain 的异步天气查询2】GeoNames实现地区实时气温查询
本文介绍了如何利用Langchain框架结合GeoNames API实现地区温度的实时查询,并通过GPT-4o生成天气描述。首先,用户需在GeoNames官网注册账号以获取地理经纬度信息。随后,通过编写Python代码(weather_runnable.py),使用aiohttp和requests库从GeoNames和Open-Meteo API获取指定城市的温度数据。代码中定义了一个异步函数fetch_weather,用于查询并返回城市温度。最后,通过Langchain的ChatPromptTemplat
2025-05-10 19:11:19
741
原创 【基于 LangChain 的异步天气查询1】异步调用 Open-Meteo API 查询该城市当前气温
用户输入地点(城市名)构造提示词(Prompt)生成自然语言问题异步调用 Open-Meteo API 查询该城市当前气温调用 OpenAI GPT-4o 模型,让它基于气温给出外出建议。
2025-05-10 16:35:39
397
原创 【Langchain】根据LCEL规范实现Runable interface
LCEL(LangChain Expression Language)是LangChain中用于组合和控制语言模型、工具、链等逻辑的规范。在LCEL中,任何可执行的模块都应实现Runnable接口,该接口的核心方法是invoke(同步)或ainvoke(异步)。通过实现这些方法,自定义组件可以与LLM、Chain、Tool等模块无缝组合。文章展示了如何创建简单的Runnable,如反转字符串和添加时间戳,并进一步演示了如何实现一个复杂的Runnable,通过调用Open-Meteo API获取城市实时气温。
2025-05-10 15:29:19
533
原创 【LangSmith Tracing】链路跟踪配置——附运行代码示例
LangSmith Tracing 是 LangChain 官方推出的一个,它是你开发智能代理、链(Chain)或多工具交互系统时非常强大的帮手。简单说,它就是 LangChain 的「
2025-05-09 18:53:58
1264
原创 【Tavily AI】AI 模型插上实时搜索的翅膀:构建强大的 RAG 系统
是一家专注于的人工智能公司。它的核心产品是一个,主要用于在构建 AI 应用(比如聊天机器人、智能问答系统、RAG 系统等)时,实现精准、高效的信息检索。
2025-05-09 14:00:21
997
原创 【Prompt工程—文生图】案例大全
本文主要介绍了12种不同类型的文生图技巧,通过加入不同的图像类专业术语,风格词汇,可以更好的对图像进行熏染生成。
2025-05-07 23:25:58
1737
原创 探索开源大模型体系:当今AI的引领者
开源大模型体系的崛起,为AI开发者和研究者提供了前所未有的机遇。从Hugging Face的易用性到OpenAI GPT的创新能力,从DeepSpeed的高效训练到Megatron-LM的强大性能,再到AllenNLP的研究支持,这些大模型相辅相成,共同推动着人工智能技术的进步。随着开源社区的不断发展,我们也期待未来能有更多杰出的开源大模型出现,推动更多创新应用的落地。在这个快速发展的领域,掌握这些大模型的特点和应用,将有助于开发者和研究者在AI的浪潮中立于不败之地。
2025-05-06 23:57:13
653
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人