reset2021
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型中的知识图谱嵌入:融合、增强与协同推理
大模型不是知识的终点,而是通往认知智能的桥梁。知识图谱嵌入,作为连接符号主义与连接主义的纽带,正在重塑大模型的能力边界。未来的 AI 系统,既要有“海量记忆”,也要有“清晰逻辑”;既能“天马行空”,也能“言之有据”。正如 Alan Turing 所言:“我们想要的是一台能从经验中学习的机器,而不是一台只能执行固定指令的机器。”而知识图谱嵌入,正是让大模型“学得更聪明、说得更靠谱”的关键钥匙。原创 2025-12-26 11:38:20 · 1 阅读 · 0 评论 -
知识图谱:构建机器认知世界的基石
摘要: 知识图谱(KG)是以图结构表示知识的语义网络,通过实体(节点)和关系(边)构建结构化知识库,支持语义推理与关联发现。其发展经历了从语义网络、专家系统到工业应用(如Google知识图谱)的演进。核心构建流程包括知识抽取、融合、存储、推理及动态更新,关键技术挑战涵盖数据稀疏、多语言对齐和时效性等问题。知识图谱在智能搜索、推荐系统、金融风控、医疗等领域广泛应用,未来将与大语言模型(LLM)深度融合,增强AI的可解释性与事实准确性。开源工具(如Neo4j、Wikidata)和领域适配是重要发展方向。原创 2025-12-25 08:38:59 · 96 阅读 · 0 评论 -
Chatflow 与 Workflow:对话式智能与结构化流程的深度对比
本文系统对比了Chatflow(对话流)与Workflow(工作流)两种智能系统范式。Workflow是面向确定性任务的静态执行模型,强调可靠性与结构化;Chatflow则是动态交互的对话管理模型,注重用户体验与灵活性。文章从定义、架构、交互模式、技术实现等方面分析了两者的核心差异,并指出它们分别适用于后台自动化与前端交互等不同场景。最后提出融合趋势,强调通过互补结合可构建更强大的智能系统,并给出选型指南。两种范式各有所长,应根据具体需求选择或结合使用。原创 2025-12-19 09:09:37 · 24 阅读 · 0 评论 -
Workflow 与 Agent:智能系统构建范式的深度对比
摘要: Workflow(工作流)与Agent(智能体)是构建智能系统的两种核心范式。Workflow基于预定义流程,强调确定性、可审计性,适用于金融、医疗等需强一致性的场景;Agent则具备自主决策能力,适合开放域问题求解和创意任务。两者在架构、执行机制、适用场景及运维上存在显著差异:Workflow效率高、易调试,但灵活性低;Agent动态规划能力强,但资源消耗不可控。未来趋势是融合两者优势,通过“结构化流程+动态决策”实现智能工作流(Agentic Workflow),在稳定性和创新性之间寻求平衡。原创 2025-12-19 08:38:11 · 131 阅读 · 0 评论 -
向量数据库大对决:Pgvector、Redis、Milvus 与 Qdrant 全面深度对比
随着AI应用的普及,向量数据库成为关键技术组件。本文对比分析四大主流向量数据库:Pgvector、Redis、Milvus和Qdrant。首先介绍了向量数据库的核心概念,包括近似最近邻搜索算法(HNSW、LSH等)和关键性能指标(查询延迟、召回率等)。然后重点分析了Pgvector作为PostgreSQL扩展的特性,包括其向量数据类型、索引支持和距离函数,并评估了其在不同数据规模下的性能表现。原创 2025-12-18 16:08:45 · 25 阅读 · 0 评论 -
Context Pruning:大语言模型推理效率的革命性优化技术
上下文剪枝:优化大语言模型推理效率的新范式 随着大语言模型上下文窗口的不断扩展,上下文膨胀导致的计算资源消耗已成为关键瓶颈。本文系统探讨了Context Pruning技术,通过智能筛选高价值上下文信息来提升推理效率。研究揭示了Transformer架构O(n²)复杂性的根本挑战,指出上下文信息价值分布不均的特性为剪枝提供了理论基础。文章详细分析了静态剪枝、动态剪枝和基于学习的剪枝等核心方法,比较了它们在计算效率与输出质量间的权衡。原创 2025-12-18 11:21:43 · 93 阅读 · 0 评论 -
Milvus 向量数据库部署方案全景指南:从单机开发到生产级高可用集群
本文系统介绍了Milvus向量数据库的四大部署方案:嵌入式开发利器Milvus Lite、单机简易部署Standalone模式、生产级高可用Cluster模式以及全托管SaaS服务Zilliz Cloud。针对不同应用场景(开发测试、小型应用、大规模生产环境),详细分析了各模式的适用条件、资源配置要求和部署步骤,并提供了关键配置示例。文章强调正确选择部署方案对系统性能至关重要,帮助开发者根据向量规模、QPS和高可用需求,选择最优部署方式,实现资源优化与稳定运行。原创 2025-12-18 09:14:47 · 94 阅读 · 0 评论 -
混合检索(Hybrid Search):构建下一代 AI 搜索与 RAG 系统的核心范式
摘要:混合检索技术正成为大语言模型时代信息检索的关键范式,通过融合稀疏向量(如BM25)的关键词精确匹配与稠密向量(如BERT)的语义理解能力,解决传统检索的局限性。文章系统探讨了混合检索的理论基础、技术演进(从加权融合到统一表示模型)、主流实现工具(Elasticsearch、Milvus等)及工程实践,并指出其在RAG、电商推荐等场景中的显著优势。研究表明,混合检索能提升12-18%的检索效果,降低30%的幻觉率,成为平衡召回率与准确率的理想解决方案。原创 2025-12-18 08:58:04 · 453 阅读 · 0 评论 -
Milvus 向量数据库的发展历程:从开源项目到全球 AI 基础设施的演进之路
摘要:本文系统梳理了开源向量数据库Milvus从2019年诞生至今的技术演进历程。作为专为AI应用设计的向量数据库,Milvus经历了从实验室原型到全球超3000家企业采用的跨越式发展。文章详细分析了其架构从单机版到云原生微服务的重大变革,功能从基础相似性搜索到支持RAG、多模态检索等复杂场景的持续扩展,以及生态从单一数据库到完整工具链的完善过程。同时探讨了Milvus在AIGC时代的技术战略和未来发展方向,展现了其如何成长为AI基础设施领域的关键组件。原创 2025-12-18 08:53:38 · 82 阅读 · 0 评论 -
Milvus 混合检索:构建下一代 RAG 与多模态应用的核心引擎
摘要:随着大语言模型和生成式AI的快速发展,检索增强生成(RAG)成为主流架构。传统单一向量检索在语义覆盖和关键词匹配方面存在局限。Milvus v2.3引入混合检索技术,结合稀疏向量与密集向量的优势,显著提升检索性能。本文详解Milvus混合检索的技术原理、应用场景及实现方法,并以BGE-M3模型为例演示如何构建高性能混合检索系统,为RAG和多模态AI提供更强大的检索能力。原创 2025-12-18 08:39:20 · 177 阅读 · 0 评论 -
超越幻觉:Dify 中 RAG 与知识库的深度解析与工程实践
摘要: 大型语言模型(LLM)面临"幻觉"问题,检索增强生成(RAG)通过结合外部知识库提升回答准确性。Dify平台将RAG流程封装为易用的知识库功能,支持文档上传、分块、向量化及检索,并可与AI应用绑定。其核心流程包括:用户提问→向量化检索→结果筛选→增强提示→LLM生成答案。Dify通过可视化配置降低了RAG应用开发门槛,使LLM能基于最新、可靠数据生成回答,适用于客服、金融等专业场景。原创 2025-12-17 10:16:49 · 248 阅读 · 0 评论 -
SGLang:高效部署大语言模型的新范式
摘要: SGLang(Structured Generation Language)是一种新型大语言模型推理框架,通过结构化提示和运行时优化解决传统部署中的效率瓶颈。其核心优势包括:1)结构化提示编程,支持JSON等格式约束,提升生成准确率;2)声明式编程模型,简化开发流程;3)集成RadixAttention、分块预填充等优化技术,吞吐量可达vLLM的2-5倍。部署流程涵盖环境配置、模型加载及服务启动,支持多GPU并行和草稿解码加速。SGLang兼容OpenAI API,适用于高并发生产场景。原创 2025-12-17 09:19:23 · 76 阅读 · 0 评论 -
Llama.cpp 与 vLLM:大模型部署的两种主流路径对比
本文对比了两种主流大模型部署方案Llama.cpp和vLLM的核心差异。Llama.cpp基于C/C++,专注在消费级硬件上通过量化实现低资源占用,适合边缘设备和本地推理;vLLM则基于PyTorch,利用PagedAttention技术优化GPU显存管理,专为高并发API服务设计。测试显示,vLLM在GPU上的吞吐量可达3000+ tokens/s,远超Llama.cpp的80 tokens/s,但后者仅需6GB内存即可运行7B模型。原创 2025-12-16 16:30:53 · 212 阅读 · 0 评论 -
vLLM:高效部署大语言模型的利器——从原理到实战
摘要: vLLM是一款高效的大语言模型推理引擎,通过创新的PagedAttention技术(受操作系统分页机制启发)显著提升推理性能,相比传统方案吞吐量提高10-24倍,显存利用率超90%。其核心优势包括消除显存碎片、支持动态批处理和KV缓存共享。vLLM支持离线批处理和兼容OpenAI的在线API,可部署于多GPU环境(张量并行)并集成量化技术(如AWQ)以降低显存消耗。安装简便,适用于Linux系统,是部署大模型的高效解决方案。原创 2025-12-16 15:43:28 · 180 阅读 · 0 评论 -
从零开始:使用 llama.cpp 高效部署大语言模型的完整指南
摘要:本文详细介绍了如何使用llama.cpp在消费级硬件上高效部署大型语言模型。从环境搭建、模型转换到量化压缩和推理优化,提供了完整的实践指南。重点包括:1)支持多种操作系统和硬件环境;2)模型量化技术(如Q4_K、Q5_K)显著降低资源需求;3)命令行推理与API服务部署方法;4)性能调优技巧。通过量化技术,7B参数模型可压缩至4GB左右,在普通笔记本上实现流畅运行,为本地AI应用提供了经济高效的解决方案。原创 2025-12-16 15:29:45 · 260 阅读 · 0 评论 -
mcp初探
本文介绍了MCP服务的部署与Dify平台配置过程:1)通过Python编写MCP服务代码(mcp_test.py),实现获取系统时间功能;2)配置环境依赖并启动服务;3)在Dify平台添加MCP服务并配置IP地址;4)通过创建工作流测试服务连通性。整个流程包含服务端部署和平台集成两个主要环节,最终实现系统时间查询功能的自动化工作流调用。原创 2025-09-16 17:22:20 · 169 阅读 · 0 评论 -
mineru+docker+dify实现文档识别
本文介绍了通过Docker方式部署MinerU并与Dify集成的完整流程。首先下载源码和Dockerfile构建mineru-sglang镜像,然后通过docker-compose启动网页界面、API和加速服务。接着在Dify中安装MinerU插件并进行授权配置,需修改.env文件中的FILES_URL参数。最后演示了在Dify工作流中成功解析PDF文件内容的操作。该方法比源码安装更便捷,适合需要快速部署MinerU的用户。原创 2025-09-16 14:25:28 · 534 阅读 · 0 评论 -
mineru+dify实现文档识别
本文介绍了Mineru和Dify两款工具在文档识别与处理中的协同应用。Mineru作为高性能OCR工具,提供高精度文本识别和多语言支持;Dify则是强大的数据处理平台,支持多种数据源和可视化工作流设计。通过整合二者,可实现从文档扫描到数据处理的自动化流程,显著提升工作效率。文章详细说明了安装配置步骤、API服务启动方法以及在Dify中创建工作流的实践指南,为数字化转型中的文档处理提供了完整解决方案。原创 2025-09-15 14:28:21 · 260 阅读 · 0 评论 -
Dify自定义插件
Dify插件CLI工具安装与使用指南:本文介绍了如何安装和使用Dify插件CLI工具进行插件开发。主要内容包括:1) 下载并安装CLI工具;2) 常用指令说明;3) 创建插件项目的完整流程,包括项目初始化、语言选择、类型设定和权限配置;4) 项目目录结构说明;5) 环境变量配置和插件运行方法。该工具支持Python开发,可创建不同类型的插件(如Tool、Model等),并提供了详细的权限控制选项。安装测试成功后,开发者可通过简单的命令快速创建和运行插件项目。原创 2025-09-11 09:12:21 · 266 阅读 · 0 评论 -
探索大模型的前沿:从GPT到LLAMA,看看AI如何改变世界
摘要:大型语言模型(LLMs)如GPT和LLAMA正深刻改变人工智能领域。GPT系列以出色的文本生成能力著称,而LLAMA则凭借多语言支持和高效压缩技术脱颖而出。核心技术包括变压器架构、大规模预训练和模型压缩等。这些模型已应用于医疗、金融和教育等领域,显著提升效率。然而也面临计算成本高、数据偏见等挑战。未来发展方向包括多模态交互和通用AI,需平衡技术创新与伦理约束,确保AI发展造福人类社会。(149字)原创 2025-09-09 13:46:36 · 146 阅读 · 0 评论 -
也谈deepseek本地部署
如果你有更多需求(如自定义训练、模型微调等),可以深入研究 Hugging Face 的 `transformers` 库和 PyTorch 的高级功能。你可以使用 `transformers` 库直接加载模型。如果你希望将 DeepSeek 模型部署为一个 API 服务,可以使用 `Flask` 或 `FastAPI`。如果你的机器有 GPU,可以使用 PyTorch 的 GPU 支持来加速推理。如果你的机器有多个 GPU,可以使用 PyTorch 的分布式训练和推理功能。3.2 将模型移动到 GPU。原创 2025-02-11 18:16:02 · 620 阅读 · 0 评论 -
Ragflow 本地化部署
Ragflow本地部署指南:1)安装Docker并启动服务;2)克隆Ragflow仓库;3)选择合适版本进行安装(推荐使用老版命令);4)解决可能出现的GPU驱动错误;5)修改端口配置后启动服务,通过8888端口访问Web界面。注意:国内镜像加速可能引发ES连接问题,GPU版本需硬件支持。原创 2025-08-12 09:41:15 · 235 阅读 · 0 评论 -
linux下部署 dify,并配置本地ollama大模型
本文介绍了Dify平台的安装配置及Ollama模型接入方法。首先通过GitHub获取源码,配置环境变量后使用Docker启动服务,访问80端口完成管理员账号设置。在模型配置部分,详细说明了Ollama的连接步骤,包括填写模型名称、服务地址、上下文长度等参数,并特别指出多模态模型需勾选Vision支持。针对高版本Dify可能出现模型不显示的问题,给出了解决方案文中提供了完整的配置示例和常见问题处理方法。原创 2025-08-11 19:26:14 · 881 阅读 · 0 评论 -
SGLang vs vLLM vs Ollama:三大LLM工具深度对比与选型指南
本文对比分析了当前三大主流大语言模型工具SGLang、vLLM和Ollama的核心特性与技术差异。SGLang擅长结构化生成控制,vLLM以生产级性能见长,Ollama则侧重本地开发便利性。通过架构解析、性能测试和功能对比,为开发者提供选型建议:本地开发优先Ollama,需要复杂逻辑控制选择SGLang,企业级部署推荐vLLM。文章还探讨了工具组合使用策略及未来发展趋势,建议根据项目阶段需求灵活搭配,以平衡开发效率与运行性能。原创 2025-08-11 14:38:52 · 529 阅读 · 0 评论 -
大模型发展与应用详解:从技术基础到实际案例探析
大模型凭借其强大的自然语言处理能力,正以前所未有的方式重塑我们的生活和工作。在未来的道路上,如何在技术创新与伦理约束之间找到平衡,将是每一个研究者和决策者的重要课题。在当今的人工智能领域,大规模语言模型(Large Language Models,LLMs),简称大模型,正如一颗新星般闪耀。大模型指的是基于深度学习技术,通过海量数据训练,能够理解和生成自然语言的模型。一家投资公司利用大模型分析海量市场数据,每日生成的财经新闻摘要精准识别出潜在的投资机会和风险信号,帮助投资者做出更明智的决策。原创 2025-07-25 17:46:17 · 397 阅读 · 0 评论
分享