人工智能
文章平均质量分 93
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Context Engineering上下文工程指南
《大型语言模型开发中的上下文工程》探讨了如何通过智能体系统解决LLM在实际应用中的局限性。文章指出,LLM面临的瓶颈并非智能不足,而是其"孤立性"——无法访问私有数据、实时信息,且受限于有限的上下文窗口。为此,作者提出"上下文工程"方案,通过构建外部桥梁为模型提供动态信息支持。 智能体在此系统中扮演核心协调角色,具备动态决策、状态保持和自适应工具使用等能力。文章详细分析了智能体架构类型、上下文管理策略(如总结、修剪、卸载)以及常见错误模式(污染、干扰等)。随着上下文窗原创 2025-11-10 15:29:21 · 870 阅读 · 0 评论 -
DeepAgent:工具检索、工具调用与思维折叠的统一智能体框架深度解析
摘要 DeepAgent 提出了一种端到端的深度推理智能体框架,通过统一推理流程解决复杂任务中的工具检索、调用与错误累积问题。其核心创新包括: 自主记忆折叠机制:将冗长推理历史压缩为结构化记忆(情景记忆、工作记忆、工具记忆),优化上下文管理; 统一工具使用范式:动态检索并调用工具,支持开放式任务场景; ToolPO 强化学习训练:通过细粒度回报信号提升工具调用准确性。 实验表明,该框架在多任务场景中显著提升成功率并降低计算开销,适用于企业级智能体部署。技术实现通过特殊标记(如FOLD_THOUGHT)控制推原创 2025-11-04 20:00:00 · 994 阅读 · 0 评论 -
Multi-Agent的编排模式总结/ Parlant和LangGraph差异对比
本文介绍了多智能体系统的7种核心协作模式:Parallel(并行处理)、Sequential(顺序执行)、Loop(循环迭代)、Router(路由分发)、Aggregator(结果聚合)、Network(自由交互)和Hierarchy(层级管理)。每种模式适用于不同工作流场景,如高吞吐管道、多步推理或动态对话等。文章对比了LangGraph(基于图的任务编排框架)和Parlant(自然对话引擎)的架构差异,指出基于图的系统在自由对话场景存在固有局限,建议根据实际需求选择模式,强调协作逻辑比架构形式更重要。原创 2025-11-04 10:38:28 · 993 阅读 · 0 评论 -
【面试问题】模型推理的关键差异:Regular ML Inference vs. LLM Inference
本文探讨了大语言模型(LLM)推理与常规机器学习推理的关键差异,以及针对性优化技术。LLM推理面临变长输入输出、两阶段计算差异、KV缓存内存管理等独特挑战。解决方案包括:1)连续批处理动态调度请求以提高GPU利用率;2)预填充-解码分离优化计算资源分配;3)分页注意力机制高效管理KV缓存;4)前缀感知路由优化负载均衡;5)模型并行策略(MP/DP/TP)实现分布式计算。这些技术创新显著提升了LLM推理的吞吐量、内存效率和响应速度,为实际部署提供了关键技术支撑。原创 2025-11-03 08:44:24 · 848 阅读 · 0 评论 -
Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力
摘要:Kimi Linear提出新一代线性注意力架构KDA(Kimi Delta Attention),通过逐通道门控遗忘机制和可学习位置编码,首次实现线性注意力全面超越传统Transformer。该方案采用3:1混合架构(3层KDA+1层全注意力),在1M长上下文场景下实现6.3倍解码加速,KV缓存减少75%,并在短/长上下文、推理速度、显存占用等维度全面领先。实验证明其训练效果优于标准Transformer 16%,标志着线性注意力技术进入生产级成熟阶段,为大模型架构演进提供新方向。原创 2025-10-31 13:57:58 · 1356 阅读 · 0 评论 -
为什么上下文工程很重要
上下文工程是管理AI代理信息流的关键技术,通过编写、读取、压缩和隔离上下文四大操作,解决令牌限制、成本优化和信息相关性等挑战。它涉及六种上下文类型(指令、示例、知识、记忆、工具、护栏),需结合智能检索、分层压缩和状态隔离等策略。最佳实践包括延迟加载和生命周期管理,以在复杂场景中平衡性能与准确性。该框架为多轮交互AI应用提供了系统化的上下文管理方案。原创 2025-10-10 10:22:05 · 875 阅读 · 0 评论 -
【学习】通义DeepResearch之WebWalker-让大模型“深度潜水”网页信息
阿里团队提出WebWalkerQA基准和WebWalker多智能体框架,解决传统RAG在开放域问答中仅能横向检索浅层内容的问题。WebWalkerQA包含680道需多层级网页跳转的中英双语题目,测试显示GPT-4o准确率仅40%。WebWalker通过Explorer(模拟点击)和Critic(信息筛选)双Agent协同,实现纵向深度检索。实验表明,横向RAG与纵向WebWalker结合可使准确率提升5-10%,尤其在多源复杂问题上效果显著。该工作首次验证了二维检索的互补性,为增强大模型信原创 2025-09-18 09:39:19 · 1266 阅读 · 0 评论 -
XML提示工程:算法工程师必须掌握的核心技术
XML结构化提示技术成为提升大模型稳定性的关键突破。这种方法通过明确标签划分系统指令、用户输入和任务定义,有效解决了提示注入攻击、输出不可控等核心问题。研究表明,结构化提示能显著降低AI幻觉率,将错误率从语义层面的概率推断转变为语法层面的确定性解析。工程实践中的三种核心模式——上下文隔离、层次组织和输出格式化,分别解决了命名空间冲突、任务依赖关系和输出解析难题。尽管XML会增加token消耗,但其带来的稳定性提升和调试成本降低在生产环境中具有显著优势。随着GPT-5等新一代模型对XML处理能力的增强,这种技原创 2025-09-16 14:51:18 · 1116 阅读 · 0 评论 -
如何设计一个用于大规模生产任务的人工智能AI系统
大规模AI系统构建的关键阶段 本文探讨了构建能够服务数百万用户、处理TB级数据的AI系统所需的核心开发阶段。第一阶段聚焦系统硬件与基础设施,详细分析了三种主流计算硬件(CPU/GPU/TPU)的适用场景,以及FPGA、ASIC等新型硬件的优势。文章指出硬件选择需结合模型架构和量化技术,并比较了不同云服务方案的性价比。 在分布式系统方面,强调了任务分解、资源自动调配和性能监控的重要性。网络优化需要关注延迟控制、带宽扩展和通信协议选择。数据存储解决方案则需根据数据类型选择对象存储/文件系统/数据库,并合理运用数原创 2025-06-11 23:30:00 · 1651 阅读 · 3 评论 -
四大LLM 微调开源工具包深度解析
本文介绍了四种开源工具包,帮助企业高效微调大语言模型(LLM)。Unsloth显著降低显存占用,使单GPU微调13B参数模型成为可能;DeepSpeed实现大规模分布式训练,支持70B参数的超大模型;vLLM优化推理效率,吞吐量提升2-4倍;Axolotl简化微调流程,支持多种高效技术。这些工具共同解决了企业面临的计算资源有限、高风险领域需求和快速迭代周期等挑战,使生产级LLM微调变得实用且高效。通过合理组合这些工具,企业可在普通硬件上实现专业级的模型定制,获得竞争优势原创 2025-06-11 18:24:10 · 1755 阅读 · 5 评论 -
【阅读笔记】MemOS: 大语言模型内存增强生成操作系统
MEMOS:面向大语言模型的内存操作系统 研究提出MEMOS系统,通过统一管理参数化、激活和纯文本三类内存,解决当前大语言模型在长期知识管理方面的局限性。创新性地引入MemCube作为标准化内存单元,支持跨类型调度和生命周期管理。采用三层架构设计,包含接口层、操作层和基础设施层,实现对内存的统一治理。该系统显著提升了模型在长期对话状态维护、知识演化和多代理协作等方面的能力,为构建更智能、持续学习的大语言模型提供了新思路。未来将探索跨模型内存共享和自演化内存机制。原创 2025-06-09 17:40:16 · 1696 阅读 · 0 评论 -
NL2SQL技术新的解决方案SQL-R1:强化学习与监督微调的结合,显著提升了自然语言到SQL推理模型的性能和可解释性
摘要:论文《SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning》提出了一种基于强化学习的文本到SQL推理模型SQL-R1。该模型采用监督微调(SFT)和组相对策略优化(GRPO)两阶段训练,设计了格式、执行、结果和长度四层奖励机制。实验表明,SQL-R1在Spider和BIRD基准测试中分别达到88.6%和66.6%的执行准确率,显著优于传统方法。研究创新性地证明了强化学习在提升NL2SQL任务原创 2025-06-06 00:30:00 · 1790 阅读 · 3 评论 -
小型语言模型:为何“小”才是“大”?
在AI领域,小型语言模型(SLMs)正逐渐成为大型语言模型(LLMs)的有力替代品。SLMs通过精心设计的架构和优化技术,实现了在特定任务上的高效性能,同时具备低延迟、低功耗、离线运行等优势。本文详细探讨了SLMs的兴起原因、技术细节、实际应用案例以及如何选择适合项目的模型。SLMs不仅在资源受限的设备上表现出色,还为数据隐私和可持续性提供了更好的解决方案。随着技术的不断进步,SLMs正推动AI向更实用、更高效的方向发展。原创 2025-05-29 10:02:35 · 1382 阅读 · 4 评论 -
通过高效记忆算法将LLM API成本降低 40%:让LLM 只记住重要的事情
本文利用高效记忆算法,可将LLM聊天机器人的API调用成本降低40%。该方案通过智能区分用户输入中的"陈述"和"问题",仅对问题生成完整响应,从而减少不必要的标记使用。在营销活动策划场景的测试中,随着对话轮次增加,相比传统方法(所有对话历史均传递),新算法显著减少了总标记数量。关键技术包括:陈述内容提取关键事实、记忆存储的动态更新机制(添加/更新/无操作),以及基于语义相似度的检索系统。实验结果显示,在创建儿童故事原创 2025-05-25 09:30:10 · 1128 阅读 · 0 评论 -
Mem0:构建具备可扩展长期记忆的生产级 AI 代理
Mem0 成功模仿人类记忆机制,赋予大语言模型长期可靠的记忆能力,使模型不仅能 “记住” 信息,还能 “理解” 记忆中实体关系,在长时间对话中保持回答一致性与准确性,为实现更智能的人机交互提供了新途径原创 2025-05-25 09:07:53 · 1660 阅读 · 2 评论 -
ReAct 与 CoAct:AI 代理的推理与行动之旅
ReAct 和 CoAct 是两种将推理与行动结合的 AI 代理框架,旨在提升自主系统的能力。ReAct 通过让单一代理交替进行推理和行动,结合内部思维链与外部环境互动,显著提升了复杂任务的解决能力。它通过提示机制实现,适用于知识密集型任务和决策制定,增强了代理的透明度和适应性。然而,随着任务复杂性和长度的增加,ReAct 在记忆和规划深度方面面临挑战。CoAct 则通过引入多个代理的协作层级结构,将任务分解为全局规划和本地执行,提升了处理长周期任务的效率和鲁棒性。全局规划器负责高层次战略,本地执行器专注于原创 2025-05-23 21:18:04 · 1330 阅读 · 5 评论 -
LLM 增强型搜索:下一代智能检索技术的崛起
本文深入探讨了 LLM 增强型搜索技术,这种结合了大型语言模型(LLM)、检索增强生成(RAG)和智能代理技术的新一代搜索引擎,能够提供更智能、更人性化的搜索体验。与传统搜索引擎相比,LLM 增强型搜索不仅能够理解语义上下文,还能通过多轮对话、个性化推荐以及多模态和跨语言检索等方式,直接为用户提供简洁准确的答案,而不仅仅是网页链接。文章详细介绍了其核心技术架构、工作流程和实现方法,并分析了当前技术的局限性,如在处理位置相关查询时的不足、RAG 功能的不完善以及缺乏有效的评估基准等。同时,文章也展望了未来的发原创 2025-05-19 05:00:00 · 1312 阅读 · 6 评论 -
RAG-MCP:通过检索增强生成缓解大型语言模型工具选择中的提示膨胀问题
RAG-MCP框架通过结合检索增强生成(RAG)原则和MCP框架,解决了LLMs在外部工具选择中的提示膨胀和决策复杂性问题。该框架的核心是语义检索模块,它将工具元数据表示为向量空间中的点,并高效匹配用户查询与最相关的工具,从而减少提示大小和复杂性,提高决策准确性。MCP压力测试表明,随着工具数量的增加,传统方法面临提示膨胀和决策开销问题,而RAG-MCP通过动态检索最相关的工具,显著提高了选择准确性和系统可扩展性。实验结果显示,RAG-MCP在选择准确性、提示令牌使用和任务成功率方面优于基线方法。然而,该方原创 2025-05-19 01:15:00 · 2852 阅读 · 15 评论 -
知识图谱赋能大数据实战指南:从理论到实践的深度解析
本文详细介绍了如何利用知识图谱处理大数据,从数据获取、预处理到实体与关系的提取,再到知识图谱的构建与存储。通过使用Python及其相关库,结合LLM(大型语言模型)的强大能力,我们能够从海量新闻文章中提取有价值的实体和关系,并将其转化为结构化的知识图谱。此外,文章还探讨了知识图谱的可视化、查询分析以及如何通过嵌入技术进行链接预测,为后续的深入研究和应用提供了坚实基础。原创 2025-05-18 21:00:00 · 613 阅读 · 0 评论 -
测试17种引导AI的提示工程技巧:从零样本到更复杂的ReAct
本文探讨了在1B参数的LLaMA模型上测试17种提示工程技巧的效果,旨在通过优化提示方式提升小型LLM的生成结果。文章首先介绍了提示工程的重要性,强调通过改进提示内容可以引导模型生成更准确、创意或可靠的回答。接着,文章详细描述了如何搭建测试环境,包括加载模型和定义相关函数。随后,文章通过具体示例展示了零样本、少样本和角色提示等技巧的应用。零样本提示适用于简单任务,而少样本提示通过提供示例帮助模型更好地理解复杂任务。角色提示则通过指定模型扮演特定角色来调整回答的风格和内容。这些技巧的测试结果表明,合理使用提示原创 2025-05-14 20:00:00 · 2305 阅读 · 25 评论 -
微调ModernBERT为大型语言模型打造高效“过滤器”
本文探讨了如何通过微调 ModernBERT 模型,为大型语言模型(LLM)打造高效且成本效益高的“安保”系统,以筛选用户查询。物流聊天机器人在上线后遭遇用户提出大量离题查询的问题,导致资源浪费和运营成本增加。文章分析了几种常见解决方案的局限性,如仅依靠系统提示过滤或使用专用 LLM 守门人模型,这些方法存在指令冲突、误报、校准困难和资源密集等问题。通过创建高质量训练数据集、多模型验证、人工细化标签以及高效微调 ModernBERT 模型,成功开发出一个精准高效的查询过滤系统,提升了性能并降低了成本原创 2025-05-10 23:00:00 · 2797 阅读 · 4 评论 -
从零开始理解FlashAttention:算法细节图解
介绍了 FlashAttention 技术,它通过优化 GPU 内存层次结构和融合内核,实现了快速且节省内存的精确注意力计算。文章分为两部分:第一部分介绍了注意力机制的基础知识以及 GPU 优化方法;第二部分深入讲解了 FlashAttention 的核心算法,包括如何分解 SoftMax 操作以支持分块计算,以及如何在前向和反向传播中高效处理中间结果。FlashAttention 实现了 7.6 倍的速度提升和 O(N) 的内存复杂度,同时保持了精确的注意力分数,极大地推动了大规模模型训练的效率和可行性原创 2025-05-09 12:16:23 · 1127 阅读 · 1 评论 -
基于物理信息的神经网络在异常检测Anomaly Detection中的应用:实践指南
物理信息神经网络(PINNs)代表了一种令人兴奋的新建模范式,这种范式正在各行各业迅速崭露头角。PINNs 最有前景的应用之一是复杂物理系统中的异常检测Anomaly Detection。这一应用尤其值得关注,因为它解决了传统机器学习方法在实践中一直难以克服的几个关键痛点。在这篇博客中,让我们通过回答实践者在采用基于 PINN 的方法进行异常检测Anomaly Detection时最常遇到的一些问题,深入探讨这个热门话题。原创 2025-04-27 13:11:54 · 1450 阅读 · 41 评论 -
如何解决无训练数据问题:一种更为智能化的解决方案
手动标注数据真的很费时间,而且买数据集又贵得要命,还不一定能完全符合你的需求。但这里有个令人兴奋的好消息,为啥不用 AI 来解决这个问题呢?别再依赖传统方法了,你可以用像 LLM(大型语言模型)和图像生成器这样的 AI 工具,为你的特定目标创建合成训练数据。如今有那么多开源和商业的 AI 模型可供选择,你可以根据自己的需求随意搭配,无论是想控制预算、提高效率,还是追求高质量的结果,都能轻松搞定。这对研究和商业来说,简直就是一场变革!原创 2025-04-27 20:00:00 · 1269 阅读 · 12 评论 -
如何在本地使用Ollama运行 Hugging Face 模型
通过简单的步骤,用户可以将 Hugging Face 上的模型转换为 GGUF 格式,实现在本地离线运行大型语言模型。文章首先介绍了 Ollama 的优势,包括简单的命令行界面、内置 REST API、快速模型切换和离线支持。然后详细讲解了完整的工作流程:从寻找或创建 GGUF 版本的模型,到编写 Modelfile、创建和运行模型。对于没有现成 GGUF 版本的模型,文章还提供了详细的转换教程,包括安装依赖、下载模型、转换格式等步骤原创 2025-04-14 08:48:06 · 1935 阅读 · 7 评论 -
AI烘焙大赛中的算法:理解PPO、GRPO与DPO最简单的方式
我翻遍了arXiv上那些让人头秃的论文,发现它们不是在堆砌数学公式,就是在用更复杂的数学公式解释上一个数学公式。今天,本AI厨神就要用最接地气的烘焙大赛来拆解这些算法,保证让您看得津津有味,连隔壁卖煎饼的王大妈都能听懂!不过在那之前,各位AI厨师们,请继续在算法的厨房里挥洒汗水吧!里面记载着:“面粉要过筛三次”、“蛋白打发要逆时针搅拌”、“烤箱温度要精确到±1℃”——这些细节决定了你的蛋糕是米其林三星还是黑暗料理。适合预算有限但又要比DPO稳定点的项目,就像学校里的学习小组——虽然比不上私教,但比自学强。原创 2025-04-08 00:00:00 · 1426 阅读 · 3 评论 -
Text-to-SQL技术深度解析:从理论突破到工程实践
SQL的专业性要求构成了数据民主化的主要障碍——据统计,仅约35%的开发人员接受过系统的SQL培训,而超过51%的专业岗位需要SQL技能。对于算法工程师而言,把握技术本质,理解业务需求,在生成质量与系统可靠性间寻求平衡,将是构建成功Text-to-SQL系统的关键。传统**自一致性(Self-Consistency)**方法假设多数投票最优,但在Text-to-SQL中面临两大局限:(1)最频繁的答案未必正确,(2)高温采样会降低候选质量。THEN"表达式),(3)数仓建模时建立清晰的业务域映射。原创 2025-04-08 00:00:00 · 1072 阅读 · 3 评论 -
零SQL构建数据分析AI智能体——基于LangChain和DuckDB的魔法之旅
SQL一直是数据分析领域的"普通话",但如今有了AI,连SQL语法都可以丢进垃圾桶了!本文将手把手教你用LangChain和DuckDB打造一个会自己写SQL的AI小助手,连Kaggle数据集都能轻松调戏~原创 2025-04-07 03:00:00 · 3579 阅读 · 70 评论 -
大语言模型(LLM)的“瘦身计划”—提示压缩:方法、算法及代码
LLMLingua提出,经常忽略压缩内容之间的相互联系以及LLM与用于提示压缩的小型语言模型之间的相关性。LLMLingua 正是为了解决这些问题而设计的。具体来说,如图4所示,LLMLingua 使用预算控制器动态分配不同的压缩比例给原始提示的各个部分,如指令、演示和问题。它还执行粗粒度的演示级压缩,以在高压缩比例下保持语义完整性。此外,LLMLingua 引入了令牌级别的迭代算法,用于细粒度的提示压缩。图4:LLMLingua 的框架。LLMLingua。原创 2025-03-26 00:15:00 · 1300 阅读 · 0 评论 -
使用Python从零开始构建千万级参数的大型语言模型(LLM)
徒手pytho撸出Transformer架构并一步步训练处一个LLM大模型原创 2025-03-22 00:15:00 · 1578 阅读 · 9 评论 -
全球首个工业界多模态推理模型Skywork R1V:用一个MLP适配器把一个视觉编码器和一个文本 LLM拼装!
冻结视觉编码器和语言模型,只对 MLP 适配器进行少量数据的微调,让视觉特征与语言模型的隐层空间进一步对齐并校准。原创 2025-03-21 09:19:50 · 1085 阅读 · 1 评论 -
DAPO:一个开源的大规模大型语言模型LLM强化学习系统
DAPO为大规模LLM强化学习提供了开源解决方案,其技术细节(尤其是四大核心策略)对复现SOTA结果具有重要参考价值。算法工程师可基于此框架探索更复杂的RL应用场景,如多模态交互与自主决策。原创 2025-03-20 00:15:00 · 2341 阅读 · 4 评论 -
一种基于大规模语言模型LLM的数据分析洞察生成方法
从数据库中生成有洞察力和可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。我们的方法以多表数据库作为输入,利用LLMs生成简明的基于文本的洞察,反映表中的有趣模式。我们的框架包括一个假设生成器,用于制定与领域相关的问题,一个查询代理,通过生成针对数据库的SQL查询来回答这些问题,以及一个总结模块,用于将洞察进行语言化。通过人类判断和自动化指标的混合模型,对洞察的正确性和主观洞察力进行评估。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更原创 2025-03-19 09:48:03 · 2544 阅读 · 40 评论 -
知识蒸馏:从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)
Deepseek对模型蒸馏技术的创新点在于进一步优化了用于学生模型训练的教师模型输出数据,通过数据增强合成并优化了具有推导过程的思维链语料(如多步骤推理的CoT语料等),再对学生模型进行微调。该技术利用了推理模型的特点,将教师模型在推理任务中学习到的思维方式通过蒸馏传输给学生模型,使学生模型具备相似的推理能力,从“知识迁移”演进为“能力转移”。利用这种蒸馏方式,模仿教师模型的输入到输出的映射关系,小参数的学生模型也能获得非常高的推理能力。知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。原创 2025-03-19 12:30:00 · 1899 阅读 · 7 评论 -
在家用台式机上部署 DeepSeek-R1:低成本高性能的 CPU 推理方案---不到 4 万元
另外,在使用 CPU 推理时,由于 SIMD 指令集对 8-bit 整数的点积运算有原生支持,更重要的是我们发现 Q4 的思维链平均长度比 Q8 长了 45%,也就是说多输出了 45% 的无效 Token,所以虽然 Q4 生成 Token 速度较快,但完成任务甚至会更慢。DeepSeek-R1 是一种高稀疏度的 MoE(Mixture of Experts)模型,其总参数量高达 671B,但实际推理时采用“按需激活”机制:每层包含 256 个专家(Expert),每次仅激活其中的 8 个专家。原创 2025-03-19 00:15:00 · 1434 阅读 · 1 评论 -
DeepSeek模型六大国运级关键创新技术详解
DeepSeek-V3和DeepSeek-R1显著有效性和效率的核心技术:对MOE架构的改进——特别是多头潜在注意力(MLA)和专家混合(MoE);多Token预测;算法、框架和硬件的联合设计;组相对策略优化(GRPO)强化学习算法;以及训练后技术:如纯强化学习和多阶段迭代训练,该训练在监督微调(SFT)和强化学习之间交替进行。KV缓存是一种在变压器的多头注意力(MHA)块中使用的技术,通过存储中间键和值来加速推理,避免了重复计算。实际上,KV缓存成为长上下文大型语言模型(LLMs)的瓶颈,因为它们的高内存原创 2025-03-18 10:36:33 · 1251 阅读 · 0 评论 -
【实测闭坑】LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库
这个模块的核心功能是通过自然语言处理技术从文本中提取名词短语,构建名词图,并计算节点之间的关系强度。它使用了并行处理和缓存机制来提高性能,并提供了边权重标准化的选项。我首先测试了LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库。网上很多教程都是很老的,说利用ollama需要改源码,目前的版本是不需要改任何源码的,直接设置好配置文件即可。主要原因deepseek-V3也不是很友好啊,我没钱prompt 微调啊,晕死。原创 2025-03-17 23:00:22 · 935 阅读 · 15 评论 -
【再读】R1-Onevision通过跨模态形式化为复杂多模态推理任务提供了系统性解决方案
R1-Onevision:跨模态形式化驱动的多模态推理技术突破,R1-Onevision通过跨模态形式化、双阶段训练和教育级基准测试,为多模态推理树立了新标杆。其技术创新不仅提升了模型在复杂任务中的表现,更重要的是为行业提供了一种可解释、可迁移的多模态处理范式。随着形式化方法的不断完善和硬件性能的持续提升,我们有理由期待多模态AI在教育、医疗、工业等领域实现更广泛的落地应用。R1-Onevision:结合形式语言和基于规则的强化学习打造的具有推理能力的多模态开源大型语言模型我们针对其报告进行了一个总结原创 2025-03-17 13:13:42 · 1686 阅读 · 39 评论 -
[撸代码]什么是AI智能体(AI Agents)?教你快速利用LangGraph构建您的第一个Agent
这个构建的示例展示了一种可以应用于许多场景的基本模式。• 医疗研究论文:其中理解研究类型、关键医学术语和核心发现至关重要;• 法律文件:其中识别相关方、关键条款和整体影响是必不可少的;• 财务报告:其中理解报告类型、关键指标和主要结论驱动决策。原创 2025-03-15 14:25:25 · 1430 阅读 · 0 评论 -
【训练细节解读】文本智能混合分块(Mixtures of Text Chunking,MoC)引领RAG进入多粒度感知智能分块阶段
MoC框架通过双重评估指标+混合分块架构分块即语义建模:需联合优化局部相似性与全局结构。轻量化设计:通过规则引导与模型稀疏化,平衡性能与资源消耗。评估先行:直接指标(BC/CS)可加速迭代,减少对下游任务的依赖。论文代码:未开源,但可通过Langchain自定义NodeParser复现核心逻辑(参考附录A.1)。延伸阅读:推荐研究LumberChunker的LLM指令微调策略及SemanticSplitter的阈值优化方法。原创 2025-03-14 14:49:43 · 2017 阅读 · 2 评论
分享