自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(223)
  • 收藏
  • 关注

原创 摘要和查询改写的评测

考虑到上下文历史中,agent回复内容较多,需要对该部分进行摘要。所以摘要评估应该是业务导向的。Agent 上下文压缩摘要的评估应同时关注:(1)对 Agent 行为的业务价值(端到端层面)(2)摘要内容本身的质量(微观层面)

2025-11-19 22:39:56 547

原创 推荐系统初探

*推荐系统(Recommendation System)**是一类利用数据和算法为用户筛选、排序并推送个性化信息或商品的系统。它的目标是帮助用户在海量信息中快速找到最符合兴趣或需求的内容。

2025-10-15 00:01:16 669

原创 langsmith进行agent评估的方法

历史文章:LLM本文介绍agent的评估。当前agent非常火,最主流的评估框架是langsmith。

2025-10-13 20:47:04 697

原创 WebWeaver论文阅读笔记

阿里这次发布了11篇ds相关的agent论文,其中有一篇resum是对react的改进,即对长上下文进行阶段性总结,有效缓解了长上下文。WebWeaver则关注如何撰写有深刻洞见的研究报告,提出了动态规划和分层写作的方式。类似人类写作,首先有一个简短、不完整的提纲,通过搜集相关信息,逐步完善提纲。然后根据提纲,逐部分撰写报告。但是缺少了在写作过程中调整提纲的过程,这种智能模拟的难度是指数级的。

2025-09-25 10:29:17 436

原创 WebDancer论文阅读

提出了一个端到端的agentic信息检索智能体的范式,能够适配大部分开源模型。

2025-09-18 23:57:14 556

原创 Gated Attention 论文阅读

​​:在SDPA输出后添加门控,相当于在低秩线性映射中引入了非线性,增加了模型的表达能力。:SDPA输出后的门控为注意力输出引入了输入依赖的稀疏性,这有助于消除"注意力汇聚"(attention sink)现象。论文尝试了在attention的不同位置加入门控,发现在注意力输出后加入门控是最有效的。

2025-09-17 23:27:14 511

原创 EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS论文阅读

StreamingLLM的来源和超大激活值相关。

2025-09-17 23:09:01 322

原创 大模型的领域知识注入的四种路径

在大模型的后训练中,存在如下挑战:如何有效地将领域知识注入到LLMs中,保持模型的灵活性、可扩展性和效率;如何在注入新知识时避免遗忘已有知识;如何在不同领域之间迁移知识。实际上日常使用还是优先提示词,然后RAG。

2025-09-17 22:32:07 272

原创 大模型的超大激活值研究

大规模激活”是模型为实现“隐藏状态零更新”这一高效策略,被迫在数值上制造极端异常值的结果。这种策略虽然有效,却牺牲了数值稳定性,暴露了Transformer架构在优化目标与数值实现之间的深层矛盾。

2025-09-17 22:25:26 751

原创 LLM的MTP论文阅读

让语言模型一次性预测多个后续标记(token),可显著提升样本效率。具体而言,在训练语料的每个位置,要求模型使用 n 个独立的输出头(共享同一个模型主干)来同时预测接下来的 n 个标记。2.多个预测头:在 “主干” 后面接多个独立的 “预测头”(比如要一次预测 4 个词,就配 4 个),每个 “头” 专门负责预测未来第 1、2、3、4 个词,彼此并行工作。1.共享骨架:模型有一个共用的 “主干”(类似通用的文字理解模块),负责处理输入的文字,提炼出核心信息。为了一次预测未来多个token,公式演变为。

2025-09-15 23:56:42 416

原创 kimi-k2论文阅读笔记

kimi-k2是一个结构类似deepseekv3的大模型,特点在于极强的工具调用能力,适合做agent。下面从技术的角度提取其中的关键方法。

2025-09-15 23:14:51 705

原创 从qwen3-next学习大模型前沿架构

依然是transformer的decoder形式。最特别的是,有75%的层采用Gated DeltaNet,其余仍然是标注注意力。所以下面是3,上面是1.下面从下到上看看有什么变化。

2025-09-14 23:29:19 1243

原创 Python将md转html,转pdf

pip install gripgrip input.md --export output.html/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome –headless --disable-gpu --print-to-pdf=output.pdf output.html

2025-09-07 16:01:35 290

原创 InternVL3.5论文解读

为了结合二者的优势,首先使用一个离线RL算法MPO对模型进行微调,作为一个高效的热身阶段以达到满意的结果,这可以为后续阶段保证高质量的回滚。当r_i ≥ τ(压缩影响显著)时为 1,对应压缩率1/4。多模态数据:基于InternVL3的训练语料,类型包括图像字幕、一般问答、数学、科学学科、图表、OCR、知识链接、文档理解、多轮对话和医疗数据等多个领域。路由目标构建:先计算模型在未压缩视觉标记(每块 256 个标记)和压缩视觉标记(每块 64 个标记)条件下输出的 KL 散度,以此衡量压缩对输出的影响。

2025-08-27 00:06:12 1293

原创 langgraph快速搭建agent后端和react前端

将.env.example文件修改为.env,这样就是环境变量文件了,重要的key都放在这里,和代码文件隔离。这里是在当前文件夹下新建文件夹example,里面是下载的langgraph模版项目文件。填写LANGSMITH_API_KEY,需要去langsmith注册账号,获取key。前置条件,在本地或者云端已经部署了langgraph的服务。因为前端的显示是消息,所以要修改示例代码,我的简易代码。是src.agent.graph.py。如果没有pnpm,就安装。这样本地就有两个项目了。

2025-08-22 00:10:37 585

原创 206.反转链表

思路:头结点变成尾节点,因此要把头节点的指针指向空。假设一个虚拟节点,其指向头节点。所以就变成了三个节点的关系,首先要保留第三个节点,然后将第二个节点的指针指向第一个,然后将第一个节点和第二个节点往后移动一个单位。这样循环往复,就将整个链表反转完成了。但是要注意,最后的头节点是pre,而不是cur,不然就超出范围了。

2025-08-21 22:10:11 175

原创 Causal-Copilot: An Autonomous Causal Analysis Agent 论文解读

下面仍然按 5 大模块 + 报告模块逐块总结,并给出「如果后端是 LangGraph,这一坨东西到底对应哪段代码 / 哪个机制」。你熟悉 LangGraph,就直接看「→ LangGraph 落地方式」即可。1 用户交互模块一句话总结把自然语言转成结构化任务,并在 pipeline 关键节点让用户“插话”改需求。→ LangGraph 落地方式• 节点:user_input_node(首次) + human_feedback_node(循环)。

2025-08-20 23:39:20 1220

原创 189.轮转数组

先观察,如果k等于n,相等于啥都没做。所以先对k=k%n,得到真实的k。然后发现其实是索引-k到最后移动到前面,其余部分移动到后面,所以就有。→ 改变了 nums 这个变量的指向,原数组没动。nums[:] = …首先全部反转,然后根据k值,分别反转前后部分。即:整体翻转等于子数组分别翻转后顺序交换。第一次整体翻转,把“相对顺序颠倒”第二次翻转前半段,恢复 A 的顺序。第三次翻转后半段,恢复 B 的顺序。这里的nums必须用切片形式,这是野路子,正规做法是翻转法。这里的 ^R 表示翻转。

2025-08-20 23:08:16 266

原创 langchain-ds的报告生成提示词

若需比较两件事物: 1/ 引言 2/ 事物 A 概览 3/ 事物 B 概览 4/ A 与 B 的对比 5/ 结论。若需总结或概述某一主题: 1/ 主题概述 2/ 概念 1 3/ 概念 2 4/ 概念 3 5/ 结论。但是这样依赖LLM,很可能引用虚构的文献,还是需要和重排模型等配合,自定义一个流程更稳妥。注意:简报与研究可能为英文,但最终答案必须翻译成与对话记录相同的语言。谨记:“章节”是高度灵活的概念,可按需调整,只要对读者逻辑清晰即可。针对参考文献,邀请文末必须列出。

2025-08-20 22:18:13 767

原创 15.三数之和

4.计算三数之和,如果等于0,那就加入结果;并且j和k都移动一位,然后判断是否和下一个相同,相同就跳过。3.循环开始,判断i-1是否和前面的i相同,如果相同,就跳过。i-1是为了避免索引溢出。外层for循环O(N),内存while循环O(N)5.如果小于0,说明j太小,右移一位。6.如果大于0,说明k太大,左移一位。1.对元素从小达到排序。2.固定i,开始循环。

2025-08-18 22:39:45 210

原创 大模型应用相关问题记录

3.GRPO是对每个回答的奖励除以回答中token的数量,然后再不同回答间做一个平均(按照文章的说法是按照样本级别计算目标函数值),而DAPO是对一个问题的所有回答的所有token的奖励求和,再除以总的token做一个平均,另外DAPO还加了一个条件,就是正确答案的数量大于0且小于G,如果G=32,也就是这32个回答不能没有正确答案,也不能全都是正确答案。2.另外clip的参数 的low和high是不一样的,也就是对重要性采样(新旧策略生成每个回答的比例)的限制不一样了。其实就是DAPO的改进。

2025-04-23 21:23:36 1329

原创 MLA(多头潜在注意力)原理概述

注意力机制的发展经历了MHA,MQA,GQA,MLA。时间复杂度:MHA为O(n²),MQA、GQA、MLA通过优化降低至O(n)

2025-04-19 18:28:30 1279

原创 PG,TRPO,PPO,GRPO,DPO原理梳理

Policy Model(Actor Model):根据输入文本,预测下一个token的概率分布,输出下一个token也即Policy模型的“动作”。该模型需要训练,是我们最终得到的模型,并由上一步的SFT初始化而来。Value Model(Critic Model):用于预估当前模型回复的每一个token的收益。接着,还会进一步计算累积收益,累加每一个token的收益时不仅局限于当前token的质量,还需要衡量当前token对后续tokens生成的影响。

2025-04-19 17:38:06 1826

原创 Deepresearch的MCP实践

deepresearch是目前最流行的大模型应用范式,将agent应用于调研报告上,实现了用户只需要输入自己的问题,大模型自动搜索信息完成报告的过程。区别于rag的单次检索过程和定制化的流程,deepresearch建立在deepsearch的的基础上,由LLM自主控制整个流程。deepsearch的核心在于搜索、阅读、推理的循环。接收到查询时,进行搜索和阅读,然后根据当前搜索结果,决定是否终止或是扩展查询继续搜索。参考:本项目,就是基于MCP工具的deepresearch实现。

2025-04-06 18:47:23 679

原创 conda导出环境依赖命令

【代码】conda导出环境依赖命令。

2025-03-04 22:42:05 462

原创 DeepSearchAcademic-基于舆情中文核心论文的deepsearch的个人项目

2024年12月份,RAG的范式基本差不多了,纯文本的RAG已经非常成熟了,多模态RAG也在迅速兴起。博主的硕士毕业论文写的就是多模态舆情分析,但是苦于自己创造的新定义、理论找不到支撑文献,于是做了一个多模态的RAG系统,旨在搜集20年以来的中文舆情分析期刊论文,试图结合最新的信息检索技术,给论文找到合适的方法和理论。这样的方法对于很多大学生都是适用的。在博主看来,RAG是信息检索,LLM同样也是信息检索,只不过前者的知识在数据库,后者的知识在FFN上的区别。

2025-03-04 21:02:25 525

原创 olmOCR:使用VLM解析PDF

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。#一、 olmOCR是使用VLM进行的端到端的PDF文档解析。

2025-02-27 15:50:54 1642

原创 deepseek-R1架构和训练流程总结

deepseek-R1是对open ai o1的开源复现路径之一,非常火热,实际使用也是碾压o1。这带来了新的用户使用范式,以往用户都期望大模型能够快速返回结果,超过十几秒就无法忍受。但R1的到来使得普通用户都非常乐意看到大模型等待几分钟再回答的情况。记得o1刚出来时,都再猜是怎么实现的,我接触到的观点是将COT数据放在了模型内部的强化学习上,使用强化学习迫使模型内部产生思考。本文将介绍训练和测试的scaling laws,奖励学习的两种reward方式,deepseek-r1的实现流程等。

2025-02-27 00:28:48 784

原创 mlp的两种实现:FFN和GLU

【代码】mlp的两种实现:FFN和GLU。

2025-02-26 00:39:29 359

原创 MOE结构解读和deepseek的MoE结构

MoE将dense的FFN层修改为了一个门控网络和多个小型FFN,在处理输入时,由门控网络选择激活最相关的top_k个FFN,将输出进行加权求和,得到MoE层的输出。目的是通过多个专家网络来提高模型的表达能力和性能。

2025-02-26 00:16:36 1277

原创 LLM/VLM进行票据识别工作

​票据识别任务的需求是给定不同类型的票据图像,提取出指定的字段值,以json格式给出结构化信息。提取结果示例:来自智能结构化 - 文字识别OCR目前的范式包括OCR,OCR+LLM, OCR+VLM,VLM四种方法。

2025-02-25 16:13:04 1501

原创 BERT的改进:ModernBERT

BERT还在更新!因为上下文窗口限制,BERT只能处理512个token。为了更长,可以抽取,或者修改但现在,ModernBERT来了,使用了最新的技术架构,支持8192的context length。

2024-12-22 19:00:27 891

原创 InternLM-XComposer2.5-OmniLive解读:语音和视频实时交互的新方向

该系统为实时处理多模态信息提供了新的思路,至少可行性没问题。但是看文章显示延迟是个问题,因为里面涉及到很多模块交互。未来的改进点:1.编码器优化:选择垂直领域的编码器,提升视频和音频理解能力。2.多模态的长期记忆模块:这方面是核心。可以参考mem0将视频和音频记忆存储到多模态知识图谱中,还有针对每个用户的键值数据库,向量数据库,图形数据库等。这样才能更为个性化,增强可用性。

2024-12-22 16:41:25 1021

原创 RAG给回复加上引用

我们希望RAG的幻觉减少,最有力的证明就是关键句子参考的某篇文献或报告。然而,大模型的随机性导致提供的引文可能都不存在,所以直接让大模型输出的方式目前是不可靠的。下面总结下添加引文的常见方法。:有效果图片展示。

2024-12-06 20:09:38 2081

原创 hugo+github个人博客网站建立教程

选择了好几个,总是有废弃的属性,找半天也没找到在哪。换了个最新的主题,没这些烦心事了。在网站文件夹下,新建一个md,就会在content/post文件夹下新增一个md。按钮,粘贴你复制的公钥,填写标题(例如 “My Macbook”),点击。首先在桌面新建一个文件夹,用于存储所有网站的内容,例如Website。如果你没有 SSH 密钥,可以生成一个新的密钥。如果你希望保存到默认位置,可以按 Enter 键。提交修改推送到远程库,这里是第一次提交,直接强制。建立一个名为blog的网站,建立同名本地文件夹。

2024-12-05 15:37:50 1384

原创 LLM:一个小型搜索agent的实现

agent就是给大模型加上外部系统,能跟环境交互。所以叫智能体,能够根据外部系统的输入修改自身状态。3.大模型参考提示词给出符合模版的回复,比如action是什么,目标函数所需的参数等。本文实现了基于deepspeek大模型的谷歌搜索agent。5.上述结果就是观察到的结果,作为助手消息添加到消息记录中。4.从回复中解析出这些,定位到特定工具函数,执行得到结果。1.前置准备:谷歌搜索工具函数,系统提示词模版。6.再次调用大模型,得到生成后的结果。2.用户输入query。

2024-12-03 22:54:58 1307

原创 LLM:模拟o1的思维链实现

4.将回复追加到消息列表,继续发送,拿到第二次思考结果。如此反复,直到生成最终答案,或者达到迭代次数。2.组装消息列表,包括系统提示词(关键),用户消息,助手消息(模拟回应的格式,引导后续正常生成)3.将消息列表发送给大模型,拿到回复,这时是第一次思考,大概率是解析写纲要的阶段,可以参考上述项目的提示词,是精心迭代后的,大部分情况都能适应。再看原生模型的回答,没有从数学逻辑上来计算,得到了错误的答案。5.让大模型根据上述思维链结果总结,生成最终的回复。OK,可以看到,思维链推导后是正确的。

2024-12-03 22:19:30 608

原创 多模态RAG的几种思路-langchain

流程二:使用VLM对图片做文本摘要描述。得到的文本chunk送给大模型。流程一:多模态嵌入,对文本和图片分布做嵌入。使用query嵌入进行向量检索,使用得到的图片和文本送给VLM。流程三:使用VLM对图片做文本摘要描述。根据检索到的图像摘要的文本,得到原始图片。数据对象:表格,文本,图片。表格和文本视作一个模态,下述把二者统称为文本。流程:分别做摘要,做摘要嵌入,检索摘要,那对应的原文或表格送给大模型。数据对象:表格和文本。

2024-11-28 13:45:00 765

原创 RAG:RAPTOR文档树形解析方法

RAPTOR是一种通过递归嵌入、聚类和总结文本块来构建树形结构的新方法,从而在不同层次上对长文档进行信息检索。

2024-11-14 14:59:23 752 1

原创 大模型应用于推荐系统:《Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond》

假设我们有一个电子商务网站,需要为用户推荐商品。传统的推荐系统可能会依赖于用户的历史购买记录和商品的属性(如价格、类别等)。然而,这些信息可能不足以捕捉到用户的深层次偏好。假设我们正在开发一个新闻推荐应用,目标是向用户推荐他们可能感兴趣的新闻文章。

2024-11-14 12:29:22 618

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除