cnblogs.com/qizhou/-优快云博客

原创论文解读：ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models

论文发表于NLP顶会EMNLP 2025(大模型CoT产生过短推理，即使简单数学问题也性能下降。本文研究推理长度如何嵌入推理模型的隐藏表示，以影响准确性：1、发现，推理长度由表示空间中的线性方向决定，从而能沿着该方向引导模型，诱导过短推理。2、引入权重编辑方法ThinkEdit，缓解过短推理：识别小部分(约4%)驱动短推理行为的注意力。编辑这些头部的输出投影权重，删除简短的推理方向。

2025-12-18 11:27:00 799

原创 UniEdit：首个大型开放域大模型知识编辑基准

随着大语言模型(LLM)的广泛应用，它们在医疗、金融、教育等关键行业扮演着愈发重要的角色。然而，一个被忽视的现实是：大模型的知识并不会自动更新，更不总是准确。当模型输出过时信息、错误事实甚至自信满满的“胡说八道”时，如何快速、精准、低成本地纠正它？知识编辑(Model Editing)因此成为近年来的研究热点。大多数基准数据只覆盖极少数知识领域，无法反映真实世界中海量、多样的知识结构。修改一条知识可能会在模型中“牵一发而动全身”。现有基准往往只测“是否记住修改”，却很少考察关联知识的连锁反应。

2025-12-15 16:43:00 765

原创论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR(基于定位和修改的模型编辑方法(针对和等)会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM(包括LLaMA3、GPT2XL和GPT-J)的广泛实验表明，AlphaEdit只需一行额外的投影代码，即可将大多数定位编辑方法的性能平均提高36.4%。

2025-07-10 17:33:00 277

原创论文解读：MASS-EDITING MEMORY IN A TRANSFORMER（MEMIT）

论文发表于人工智能顶会ICLR(在模型编辑方法中，主要局限于更新单个事实。因此，基于ROME，本文开发了MEMIT，在大模型GPT-J(6B)和GPT-NeoX(20B)上实现了数千的批量编辑。阅读本文请同时参考原始论文图表。

2025-07-09 10:26:00 383

原创 Benchmark论文解读：Evaluating the Ripple Effects of Knowledge Editing in Language Models

1、本文在MQUAKE和浙大综述之后，2023/7/24发布arxiv。2、本文所讨论的涟漪效应和浙大综述论文Yao 等, 2023中提到的可移植性 (Portability) 类似，但本文进一步细化为6个类别，综述中仅主要考虑了本文的2效应。

2025-06-11 01:25:00 485

原创论文解读：Knowledge Neurons in Pretrained Transformers

论文发表于自然语言处理顶会ACL-2022(本文引入知识神经元 (Knowledge Neuron) 的概念，初步研究了预训练Transformer中是如何存储事实知识的：1、通过研究预训练的BERT，本文发现预训练语言模型的知识是独立存在于中间神经元激活中的2、可以通过编辑FFN层权重来修改模型对相应知识的记忆，而不用进行微调。阅读本文请同时参考原始论文图表。

2025-06-08 13:46:00 562

原创论文解读：Fast Model Editing at Scale (MEND)

论文发表于人工智能顶会ICLR(为了实现大规模编辑，提出基于梯度分解的模型编辑网络(Model Editor Networks with Gradient Decomposition, MEND)：训练一个小型辅助编辑网络的集合，对通过微调获得的梯度的低阶分解进行变换，使用变换后的梯度更新模型权重。阅读本文请同时参考原始论文图表。

2025-06-07 12:51:00 651

原创综述论文解读：Editing Large Language Models: Problems, Methods, and Opportunities

假设原始模型为，对于某个样本，或称编辑描述符，有，则模型编辑就是使得编辑后的模型有。模型编辑会影响与所编辑样本相关的样本的预测，把这样的样本集合称为编辑域，也就是和与它相似的邻域样本构成的样本集合。一个成功的模型编辑仅影响编辑域内部的模型行为，而不影响编辑域外部的模型行为。如文中式(1)所示，其中表示编辑域之外的样本。

2025-06-07 12:35:00 1095

原创论文解读：Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adapters

论文发表于人工智能顶会NeurIPS(当前的模型编辑器会因多次编辑损害模型性能，提出用于连续编辑的通用检索适配器(General Retrieval Adapters for Continual Editing, GRACE)：使用一个类似字典的结构(适配器)为需要修改的潜在表示构建新的映射，通过更新适配器来实现持续的模型行为编辑。

2025-06-06 12:59:00 845

原创论文解读：Locating and Editing Factual Associations in GPT（ROME）

与KN的对比：1、KN通过集成梯度仅仅定位激活的一个元素，并修改FFN第二层权重对应的一个向量，并且直接通过翻倍或者置零实现，是一种很粗糙的编辑。2、ROME的定位比KN往上一个层级，用因果干预方法定位整个激活向量，然后修改FFN第二层的整个权重来实现编辑。简单来说就是把要编辑的事实对应于该权重的输入输出，加入模型原始训练数据对应于该权重的输入输出列表中，让这个权重重新适应这个列表。本文定位方法更有理论依据，编辑对其它知识的影响也可以从优化角度来量化。

2025-06-05 20:11:00 973

原创 wikidata介绍和查询

Wikidata是一个大型结构化开源知识图，为维基百科等项目提供支持。我们可使用SPARQL(Wikidata官方Tutorial)对其进行查询。SPARQL是一种专为 RDF(Resource Description Framework)数据模型设计的查询语言。RDF通过三元组(主语subject，谓词predicate，宾语object)来组织数据。我们可在WDQS (WikiData ...

2025-03-01 17:50:00 1268

原创 Jensen不等式的可视化

　　Jenson不等式描述对于一个凸函数，期望值与函数作用后的期望值之间的关系。　　对于积分为1的非负函数$p(x)$，即$\displaystyle\int_{-\infty}^{\infty}p(x) dx = 1$　　假设$f(x)$为下凸函数，$g(x)$为任意可测函数，Jenson不等式定义如下：$\displaystyle f\left(\int_{-\infty}^{\in...

2024-12-07 14:53:00 414

原创深度变分信息瓶颈——Deep Variational Information Bottleneck

　　Deep Variational Information Bottleneck (VIB) 变分信息瓶颈论文阅读笔记。本文利用变分推断将信息瓶颈框架适应到深度学习模型中，可视为一种正则化方法。变分信息瓶颈　　假设数据输入输出对为$(X,Y)$，假设判别模型$f_\theta(\cdot)$有关于$X$的中间表示$Z$，本文旨在优化$\theta$以最小化互信息$I(Z;X)$ ，同时最...

2024-11-28 17:22:00 584

原创泛函和变分法

　　本文主要记录研究中用到的与泛函和变分法相关的知识点，推导过程不会严谨考虑所有特殊情况，重在直觉理解。泛函(Functional)　　泛函数(Functional，简称泛函)$J$是以函数为自变量的函数，它将一个定义在某函数空间$Y$中的自变量函数映射到实数域$\mathcal{R}$或复数域$\mathcal{C}$，即$J:Y\rightarrow \mathcal{R}$或$J:Y\...

2024-11-24 20:44:00 1130 1

原创使用 python matplotlib 将 LaTex 公式转为 svg

　　使用 python matplotlib 将 LaTex 公式转为 svg，从而方便插入无法打出所需公式的ppt中。import matplotlib.pyplot as pltdef latex_formula2svg(text, font_size=12, save_fig = 'formula.svg'): plt.rc('text', usetex = True) ...

2024-05-02 12:11:00 793 1

原创 python中的多继承理解

　　在python的多继承中，父类的初始化顺序遵循所谓方法解析顺序(Method Resolution Order，MRO)的机制。python使用C3线性化算法来确定多继承类的MRO：　　1. 目标：创建一个一致的线性继承顺序，同时保持父类的相对顺序和子类优先原则。　　2. 子类优先：子类总是在其父类之前出现。从而子类可以重写父类的方法或属性。　　3. 从左到右的顺序：在多继承类时，指定...

2024-03-22 15:44:00 506

原创 python 递归比较两个文件夹

　　以下import filecmp, osdef compare_folders(folder1, folder2): dcmp = filecmp.dircmp(folder1, folder2) for name in dcmp.left_only: print(f"{folder1}单独存在的文件: {name}") for name in...

2024-03-12 15:12:00 395

原创通过squid将本地作为代理让不可联网的远端服务器联网

　　一种方法https://unix.stackexchange.com/questions/116191/give-server-access-to-internet-via-client-connecting-by-ssh　　以上方法在我这里不太行。尝试了另一种方式，连上了：　　1、远端服务器需要能ping到我们本地ip，windows通过ipconfig查看。　　2、如果本地能pi...

2024-02-06 11:57:00 579

原创 python模块导入规则（相对导入和绝对导入）

　　python模块可以相对导入和绝对导入，但这两者是不能替换使用的。本文主要讨论工作目录下模块之间的导入规则。其中相对导入前面有一个'.'，表示从该脚本所在目录开始索引，而绝对导入前面没有'.'，表示从根目录开始索引。首先明确一点，python认为的根目录为当前运行的脚本所在的目录，而不是vscode打开的工作目录的根目录。则基于python运行时的根目录，python模块导入主要依据以下三个...

2023-10-24 12:48:00 537

原创 pytorch的四个hook函数

　　训练神经网络模型有时需要观察模型内部模块的输入输出，或是期望在不修改原始模块结构的情况下调整中间模块的输出，pytorch可以用hook回调函数来实现这一功能。主要使用四个hook注册函数：register_forward_hook、register_forward_pre_hook、register_full_backward_hook、register_full_backward_pre...

2023-10-07 16:04:00 559

原创奇异值分解，逆，左逆，右逆与伪逆

　　奇异值分解(Singular Value Decomposition, SVD)可以被看做是方阵特征值分解的推广，适用于任意形状的矩阵。　　对于矩阵$A\in \R^{m\times n}$，不失一般性，假设$m\geq n$，奇异值分解期望实现：$A=U\Sigma V^T$　　其中$U,V$分别为$m,n$阶正交矩阵，其中向量称为左/右奇异向量，$\Sigma$为非负主对角线元素降...

2023-09-13 11:18:00 611

原创 Transformers包使用记录

　　Transformers是著名的深度学习预训练模型集成库，包含NLP模型最多，CV等其他领域也有，支持预训练模型的快速使用和魔改，并且模型可以快速在不同的深度学习框架间(Pytorch/Tensorflow/Jax)无缝转移。以下记录基于HuggingFace官网教程：https://github.com/huggingface/transformers/blob/main/README_z...

2023-08-19 13:54:00 685

原创 win10中Docker安装、构建镜像、创建容器、Vscode连接实例

　　Docker方便一键构建项目所需的运行环境：首先构建镜像(Image)。然后镜像实例化成为容器(Container)，构成项目的运行环境。最后Vscode连接容器，方便我们在本地进行开发。下面以一个简单的例子介绍在win10中实现：Docker安装、构建镜像、创建容器、Vscode连接使用。Docker安装　　首先进入官网安装Docker软件。安装好打开可能会出现错误：　　1、让更新W...

2023-08-13 21:39:00 2015

原创 python argparse变量到class变量的转换代码

　　github上的项目总喜欢使用argparse + bash来运行，这对于快速运行一个项目来说可能有好处，但在debug的时候是很难受的。因为我们需要在.sh文件中修改传入参数，并且不能使用jupyter。　　以下是把parser转换成显式class命名空间的一个代码示例：#%%import argparseparser = argparse.ArgumentParser() ...

2023-07-22 17:53:00 217

原创子/次模 (Submodular)、超模 (Supermodular)和模(Modular)函数

定义　　子模 (Submodular)、超模 (Supermodular)和模(Modular)函数是组合优化中用到的集合函数概念。函数定义域为某个有限集$\Omega$的幂集$2^\Omega$，值域通常为$R$，即$f:2^\Omega\to R$。　　子模函数：对于集合$A\subseteq B\subset \Omega$，元素$e\in \Omega-B$，子模函数$f(X)$满足...

2023-07-08 13:57:00 2580

原创期望误差和经验误差的关系——期望误差上界

　　机器学习希望最小化模型的期望(泛化)误差$L$，即模型在整个数据分布上的平均误差。然而我们只能在训练集上最小化经验误差$\hat{L}$，我们期望通过最小化经验误差来最小化泛化误差。但是训练数据和数据真实分布之间是有差异的，又根据奥卡姆剃刀原理，在训练误差相同的情况下，模型复杂度越小，泛化性能越好，因此一些理论提出使用经验误差和模型复杂度来估计模型期望误差的上界。通常表示为以下形式：$\d...

2023-06-20 19:51:00 799

原创核技巧与再生核希尔伯特空间

　　核技巧使用核函数直接计算两个向量映射到高维后的内积，从而避免了高维映射这一步。本文用矩阵的概念介绍核函数$K(x,y)$的充分必要条件：对称(半)正定。　　对称正定看起来像是矩阵的条件。实际上，对于函数$K(x,y):\R^n\times \R^m\rightarrow \R$，将向量$x\in \R^n$的所有实数取值按顺序视为矩阵的行号，将向量$y\in \R^m$的所有实数取值按顺序...

2023-06-19 18:54:00 939

原创平行坐标可视化

　　参考自《数据挖掘概念与技术》。　　对于有$m$个特征，$n$个样本的数据，平行坐标可视化图中，横轴均匀列出$m$个特征，每个特征生成一个纵轴，其中每个样本就表示为穿越这些纵轴的折线。实现代码如下：import numpy as npimport matplotlib.pyplot as pltdef parallel_coordinates(data, line_c='black...

2023-04-15 15:10:00 365

原创 $\Beta$分布推导与可视化

$\Gamma$函数　　$\Gamma$函数(Gamma函数)是阶乘函数在实数和复数域的扩展。对于正整数$n$，阶乘函数表示为$n! = 1 \times 2 \times ... \times n$。然而，这个定义仅适用于正整数。Gamma函数的目的是将阶乘扩展到实数和复数域，从而计算实数和复数的“阶乘”。$\Gamma$函数定义如下：$\displaystyle \Gamma(x) = ...

2023-04-14 15:54:00 395

原创 ADMM——交替方向乘子法

　　ADMM(Alternating Direction Method of Multipliers，交替方向乘子法)是一种优化算法，主要用于解决分布式、大规模和非光滑的凸优化问题。ADMM通过将原始问题分解为多个易于处理的子问题来实现优化。它结合了两种经典优化方法：梯度下降法(gradient descent)和拉格朗日乘子法(Lagrangian multiplier method)。AD...

2023-04-10 22:33:00 2900

原创孤立森林（IForest）代码实现及与PyOD对比

　　孤立森林(Isolation Forest)是经典的异常检测算法(论文网址)。本文用python对其进行实现，以及与常用的异常检测包PyOD进行效果对比。　　简单来说，孤立森林(IForest)中包含若干孤立树(ITree)，每颗树的创建是独立的，与其它树无关。假设数据集包含$n$个样本，每个样本都包含$m$个实数特征。在创建每颗孤立树时，根节点首先包含所有$n$个样本。对于每个节点，随机...

2023-03-22 13:23:00 741

原创点积、内积、外积、叉积、张量积——概念区分

　　找张量积概念的时候，被各种野路子博客引入的各种“积”搞混了，下面仅以Wikipedia为标准记录各种积的概念。点积(Dot product)　　https://en.wikipedia.org/wiki/Dot_product　　在数学中，点积(Dot product)或标量积(scalar product)是一种代数运算，它取两个相等长度的数字序列(通常是坐标向量)，并返回一个数字。...

2023-03-16 18:08:00 7004 1

原创局部异常因子（Local Outlier Factor, LOF）算法详解及实验

　　局部异常因子(Local Outlier Factor, LOF)通过计算样本点的局部相对密度来衡量这个样本点的异常情况，可以算是一类无监督学习算法。下面首先对算法的进行介绍，然后进行实验。LOF算法　　下面介绍LOF算法的每个概念，以样本点集合中的样本点$P$为例。下面的概念名称中都加了一个k-，实际上部分名称原文没有加，但是感觉这样更严谨一些。　　k-邻近距离(k-distance...

2023-03-13 16:53:00 1095

原创图卷积神经网络分类的pytorch实现

　　图神经网络(GNN)目前的主流实现方式就是节点之间的信息汇聚，也就是类似于卷积网络的邻域加权和，比如图卷积网络(GCN)、图注意力网络(GAT)等。下面根据GCN的实现原理使用Pytorch张量，和调用torch_geometric包，分别对Cora数据集进行节点分类实验。　　Cora是关于科学文献之间引用关系的图结构数据集。数据集包含一个图，图中包括2708篇文献(节点)和10556个引...

2023-02-20 21:09:00 618

原创 TIE: A Framework for Embedding-based Incremental Temporal Knowledge Graph Completion 增量时序知识图谱补全论文解读...

　　论文网址：https://dl.acm.org/doi/10.1145/3404835.3462961　　Arxiv：https://arxiv.org/abs/2104.08419　　论文提出一种用增量学习思想做时序知识图谱补全(Temporal Knowledge Graph Completion, TKGC)的学习框架——Time-aware Incremental Embeddi...

2022-12-13 16:45:00 889

原创 Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Comple...

　　小样本知识图补全——关系学习。利用三元组的邻域信息，提升模型的关系表示学习，来实现小样本的链接预测。主要应用的思想和模型包括：GAT、TransH、SLTM、Model-Agnostic Meta-Learning (MAML)。　　论文地址：https://arxiv.org/pdf/2104.13095.pdf引出　　在WIkidata数据集中，有超大约10%的关系只被不超过10个...

2022-12-09 15:02:00 491

原创 Model-Agnostic Meta-Learning (MAML) 理解

　　模型不可知元学习(Model-Agnostic Meta-Learning, MAML)的目标是使模型每次的梯度更新更有效、提升模型的学习效率、泛化能力等，它可以被看做一种对模型进行预训练的方法，适用于小样本学习。　　原文：http://proceedings.mlr.press/v70/finn17a/finn17a.pdf　　其它理解可以看：https://zhuanlan.zhih...

2022-12-08 16:28:00 757 1

原创使用Pytorch进行多卡训练

　　当一块GPU不够用时，我们就需要使用多卡进行并行训练。其中多卡并行可分为数据并行和模型并行。具体区别如下图所示：　　由于模型并行比较少用，这里只对数据并行进行记录。对于pytorch，有两种方式可以进行数据并行：数据并行(DataParallel, DP)和分布式数据并行(DistributedDataParallel, DDP)。　　在多卡训练的实现上，DP与DDP的思路是相似的：...

2022-10-12 14:13:00 5292

原创自然语言处理NLP程序包（NLTK/spaCy）使用总结

　　NLTK和SpaCy是NLP的Python应用，提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性，便于对NLP研究的组成形式有一个基本的了解。NLTK　　Natural Language Toolkit (NLTK) 由宾夕法尼亚大学开发，提供了超过50种语料库，以及一些常用的文本处理函数，例如分词(Tokenization)、词干(Stemming)、词性标记(Ta...

2022-09-30 16:20:00 2603

原创 STATA数据统计软件学习记录

　　STATA是一个数据统计软件，正如它的名字一样，STATA=statistic+data。STATA软件的功能和matlab类似，也可以用代码实现数据的统计与可视化。但几乎只能进行整行整列的数据处理，且每次只能加载处理一个数据矩阵，灵活性和全面性比不过matlab。那我为什么要用STATA呢？这是因为我选修了这门课，水一下学分。当然，相比matlab，它在数据处理方面，也有一些方便之处。下面...

2022-09-21 19:49:00 4241

3DsMax 2013 FBX插件，配合《unity5.0从入门到精通》

VC++6.0字符串小游戏扫雷

WinDLX，CPU流水线模拟软件

调音软件UTAU0.4.18、melodyne、Celemony Melodyne Studio 3.2.zip

Visual Assist VC助手 VS2017 VS2015 VS2013以下版本都能使用

大二Windows程序设计游戏C++

抓包wireshark、fiddler、wpe.zip

空空如也