自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 RobustMerge—— 无训练的 PEFT 模型融合方法,从低秩分解视角揭示方向鲁棒性对 PEFT 融合的作用

针对现有模型融合方法难以适配参数高效调优(PEFT,如 LoRA)模型、易出现任务干扰、泛化能力弱的问题,提出无训练的融合方法 RobustMerge,智能聚合多个基于同一主干的 PEFT 参数,在不增加额外模型层、不依赖训练数据和算力的前提下,让融合模型既保留各任务性能,又能泛化至未见过的任务,尤其适配多模态大模型的多任务融合需求。它和 “传统单独的模型融合” 的核心区别 ——。

2025-12-17 15:39:36 522

原创 球形线性插值(SLERP)应用于 LLM 模型融合

最近看到了关于大模型参数融合的论文,一开始不太明白这类工作的应用意义,看完这篇感觉明白了一些这种方法的价值。这篇论文探索了大型语言模型(LLMs)领域适配的微调策略与模型融合方法,证实球形线性插值(SLERP)融合结合持续预训练(CPT)、监督微调(SFT)、偏好优化(ORPO/DPO)能显著提升专业领域性能,且模型规模(7B/8B 参数)是涌现新能力的关键,1.7B 小模型无此协同效果。

2025-12-16 17:37:28 734

原创 大模型的参数融合

做模型融合是为了突破单一模型局限,通过参数非线性协同解锁新能力;当前模型融合主要用于领域适配、性能提升和跨任务拓展。

2025-12-16 16:18:40 186

原创 Aligning machine and human visual representations across abstraction levels 论文整理

核心损失:KL 散度:衡量学生模型与教师模型对 “三元组相似性分布” 的差异,目标是最小化该差异,即让学生模型的相似性判断逼近教师模型(代理人类)。加入 L2 正则化(||θ† - θ*||²,θ†为微调后参数,θ* 为预训练参数),确保学生模型保留原有预训练的局部特征(如纹理、颜色信息),仅优化全局语义层级。AligNet 属于学生 - 教师网络的变体。

2025-12-04 15:43:26 583

原创 Efficient Frequency-Domain Image Deraining with Contrastive Regularization 论文整理

RCP 是从图像RGB 三通道像素值差异中提取的先验信息,其本质是利用 “退化区域(如雨纹)与背景区域在通道像素波动上的显著差异”,构建一种 “自监督式” 的特征标记 —— 背景区域的 RGB 通道像素值相对平稳(差异小),而退化区域(如雨纹会导致局部像素值剧烈变化)的通道差异显著,这一特性可直接用于定位退化区域、保留背景结构。RCP 先验图是将上述计算的RCP 值转化为灰度图像,作为网络的 “结构辅助输入”,帮助模型聚焦退化区域、保留背景细节。

2025-11-13 16:58:06 904

原创 DiT VAE 和 DiT RAE 对比

(扩散 Transformer)的核心工作方式是在:首先通过自动编码器将高分辨率原始像素图像(如 256×256 RGB 图像)压缩为低维的 latent 向量(如将图像映射为 32×32×4 的 latent);随后,DiT 不直接接触像素数据,仅在这个低维 latent 空间中工作 —— 训练时学习 “向 latent 注入噪声、预测并去除噪声” 的规律,推理时从随机噪声出发,通过迭代去噪声生成符合真实数据分布的新 latent;

2025-11-10 14:48:54 1004

原创 METEOR、ROUGE-L、CIDEr 、​​ SPICE指标

平等对待所有词​​。在图像描述中,“太阳镜”比“的”信息量更大、更重要,应该获得更高权重。即使换光所有同义词,只要描述的对象、属性和关系对了,就能得满分。用词不同但语义相同,BLEU分数会低,但这显然是不合理的。​: 这是METEOR的核心。​,而不是泛泛而谈的“安全牌”。​: 直接比对这些语义元组,计算元组级的F1分数​​​​。​: 将句子解析为表示对象、属性和关系的元组。​,即按顺序出现(但可间隔)的最长单词串。​:跳出词汇层面,直接分析​​语义​​。完全停留在词汇层面,无视语义​​。

2025-09-22 14:36:22 346

原创 BLEU (Bilingual Evaluation Understudy)​和n-gram

低阶n-gram(如1-gram)​​ 确保生成文本​​说了正确的事​​(内容相关)。​​高阶n-gram(如4-gram)​​ 确保生成文本​​用正确的方式说事​​(表达流畅、自然)。​​短句惩罚​​ 确保生成文本​​说了足够多的事​​(内容完整)。缺点:语义盲区​​: 它只进行字面匹配。和的n-gram精度会是0,尽管它们语义高度相似。​​缺乏权重​​: 所有词的重要性被平等对待。"the"和"dog"的贡献一样。

2025-09-22 11:22:20 1150

原创 Qwen2TokenizerFast

最近在学习代码的时候用到了tokenizer为Qwen2TokenizerFast的情况,简单整理一下。​​,它的主要工作是​​,而不是直接将文本转换成向量。​​: 特指由 Hugging Face 的tokenizers库(用 Rust 编写)提供的高性能分词器实现。它比用纯 Python 实现的“慢”版本分词器速度要快得多。所以,​​ 是一个专门为 Qwen2 系列模型设计的、高性能的文本分词器。

2025-09-08 14:27:51 880

原创 Mol-LLaMA: Towards General Understanding ofMolecules in Large Molecular Language Model 论文阅读

构建含三种关键数据类型(详细结构描述、结构 - 特征关系解释、综合对话)的284k 条指令数据集(Mol-LLaMA-Instruct):可作为通用分子分析助手,加速药物发现、减少湿实验成本;为蛋白质、RNA 等其他科学模态提供模型设计参考。分子理解是药物发现、生物化学研究的核心,但分子结构复杂,需跨学科知识,现有工具难以满足通用分析需求。:284k 条有效指令样本,源于 PubChem 324k 数据集训练集。数据集的训练集,随机选取。分子为基础,最终筛选出。(接地特征),并通过。

2025-09-03 15:11:48 699

原创 Byte Pair Encoding (BPE)

BPE(及其变种如 WordPiece, SentencePiece)是现代 NLP 模型(如 BERT, GPT)进行。用这个新符号替换文本中所有出现的该符号对,然后回到步骤 2,继续统计和合并。当合并次数达到预设值(即词表大小达到目标)或没有高频对可合并时停止。计算所有相邻“符号对”(初始是字符对)在文本中出现的频率。将文本拆分成最小单位(如字符或字节),形成初始词表。,是理解这些模型如何处理文本的基础。),将它们合并成一个新的符号((等,取决于合并次数)。相邻出现 2 次(在。相邻出现 2 次(在。

2025-07-23 10:32:07 627

原创 理解持久同调

当尺度增大到某个值时,一个新的拓扑特征(如一个新的连通分量分裂出来,或一个新的孔洞形成)首次出现。持久性大的特征被认为更可能是数据中固有的、有意义的信号;当尺度继续增大到某个值时,这个特征消失(如一个连通分量与另一个合并,或一个孔洞被填充)。(特征消失时的尺度)。随着尺度(如球的半径)由小变大,构建一系列嵌套的拓扑空间(每个条形代表一个拓扑特征,左端是出生尺度,右端是死亡尺度。(如点云、网络)在不同“尺度”(如连接距离)下的。一个特征从出生到死亡的尺度区间长度称为它的。(特征首次出现时的尺度)和。

2025-07-23 10:15:19 437

原创 动态卷积神经网络

CondConv在每个卷积层设置多套卷积核,在推断时对输入施加SE模块(只有一层全连接,不是标准的SE),根据卷积层的输入决定各套卷积核的权重,最终加权求和得到一个为该输入量身定制的一套卷积核,最后执行一次卷积即可。然后三个模块相加,进行信息融合,得到最终模块A,模块A相比于最初的X经过了信息的提炼,融合了多个感受野的信息。将Excitation的输出的权重(Scale标准化)看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。

2025-04-11 11:14:26 1417

原创 Turbofan Engine Degradation Simulation-NASA涡轮风扇数据集概述

每个时间序列都来自不同的引擎,即,数据可以被视为来自相同类型的引擎队列。每台发动机开始时都有不同程度的初始磨损和制造变化,这是用户不知道的。引擎在每个时间序列开始时正常运行,并在序列中的某个时间点出现故障。在训练集中,故障的幅度越来越大,直到系统故障。在测试集中,时间序列在系统故障之前的某个时间结束。目标是预测测试集中发生故障前的剩余运行周期数,即发动机在最后一个周期后将继续运行的工作周期数。每一行都是在单个操作周期中获取的数据的快照,每列都是一个不同的变量。2 (HPC降解,风扇降解)

2025-04-10 16:23:00 637

原创 SAE 稀疏自动编码器

有关L1损失和L2损失的部分可参考SAE(稀疏自动编码器)是一种能从复杂数据中提取 “关键特征” 的工具。:将 LM 的高维隐藏状态映射到稀疏特征空间,生成稀疏激活向量。把复杂数据压缩成 “稀疏特征”。):用稀疏特征还原原始数据,用 “最少特征” 还原数据(核心原理)。:让解码器用编码器输出的稀疏特征,尽可能还原原始输入。

2025-04-10 16:00:03 776

原创 时序ETT油温数据

电力变压器油温数据,由国家电网提供,该数据集是来自中国同一个省的两个不同县的变压器数据,时间跨度为2年,原始数据每分钟记录一次(用 m 标记),每个数据集包含2年 * 365天 * 24小时 * 60分钟 = 1,051,200数据点。其中第一行(8列)是数据头,包括了 “HUFL”, “HULL”, “MUFL”, “MULL”, “LUFL”, “LULL” 和 “OT”,每一列的详细意义展示在表中。记录日期、高使用负载、高无用负载、中等使用负载、中等无用负载、低使用负载荷、低无用负载、油温。

2025-04-01 09:24:20 1196

原创 Diffusion Model

【李宏毅2023】扩散模型:和其他生成模型一样,实现从噪声(采样自简单的分布)生成目标数据样本。

2025-03-27 11:01:08 723

原创 CRPS和NLL

CRPS和NLL虽然都用于概率模型评估,但本质不同衡量预测的「整个概率分布」和「真实值」的差距。通过积分全局比较CDF,更适合评估连续分布的整体性能;​衡量预测分布中「真实值出现的概率」有多高。通过局部密度计算似然,更适合参数优化和密度估计任务。

2025-03-26 17:08:45 608

原创 知识图谱嵌入

TransE存在问题:若三元组(张三,仇人,李四)和(张三,仇人,王五)均在知识图谱中存在,即均为正样本,他们头实体向量和关系向量均相同,但尾实体不同。把h和t投影到关系的向量空间,再做头实体向量、关系向量、尾实体向量的关系计算。知识图谱嵌入技术就是在构建好的知识图谱的基础上学习实体和关系的表示向量,之后再通过下游方法使用这些向量来实现功能。他们主要是通过匹配实体的潜在语义和向量空间表示中包含的关系来度量事实的可信度。TransR:利用投影矩阵Mr,把h和t投影到关系的向量空间,再做计算。

2025-03-20 16:16:46 222

原创 LoRA微调

快速适应与迁移学习:由于只需要训练少量额外参数,LoRA 可以实现更快的任务适应过程,并且有助于防止过度拟合,特别是在小样本或特定领域数据集上。此外,这些低秩矩阵可以在不同任务之间共享或迁移,进一步增强了模型的泛化能力。的方式,在保持原有模型性能的同时显著减少了参数量和计算成本。这种方法最初由 Zaken 等人在 2021 年提出,并在随后的研究中得到了广泛的应用和发展。低秩更新:传统的微调方法通常会更新整个模型的所有参数,这不仅消耗大量的计算资源,而且容易导致过拟合问题。LoRA 的核心思想。

2025-03-20 16:11:17 337

原创 DETR (Detection Transformer)

实例如下图,输入一张图3*800*1066,卷积后为2048-25*34,3-2048特征通道,800-25,1066-34,再卷积降低维度256*25*34。特征和位置编码相加,拉直为850*256(25*34=850)输入encoder,q=k=v=850*256,q*kT*v=850*256,因此encoder输出为850*256,包含全局信息。Object query是可学习的,100*256,q=100*256,k=v=850*256,q*kT*v=100*256,因此输出100*256的特征。

2025-03-20 16:05:33 428

原创 PointNet++

Pointnet侧重于提取全局向量,即使在分割问题上也只是简单地将全局特征变量拼接在逐点的64维特征上,显然缺乏对局部特征的提取。,即设置不同的Ball query半径将提取到的特征进行拼接,或者拼接不同set abstraction层得到的特征,作者把这种具有密度适应性的结构就叫做Pointnet++.PointNet++可以提取到不同尺度的局部特征,这样的特性对于点云来说尤为重要,因为。(分割网络)两种,输入和输出分别与PointNet中的两个网络一致。PointNet++按照任务也分为。

2025-03-20 15:58:58 566

原创 PointNet

PointNet网络根据点云数据特征提出。直接max操作会造成信息损失,先MLP增加特征维度,之后maxpooling可以增加原始信息的保留。点云特征:置换不变性(maxpooling)、旋转不变性(T-Net)第一个直接以点云为输入的网络结构。缺点:无法提取点与点之间的关联信息。

2025-03-20 15:49:43 223

原创 Q-Former

阶段二:vision-to-language生成式学习(generative learning),将Q-Former的输出连接到冻结的大语言模型,迫使Q-Former学习到的视觉表示能够为大语言模型所解释。阶段一:vision-language表示学习(representation learning),迫使Q-Former学习和文本最相关的视觉表示。encoder-decoder:将Q-former学到token加上前缀词(如图中的a cat)一起输入,得到后续的文本输出。

2025-03-20 15:47:15 815

原创 UMAP 流形投影方法

UMAP(Uniform Manifold Approximation and Projection)流形投影方法是一种用于数据可视化和降维的技术。与一些其他的降维方法相比,UMAP 能够较好地同时保留数据的局部和全局结构。

2025-03-20 15:40:26 693

原创 自相关函数(ACF)

图形表示:ACF 图形展示了不同滞后期 k 对应的自相关系数值,帮助直观地识别是否存在显著的自相关模式以及这些模式的具体形式(如周期性、衰减等)。例如,如果 ACF 图呈现出明显的正弦波模式,通常意味着残差中存在较强的季节性或相关性模式,违反了残差独立性假设。计算残差的自相关函数(ACF)并绘制图表。自相关函数可以显示残差在不同滞后阶数下的相关性情况。:ACF 描述了时间序列或残差序列与其自身滞后版本之间的线性相关程度。通过观察残差 ACF 图,可以直观地看到残差之间的相关性模式。

2025-03-20 15:39:24 748

原创 消息传递神经网络(MPNN)

1、图中黄色方框部分展示的是一次邻接节点信息传递到中心节点的过程:B节点的邻接节点(A,C)的信息经过变换后聚合到B节点,接着B节点信息与邻接节点聚合信息一起经过变换得到B节点的新的节点信息。实际上,同样的过程在所有节点上都进行了一遍,所有的节点的信息都更新了一遍。如图中蓝色方框部分所示,A节点的邻接节点(B,C,D)的已经发生过一次更新的节点信息,经过变换、聚合、再变换产生了A节点第二次更新的节点信息。消息传递图神经网络遵循上述的“聚合邻接节点信息的过程”,来生成节点表征。

2025-03-20 15:32:30 237

原创 Durbin-Watson 检验

在时间序列分析中,确保残差是独立且不相关的非常重要,因为如果残差显示出某种模式或趋势,则说明模型未能充分捕捉到数据中的信息。因此,使用 Durbin-Watson 统计量可以帮助评估模型拟合的好坏,并指导我们改进模型结构或选择更合适的建模方法。Durbin-Watson 统计量是一种用于检测回归分析中残差序列自相关性的统计量,特别适用于时间序列数据。值大于 2:意味着存在负向的一阶自相关性,即相邻误差倾向于异号。值接近 2:表示残差间不存在显著的一阶自相关性,这是理想情况。杜宾-瓦特森统计量,DW检验。

2025-03-20 15:29:24 1299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除