- 博客(634)
- 资源 (1)
- 收藏
- 关注
原创 目标检测和大模型领域中下采样和上采样是什么意思
在目标检测和大模型(如视觉大模型、多模态大模型等)领域中,下采样(downsampling) 和 上采样(upsampling) 是图像/特征图尺度变换的关键操作,主要用于多尺度特征提取、空间信息恢复等任务。
2025-11-21 17:39:48
345
原创 RoPE 旋转位置编码
给每个位置的向量乘一个旋转矩阵(本质是给向量 “旋转” 对应角度),但最终计算注意力时,两个位置的向量内积只和 “相对位置差” 有关。远程衰减特性,(随着相对距离的增加而衰减attention得分);包括序列长度灵活性。(方便外推性)可以应用于线性自注意力模型。RoPE 的旋转矩阵是正交矩阵,正交变换不会改变向量的模长(几何意义里 “只转方向、不改变长度”),这种方式不改变向量模长,能保证模型稳定性。RoPE 可以通过复数运算。
2025-11-21 17:35:57
668
原创 Transformer概念
红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。其中,pos 表示单词在句子中的位置,d 表示 PE的维度 (与词 Embedding 一样),2i 表示偶数的维度,2i+1 表示奇数维度 (即 2i≤d, 2i+1≤d)。
2025-11-13 18:59:17
830
原创 基于时间窗口算法检测+基于事件状态检测
容易因为跳帧(如前几帧为“敏感”,中间几帧为“正常”,最后几帧“敏感”)导致反复遮蔽动作发生。(很有可能中间帧是因为运动模糊的原因),需要不断增加“正常帧”判断的大小(如 连续 5次识别都无敏感,则“正常”)。因为时间窗口导致延迟,敏感区域的路过时间需要保证在敏感识别阈值以上。触发状态(current_state=1:需要遮蔽)健壮性强,不容易因为跳帧引起反复遮蔽动作的发生。反馈快,基于时间驱动。
2025-11-09 14:41:59
308
原创 YOLO 如何识别模糊图像
利用多线程模拟消息队列的消费者和生产者,当生产者拿到视频流时(frame)——> 就会将 frame 放入事先初始化好的队列中,并显示该帧内容 ——> 消费者作为检测,每过 10 帧就会从队列中取帧,并进行预处理(去曝、裁剪、放大)以保留远处小目标的像素——> 然后将处理后的帧进行敏感区域检测,如果检测到目标,保留那一帧的敏感内容。串行处理,即拿到视频流后,遍历所有的 frame,然后每过 10 帧做一次检测,那么就会卡一下。首先是主线程执行 video_worker() 函数。
2025-11-04 15:06:12
518
原创 过亮图像的处理
因为它把亮度(V)单独拎出来,便于调整“太亮”问题,而不影响颜色本身。**cv2.cvtColor:**就是颜色空间的“翻译机”,从BGR(OpenCV默认的RGB变体)转到HSV。右侧220处出现一个陡峭高峰 → 因为 np.clip(v, 0, 220) 把所有 >220 的像素都压到了220,所以这个位置“堆积”了很多像素;在 250附近有一个尖峰 → 表示图像中有大量“过曝”像素(比如天空、车灯、反光),这些区域细节丢失了;横轴:像素亮度值(0~255),0 是黑,255 是白。
2025-11-03 17:37:00
490
原创 ISP中的自动曝光AE算法详解
改造后,当车辆移动时,AE 算法会优先缩短快门时间(如限制在 1/500 秒内),避免运动模糊;同时通过提高增益保证画面亮度,从而在 “清晰” 和 “明亮” 之间取得平衡。非运动场景则恢复原策略,兼顾低光环境的噪声控制。车速 60km/h(约 16.7m/s)时,若快门时间为 1/100 秒,物体在曝光期间移动约 16.7cm,远超过传感器像素间距,直接造成模糊。当车辆移动时,若快门时间过长,物体会在曝光过程中产生 “像素级位移”,导致画面模糊。自动曝光是 ISP 的核心模块之一,通过。
2025-11-03 01:20:54
496
原创 PPL困惑度的计算
view(-1,shifted_logits.size(-1)):将一个三维张量转换为二维张量,第一维为展平的张量batchsize*seqlen,第二维为shifted_logits的最后一个维度vab_size。PPL 用于衡量语言模型对语言序列的预测能力,数值越小,说明模型的预测能力越强,即模型越能有效地捕捉到语言的结构和规律。意味着语言模型在生成或预测文本时,模型的预测比较准确,模型能够很好地理解语言的结构,预测出下一个词的概率接近真实的概率分布。困惑度高的模型通常需要进一步的训练或调整。
2025-05-09 19:56:06
744
原创 【2024-NIPS-版权】Evaluating Copyright Takedown Methods for Language Models
目前 LLMs 在训练过程中使用了大量的受版权保护数据,这些数据会导致大模型记忆并生成与训练数据相似的内容,从而引发版权问题。通过 QA 性能(新闻文章)和总结性能(书籍)评估模型是否保留了非版权的事实性信息。左侧小图为版权下架前后的效果,中间为模型输出有关版权内容的原因和模型下架的相关方案,右侧的图为期望的行为(作者自己提出来的)。作者以RAG的形式将版权文本压缩在上下文中,在评估版权删除时,如果模型生成的内容与上下文中的版权内容相似,就说明未能有效工作。,用于系统地评估版权下架方法的效果。
2025-04-29 13:46:21
898
原创 【2024-EMNLP】SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLMTextGeneration
具体没细看,只看了下指标和数据集,具体来说,包含LCS(最长公共字符串)、ROUGE-L(最长公共序列与最短字符串的比值)、Refusal(拒绝率)目前的 Benchmark 不够权威,数据集只与受版权保护的文本相关,而没有包含不受版权保护的文本。
2025-04-28 22:08:01
271
原创 Prompt-Tuning 提示词微调
Hard prompt 是一种更为具体和明确的提示,要求模型按照给定的信息生成精确的结果,通常用于需要模型提供准确答案的任务.
2025-04-19 17:38:03
426
原创 P-Tuning提示词微调
在Prompt-Tuning的基础上,对Prompt部分进行进一步的编码计算,加速收敛。与Prompt-Tuning不同的是,Prompt的形式只有Soft Prompt。编码器的输入通常是任务相关的特征(例如输入序列的上下文信息),输出则是虚拟 token 的连续表示。Prompt-Tuning 是静态的,直接随机将一组向量与用户输入相加;而P-Tuning,引入了 LSTM、MLP,来动态嵌入这些提示,使得这些提示跟输入的上下文相关联。
2025-04-19 17:36:44
237
原创 CasualLanguage Model和Seq2Seq模型的区别
基于给定的条件或输入生成新的文本,模型不仅学习文本序列的概率分布,还学习如何根据给定的条件生成文本。Causal Language Model是一种只包含解码器(Decoder-only)的模型,它的核心思想是根据前面的文本序列来生成后面的文本序列。因为输入和输入的数据类型不相同,所以需要 encoder 将其转为同空间的序列,然后再通过 Decoder 将这个序列展开为输出的结果。预测给定文本序列中的下一个字符,一般用于文本生成、补全句子等,模型学习给定文本序列的概率分布,并预测下一个最可能的词或字符。
2025-04-19 14:16:41
692
原创 【2024-NIPS-Spotlight-安全】Toxicity Detection For Free
采样多次输出,通过拒绝词汇在其中的占比判断是否为毒性(1~100次)——成本高通过判断输出的第一个 Token 中拒绝词汇的概率判断是否为毒性(Sorry、Cannot、I)——不够通用作者提出了一个名为稀疏逻辑回归模型,将输出的对数似然概率(向量)输入给它,将向量转换为一个概率分布,代表毒性和非毒性的概率,然后通过二元交叉熵(BCE)评估预测和实际标签的差异。作者通过实验证明了前两种方法的局限性,第一种成本高,第二种不通用。
2025-04-11 13:50:30
198
原创 【2025-ICLR-隐私窃取】
来自德国Bosch Center for Artificial Intelligence的Shen提出了一共多模态医疗窃取方法,无需任何专业知识和医疗图像就能复制医学多模态模型的方法。
2025-04-10 15:42:34
547
原创 【2019.信号】WiFi Sensing With Channel State Information
这篇文章是《WiFi Sensing with Channel State Information: A Survey》(《基于信道状态信息的WiFi感知:综述》),由Yongsen 马、周刚和Shuangquan Wang撰写,发表在2019年的《ACM Computing Surveys》上。它探讨了如何利用WiFi信号中的信道状态信息(Channel State Information,简称CSI)来进行各种感知任务,比如检测人的存在、识别动作、估计呼吸频率等。
2025-03-10 18:54:16
708
原创 SparseMOE在翻译任务的应用
好的,我将使用 Markdown 格式对代码进行模块化分析,并逐行解释代码的含义。最后总结整个流程。导入实现机器翻译模型所需的库。torchnumpySparseMOEjiebanltkCounterosrandomjsonmathpunkt定义了一个类,用于处理翻译任务的数据集。<BOS><EOS><PAD><UNK>实现了一个简单的注意力机制模块。定义了一个基于稀疏MoE和注意力机制的翻译模型。实现位置编码模块,用于为嵌入向量添加位置信息。x1.4f.4f实现模型的训练过程。len。
2025-03-06 21:17:57
739
原创 SparseMoE-2
输入 : (2, 4, 16)的张量,表示2个样本,每个4个token,每个token16维展平 : 变为(8, 16)的张量,8个token路由 :计算logits: (8, 2),每个token对每个专家的原始分数计算概率: (8, 2),每个token选择每个专家的概率选择专家: 每个token选择2个专家(本例中是所有专家)专家处理 :专家0处理所有token,权重不同专家1处理所有token,权重不同结果加权求和输出 : (2, 4, 16)的张。
2025-03-06 20:05:22
1196
原创 ShareExpert SparseMoE的学习
通过稀疏和共享专家的结合,实现了高效的 token 处理,前向传播输出最终隐藏状态和路由得分。训练:结合 MSE 损失和负载均衡损失,确保预测准确性和专家利用率。架构图:清晰展示了 Transformer 和 DeepSeekMoE 的数据流,与代码逻辑高度一致。希望这个解释对您理解模型和代码有所帮助!如果有进一步的问题,请随时提问。
2025-03-05 20:00:38
1300
原创 SparseMoE详解
SparseMOE工作流程输入张量被展平为。MOERouter计算每个 token 的 top-k 专家及其权重。每个专家处理被分配的 token,输出加权累加到最终结果中。最终输出恢复为。关键特点稀疏性: 每个 token 只通过 top-k 个专家,而不是所有专家,从而降低计算成本。灵活性: 通过调整和top_k,可以平衡模型容量和计算效率。代码优化点使用index_add_而不是+=操作,避免重复索引时的性能和正确性问题。以上是对SparseMoE。
2025-03-05 19:53:46
1548
原创 【2025.arXiv】Parametric Retrieval Augmented Generation
作者提出了一种新的RAG范式,称为参数化检索增强生成(Parametric Retrieval Augmented Generation, Parametric RAG)。这种方法通过文档参数化将外部知识直接集成到LLM的前馈网络(Feed-Forward Networks, FFN)参数中。这种方法不仅通过消除将多个文档注入LLMs输入上下文的需要来节省在线计算成本,而且还加深了外部知识与LLM参数知识空间的集成。
2025-02-18 19:08:46
1173
原创 【2024】Kalman-SSM: Modeling Long-Term Time Series With Kalman Filter Structured State Spaces
*1.卡尔曼滤波器:**它是一种递归算法,用于在噪声环境中估计系统的隐藏状态,通过不断接收新的数据来更新预测。卡尔曼滤波器广泛应用于导航、通信等领域,用来滤除噪声信号并进行精确预测。卡尔曼滤波器通常使用递归方法一步步更新模型状态,而SSM可以转化为卷积形式来更高效地处理时间序列数据。SSM在动态系统分析中被广泛应用。SSM是一种数学模型,用于描述。它通过线性方程表示系统的。
2025-02-16 21:23:02
374
原创 【2024】Wavelet Mixture of Experts for Time Series Forecasting
通过门控网络的引导,每个专家根据分配的权重专门处理特定部分的数据,进行独立的预测。输出层(Y) 部分是你需要修改的地方。门控网络的输出是一个概率分布,表示每个专家网络在当前任务中的重要性(即每个专家的“权重”)。WaveTS-M模型最终的低频部分(XA)的预测是通过门控网络和专家网络的联合工作完成的。每个专家根据自己的擅长领域做出预测,然后门控网络根据不同专家的权重动态加权,最终产生低频部分的预测。最后,预测结果会通过 逆归一化(iRevIN) 进行处理,以恢复到原始数据的尺度和分布,得到最终的预测值。
2025-02-16 21:17:02
687
1
原创 【2025-ICLR-未中】教授多模态大语言模型理解心电图图像
这篇文章讨论了如何通过多模态大语言模型(MLLMs)来理解心电图(ECG)图像,特别是如何应对当前传统心电图分析方法中的挑战。文章提出了一个新的数据集和模型来提高心电图图像的解读能力,并展示了其在实际临床应用中的潜力。
2025-02-10 16:40:00
1381
原创 【2024.ICSP】基于深度卷积神经网络的腕部脉冲信号分析
低通滤波器去除了高频噪声,归一化帮助标准化信号的幅度范围。带通滤波器专注于拍击波的频率(1-4Hz),而**香农能量包络(SEE)**则帮助平滑这些信号。最后,通过希尔伯特变换(HT),我们可以精确地在信号中找到拍击波的峰值位置,从而进行进一步的分析和分类。这些步骤合起来,帮助提取出脉搏信号中有用的特征,去除干扰和噪声,使得分类算法能够更好地工作。
2025-02-10 14:51:23
500
原创 【SCI一区.2022】Multi-Feature Complementary Learning for Diabetes Mellitus Detection Using Pulse Signals
通过原始脉搏信号及其提取的不同特征,展示了如何从脉搏信号中提取多维度的特征来帮助分析脉搏的健康信息。根据这个波形图,我们可以提取到脉搏信号的时间特征(比如脉搏的强弱、频率、波形等),这些都是糖尿病等健康状态的潜在指标。通过计算多个脉搏周期的平均值,可以消除个体之间的差异(如体型、年龄等)并得到一个更加标准化的脉搏波形,这有助于进行更准确的特征分析。STFT是一种分析信号频率成分的方法,它将脉搏信号分割为多个重叠的时间段,对每个时间段进行傅里叶变换,从而得到脉搏信号的局部频率信息。提取的脉搏信号特征。
2025-02-10 14:07:21
1052
原创 【SCI一区2018】:Computerized Wrist pulse signal Diagnosis using Gradient Boosting Decision Tree
理想的脉搏信号应该是一个稳定的波形,但如果基线漂移没有去除,就会影响信号的分析,给后续的特征提取和分类带来困难。时间域分析就是分析这些波形的特征,比如波峰的高度、波谷的深度、波形的宽度等,来判断脉搏的状态。这样,信号会被分解为多个层次。**2. 导数计算:**计算信号的一阶导数,通过导数判断信号的上升和下降过程。**1. 周期起点确定:**周期的起点是信号中波形的一个明显的低谷或波峰,通常可以从信号的上升支路开始。:最后,我们将去除低频漂移后的高频部分和剩余的低频部分重新组合,得到一个去除基线漂移的信号。
2025-02-10 12:58:39
1428
原创 一文了解边缘计算
边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务;目标是在靠近数据输入或用户的地方提供计算、存储和网络带宽。边缘计算本质上是一种服务,类似于云计算、大数据服务,但这种服务的特点是非常靠近用户。为什么要靠近用户?计算能力部署在设备侧附近,对设备的请求能实时响应;**2.低带宽运行:**将工作迁移到更接近于用户或是数据采集终端,能减少站点带宽带来的限制,尤其是当边缘节点减少了向中枢或云端发送大量数据处理的请求时;
2025-02-04 17:23:17
1032
原创 MoE的学习
混合专家模型(Mixture of Experts,MoE)是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务方面,从而实现更高效、准确的预测。
2025-01-27 17:21:19
657
原创 PPO算法学习
图1:强化学习的流程如图一所示,智能体与环境的交互过程如下:目的: 智能体在与环境交互的过程中不断学习,最终找到一个策略,能够根据当前的 State 环境状态和 Reward 奖励反馈,来选择最佳的 Action。在1.1中,我们谈到了奖励值 Rt ,它表示环境进入状态 St 下的即时奖励。但如果只考虑即时奖励,目光似乎太短浅了:当下的状态和动作会影响到未来的状态和动作,进而影响到未来的整体收益。所以,一种更好的设计方式是:**t 时刻状态 s 的总收益 = 身处状态 s 能带来的即时收益 + 从状态
2025-01-22 00:31:25
1901
原创 论文阅读:KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation
作者构建了一个含有8000个知识内容的知识集,并拆分成了六个不同类别的数据集,评估了推理效果,指标为ACC和R1(衡量输出和参考答案的相关性)对实体进行标准化的目的类似于:在某个时间点,某种年龄和某种性别的人并发症状可能比较明显,因此我们可以利用实时的外部知识去丰富实体的属性内容。我的想法是将余弦相似度与KL散度,然后利用词典对句子分词,捕获谓语动词评价其词汇的情感,将三者综合起来作为句子与句子之间的相似度。一个具体的人,做了具体的事,怎么样做的。**过程:**结构化信息获取、知识对齐、存储。
2025-01-15 18:28:11
1733
1
原创 论文阅读:The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models
个人感觉这个方法就是CodeAttack的翻版,一个是封装成函数一个是封装为代码,本质上恶意内容还是暴露在某一处地方了。能不能把它隐藏起来呢?探讨用户是否能够强制LLMs执行可能有害的函数调用,模型是否缺乏拒绝执行潜在危险函数调用的能力,以及这种能力的缺失对越狱攻击的影响。文章主要聚焦在 LLMs 函数调用的安全性,探索 LLMs 的函数调用是否可以被利用来绕过安全对齐,产生恶意输出。然后作者分析了函数调用中的参数与聊天模式下的响应相比,对比这种差异是否更容易导致越狱成功。数据集:AdvBench 子集。
2025-01-14 16:31:19
252
原创 论文阅读:WHEN LLM MEETS DRL: ADVANCING JAILBREAKING EFFICIENCY VIA DRL-GUIDED SEARCH
首先在训练阶段,强化学习代理会将越狱提示作为输入,通过MLP映射出一个状态,这个状态决定使用哪个策略,即突变器。以往的越狱科学研究都集中在 Random Search 这块,而 Random Search 会限制大模型本身的泛化能力,如:AutoDAN,GCG 等,他们没有适当策略情况下就随机选择突变体,会导致输入无语义,很容易被大模型检测到。作者设置了一个n^2的矩阵,引导式搜索的时间复杂度最差为 0(n2),通过公式证明 Random Search 的时间耗时至少为 0(3n2),为前者的3倍。
2025-01-12 22:49:13
500
1
原创 论文阅读:Play Guessing Game with LLM-Indirect Jailbreak Attack with Implicit Clues
另外,在开源模型当中,他们对于公开的越狱 Prompt 非常铭感,即便添加了正面的 Query,他们也很有可能拒绝这些包含敏感词的提示。目前对大模型进行越狱的研究手段主要有场景伪装的方法(PAPs、PAIR)和对抗后缀生成肯定前缀的方法(GCG、AutoDAN),以及否定反转以生成肯定内容的方法(EnDec)。作者通过这个措施来获取攻击内容,因为得到的防御建议可能普遍适用于所有恶意和非恶意的活动,但与具体意图有着松散关系。作者通过得到的越狱措施推测唯一的意图,并结合措施重新组织计划。
2025-01-11 18:07:36
1587
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅