- 博客(641)
- 资源 (1)
- 收藏
- 关注
原创 VLLM学习-推理阶段generate
如果我们有多个 Prompt,这会将这些请求通过 for 循环封装到一个请求里面,也就是 _add_request()。generate 函数中最重要的就是 _add_request 函数和 _run_engine 函数。通过类对象调用 _run_engine 函数完成请求。首先会进行一系列的断言。
2025-12-27 20:34:16
168
原创 2025/12/16英语打卡
1. 你现在在家会帮家里做饭或者打扫卫生吗?Do you do some cooking or cleaning at home now?Do you do some cooking or help your family clean at home now?2.是的,我经常会帮家里人做饭,尤其是周末,我喜欢做一些简单的菜,例如意大利面。一起做饭是增进感情,共度美好时光的好方式Yes, I often help my family cook, especially on weekends. I en
2025-12-16 14:55:15
395
原创 2025/12/15英语打卡
1.我做过最正确的事情是不再跟所有人诉说我生活中的事情The best thing i ever did is stop telling my life to everyone.The best thing i ever did is stop telling everyone what is going on in my life.2.并非每个人都需要知道我的困境、我的计划、或者我的成就Not everyone need know my struggles、my plans or my wins.3
2025-12-15 22:11:00
334
原创 【2024-ICLR-ICL】The Unlocking Spell On Base LLMs: Rethinking Alignment via In-Context Learning
作者通过检查基础LLM及其对齐调整版本之间的token分布偏移(例如,
2025-12-05 17:35:19
937
原创 大模型之注意力机制实现
位置问题修正KV Cache 拼接dim=-1应为dim=1标准注意力路径缺少应加xv拆分未view应加这段代码是一个高度优化、功能完整GQA(内存效率)RoPE(位置感知)KV Cache(推理加速)(计算效率)因果掩码(自回归约束)尽管存在几处小 bug(已在上文指出),但整体结构清晰、符合工业级大模型设计范式,是理解 LLaMA、Gemma 等模型注意力机制的优秀参考。
2025-11-29 19:14:17
835
原创 目标检测和大模型领域中下采样和上采样是什么意思
在目标检测和大模型(如视觉大模型、多模态大模型等)领域中,下采样(downsampling) 和 上采样(upsampling) 是图像/特征图尺度变换的关键操作,主要用于多尺度特征提取、空间信息恢复等任务。
2025-11-21 17:39:48
393
原创 RoPE 旋转位置编码
给每个位置的向量乘一个旋转矩阵(本质是给向量 “旋转” 对应角度),但最终计算注意力时,两个位置的向量内积只和 “相对位置差” 有关。远程衰减特性,(随着相对距离的增加而衰减attention得分);包括序列长度灵活性。(方便外推性)可以应用于线性自注意力模型。RoPE 的旋转矩阵是正交矩阵,正交变换不会改变向量的模长(几何意义里 “只转方向、不改变长度”),这种方式不改变向量模长,能保证模型稳定性。RoPE 可以通过复数运算。
2025-11-21 17:35:57
1035
原创 Transformer概念
红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。其中,pos 表示单词在句子中的位置,d 表示 PE的维度 (与词 Embedding 一样),2i 表示偶数的维度,2i+1 表示奇数维度 (即 2i≤d, 2i+1≤d)。
2025-11-13 18:59:17
857
原创 基于时间窗口算法检测+基于事件状态检测
容易因为跳帧(如前几帧为“敏感”,中间几帧为“正常”,最后几帧“敏感”)导致反复遮蔽动作发生。(很有可能中间帧是因为运动模糊的原因),需要不断增加“正常帧”判断的大小(如 连续 5次识别都无敏感,则“正常”)。因为时间窗口导致延迟,敏感区域的路过时间需要保证在敏感识别阈值以上。触发状态(current_state=1:需要遮蔽)健壮性强,不容易因为跳帧引起反复遮蔽动作的发生。反馈快,基于时间驱动。
2025-11-09 14:41:59
346
原创 YOLO 如何识别模糊图像
利用多线程模拟消息队列的消费者和生产者,当生产者拿到视频流时(frame)——> 就会将 frame 放入事先初始化好的队列中,并显示该帧内容 ——> 消费者作为检测,每过 10 帧就会从队列中取帧,并进行预处理(去曝、裁剪、放大)以保留远处小目标的像素——> 然后将处理后的帧进行敏感区域检测,如果检测到目标,保留那一帧的敏感内容。串行处理,即拿到视频流后,遍历所有的 frame,然后每过 10 帧做一次检测,那么就会卡一下。首先是主线程执行 video_worker() 函数。
2025-11-04 15:06:12
587
原创 过亮图像的处理
因为它把亮度(V)单独拎出来,便于调整“太亮”问题,而不影响颜色本身。**cv2.cvtColor:**就是颜色空间的“翻译机”,从BGR(OpenCV默认的RGB变体)转到HSV。右侧220处出现一个陡峭高峰 → 因为 np.clip(v, 0, 220) 把所有 >220 的像素都压到了220,所以这个位置“堆积”了很多像素;在 250附近有一个尖峰 → 表示图像中有大量“过曝”像素(比如天空、车灯、反光),这些区域细节丢失了;横轴:像素亮度值(0~255),0 是黑,255 是白。
2025-11-03 17:37:00
526
原创 ISP中的自动曝光AE算法详解
改造后,当车辆移动时,AE 算法会优先缩短快门时间(如限制在 1/500 秒内),避免运动模糊;同时通过提高增益保证画面亮度,从而在 “清晰” 和 “明亮” 之间取得平衡。非运动场景则恢复原策略,兼顾低光环境的噪声控制。车速 60km/h(约 16.7m/s)时,若快门时间为 1/100 秒,物体在曝光期间移动约 16.7cm,远超过传感器像素间距,直接造成模糊。当车辆移动时,若快门时间过长,物体会在曝光过程中产生 “像素级位移”,导致画面模糊。自动曝光是 ISP 的核心模块之一,通过。
2025-11-03 01:20:54
559
原创 PPL困惑度的计算
view(-1,shifted_logits.size(-1)):将一个三维张量转换为二维张量,第一维为展平的张量batchsize*seqlen,第二维为shifted_logits的最后一个维度vab_size。PPL 用于衡量语言模型对语言序列的预测能力,数值越小,说明模型的预测能力越强,即模型越能有效地捕捉到语言的结构和规律。意味着语言模型在生成或预测文本时,模型的预测比较准确,模型能够很好地理解语言的结构,预测出下一个词的概率接近真实的概率分布。困惑度高的模型通常需要进一步的训练或调整。
2025-05-09 19:56:06
825
原创 【2024-NIPS-版权】Evaluating Copyright Takedown Methods for Language Models
目前 LLMs 在训练过程中使用了大量的受版权保护数据,这些数据会导致大模型记忆并生成与训练数据相似的内容,从而引发版权问题。通过 QA 性能(新闻文章)和总结性能(书籍)评估模型是否保留了非版权的事实性信息。左侧小图为版权下架前后的效果,中间为模型输出有关版权内容的原因和模型下架的相关方案,右侧的图为期望的行为(作者自己提出来的)。作者以RAG的形式将版权文本压缩在上下文中,在评估版权删除时,如果模型生成的内容与上下文中的版权内容相似,就说明未能有效工作。,用于系统地评估版权下架方法的效果。
2025-04-29 13:46:21
911
原创 【2024-EMNLP】SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLMTextGeneration
具体没细看,只看了下指标和数据集,具体来说,包含LCS(最长公共字符串)、ROUGE-L(最长公共序列与最短字符串的比值)、Refusal(拒绝率)目前的 Benchmark 不够权威,数据集只与受版权保护的文本相关,而没有包含不受版权保护的文本。
2025-04-28 22:08:01
293
原创 Prompt-Tuning 提示词微调
Hard prompt 是一种更为具体和明确的提示,要求模型按照给定的信息生成精确的结果,通常用于需要模型提供准确答案的任务.
2025-04-19 17:38:03
454
原创 P-Tuning提示词微调
在Prompt-Tuning的基础上,对Prompt部分进行进一步的编码计算,加速收敛。与Prompt-Tuning不同的是,Prompt的形式只有Soft Prompt。编码器的输入通常是任务相关的特征(例如输入序列的上下文信息),输出则是虚拟 token 的连续表示。Prompt-Tuning 是静态的,直接随机将一组向量与用户输入相加;而P-Tuning,引入了 LSTM、MLP,来动态嵌入这些提示,使得这些提示跟输入的上下文相关联。
2025-04-19 17:36:44
253
原创 CasualLanguage Model和Seq2Seq模型的区别
基于给定的条件或输入生成新的文本,模型不仅学习文本序列的概率分布,还学习如何根据给定的条件生成文本。Causal Language Model是一种只包含解码器(Decoder-only)的模型,它的核心思想是根据前面的文本序列来生成后面的文本序列。因为输入和输入的数据类型不相同,所以需要 encoder 将其转为同空间的序列,然后再通过 Decoder 将这个序列展开为输出的结果。预测给定文本序列中的下一个字符,一般用于文本生成、补全句子等,模型学习给定文本序列的概率分布,并预测下一个最可能的词或字符。
2025-04-19 14:16:41
719
原创 【2024-NIPS-Spotlight-安全】Toxicity Detection For Free
采样多次输出,通过拒绝词汇在其中的占比判断是否为毒性(1~100次)——成本高通过判断输出的第一个 Token 中拒绝词汇的概率判断是否为毒性(Sorry、Cannot、I)——不够通用作者提出了一个名为稀疏逻辑回归模型,将输出的对数似然概率(向量)输入给它,将向量转换为一个概率分布,代表毒性和非毒性的概率,然后通过二元交叉熵(BCE)评估预测和实际标签的差异。作者通过实验证明了前两种方法的局限性,第一种成本高,第二种不通用。
2025-04-11 13:50:30
209
原创 【2025-ICLR-隐私窃取】
来自德国Bosch Center for Artificial Intelligence的Shen提出了一共多模态医疗窃取方法,无需任何专业知识和医疗图像就能复制医学多模态模型的方法。
2025-04-10 15:42:34
559
原创 【2019.信号】WiFi Sensing With Channel State Information
这篇文章是《WiFi Sensing with Channel State Information: A Survey》(《基于信道状态信息的WiFi感知:综述》),由Yongsen 马、周刚和Shuangquan Wang撰写,发表在2019年的《ACM Computing Surveys》上。它探讨了如何利用WiFi信号中的信道状态信息(Channel State Information,简称CSI)来进行各种感知任务,比如检测人的存在、识别动作、估计呼吸频率等。
2025-03-10 18:54:16
731
原创 SparseMOE在翻译任务的应用
好的,我将使用 Markdown 格式对代码进行模块化分析,并逐行解释代码的含义。最后总结整个流程。导入实现机器翻译模型所需的库。torchnumpySparseMOEjiebanltkCounterosrandomjsonmathpunkt定义了一个类,用于处理翻译任务的数据集。<BOS><EOS><PAD><UNK>实现了一个简单的注意力机制模块。定义了一个基于稀疏MoE和注意力机制的翻译模型。实现位置编码模块,用于为嵌入向量添加位置信息。x1.4f.4f实现模型的训练过程。len。
2025-03-06 21:17:57
758
原创 SparseMoE-2
输入 : (2, 4, 16)的张量,表示2个样本,每个4个token,每个token16维展平 : 变为(8, 16)的张量,8个token路由 :计算logits: (8, 2),每个token对每个专家的原始分数计算概率: (8, 2),每个token选择每个专家的概率选择专家: 每个token选择2个专家(本例中是所有专家)专家处理 :专家0处理所有token,权重不同专家1处理所有token,权重不同结果加权求和输出 : (2, 4, 16)的张。
2025-03-06 20:05:22
1214
原创 ShareExpert SparseMoE的学习
通过稀疏和共享专家的结合,实现了高效的 token 处理,前向传播输出最终隐藏状态和路由得分。训练:结合 MSE 损失和负载均衡损失,确保预测准确性和专家利用率。架构图:清晰展示了 Transformer 和 DeepSeekMoE 的数据流,与代码逻辑高度一致。希望这个解释对您理解模型和代码有所帮助!如果有进一步的问题,请随时提问。
2025-03-05 20:00:38
1330
原创 SparseMoE详解
SparseMOE工作流程输入张量被展平为。MOERouter计算每个 token 的 top-k 专家及其权重。每个专家处理被分配的 token,输出加权累加到最终结果中。最终输出恢复为。关键特点稀疏性: 每个 token 只通过 top-k 个专家,而不是所有专家,从而降低计算成本。灵活性: 通过调整和top_k,可以平衡模型容量和计算效率。代码优化点使用index_add_而不是+=操作,避免重复索引时的性能和正确性问题。以上是对SparseMoE。
2025-03-05 19:53:46
1646
原创 【2025.arXiv】Parametric Retrieval Augmented Generation
作者提出了一种新的RAG范式,称为参数化检索增强生成(Parametric Retrieval Augmented Generation, Parametric RAG)。这种方法通过文档参数化将外部知识直接集成到LLM的前馈网络(Feed-Forward Networks, FFN)参数中。这种方法不仅通过消除将多个文档注入LLMs输入上下文的需要来节省在线计算成本,而且还加深了外部知识与LLM参数知识空间的集成。
2025-02-18 19:08:46
1196
原创 【2024】Kalman-SSM: Modeling Long-Term Time Series With Kalman Filter Structured State Spaces
*1.卡尔曼滤波器:**它是一种递归算法,用于在噪声环境中估计系统的隐藏状态,通过不断接收新的数据来更新预测。卡尔曼滤波器广泛应用于导航、通信等领域,用来滤除噪声信号并进行精确预测。卡尔曼滤波器通常使用递归方法一步步更新模型状态,而SSM可以转化为卷积形式来更高效地处理时间序列数据。SSM在动态系统分析中被广泛应用。SSM是一种数学模型,用于描述。它通过线性方程表示系统的。
2025-02-16 21:23:02
385
原创 【2024】Wavelet Mixture of Experts for Time Series Forecasting
通过门控网络的引导,每个专家根据分配的权重专门处理特定部分的数据,进行独立的预测。输出层(Y) 部分是你需要修改的地方。门控网络的输出是一个概率分布,表示每个专家网络在当前任务中的重要性(即每个专家的“权重”)。WaveTS-M模型最终的低频部分(XA)的预测是通过门控网络和专家网络的联合工作完成的。每个专家根据自己的擅长领域做出预测,然后门控网络根据不同专家的权重动态加权,最终产生低频部分的预测。最后,预测结果会通过 逆归一化(iRevIN) 进行处理,以恢复到原始数据的尺度和分布,得到最终的预测值。
2025-02-16 21:17:02
707
1
原创 【2025-ICLR-未中】教授多模态大语言模型理解心电图图像
这篇文章讨论了如何通过多模态大语言模型(MLLMs)来理解心电图(ECG)图像,特别是如何应对当前传统心电图分析方法中的挑战。文章提出了一个新的数据集和模型来提高心电图图像的解读能力,并展示了其在实际临床应用中的潜力。
2025-02-10 16:40:00
1461
原创 【2024.ICSP】基于深度卷积神经网络的腕部脉冲信号分析
低通滤波器去除了高频噪声,归一化帮助标准化信号的幅度范围。带通滤波器专注于拍击波的频率(1-4Hz),而**香农能量包络(SEE)**则帮助平滑这些信号。最后,通过希尔伯特变换(HT),我们可以精确地在信号中找到拍击波的峰值位置,从而进行进一步的分析和分类。这些步骤合起来,帮助提取出脉搏信号中有用的特征,去除干扰和噪声,使得分类算法能够更好地工作。
2025-02-10 14:51:23
515
原创 【SCI一区.2022】Multi-Feature Complementary Learning for Diabetes Mellitus Detection Using Pulse Signals
通过原始脉搏信号及其提取的不同特征,展示了如何从脉搏信号中提取多维度的特征来帮助分析脉搏的健康信息。根据这个波形图,我们可以提取到脉搏信号的时间特征(比如脉搏的强弱、频率、波形等),这些都是糖尿病等健康状态的潜在指标。通过计算多个脉搏周期的平均值,可以消除个体之间的差异(如体型、年龄等)并得到一个更加标准化的脉搏波形,这有助于进行更准确的特征分析。STFT是一种分析信号频率成分的方法,它将脉搏信号分割为多个重叠的时间段,对每个时间段进行傅里叶变换,从而得到脉搏信号的局部频率信息。提取的脉搏信号特征。
2025-02-10 14:07:21
1059
原创 【SCI一区2018】:Computerized Wrist pulse signal Diagnosis using Gradient Boosting Decision Tree
理想的脉搏信号应该是一个稳定的波形,但如果基线漂移没有去除,就会影响信号的分析,给后续的特征提取和分类带来困难。时间域分析就是分析这些波形的特征,比如波峰的高度、波谷的深度、波形的宽度等,来判断脉搏的状态。这样,信号会被分解为多个层次。**2. 导数计算:**计算信号的一阶导数,通过导数判断信号的上升和下降过程。**1. 周期起点确定:**周期的起点是信号中波形的一个明显的低谷或波峰,通常可以从信号的上升支路开始。:最后,我们将去除低频漂移后的高频部分和剩余的低频部分重新组合,得到一个去除基线漂移的信号。
2025-02-10 12:58:39
1750
原创 一文了解边缘计算
边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务;目标是在靠近数据输入或用户的地方提供计算、存储和网络带宽。边缘计算本质上是一种服务,类似于云计算、大数据服务,但这种服务的特点是非常靠近用户。为什么要靠近用户?计算能力部署在设备侧附近,对设备的请求能实时响应;**2.低带宽运行:**将工作迁移到更接近于用户或是数据采集终端,能减少站点带宽带来的限制,尤其是当边缘节点减少了向中枢或云端发送大量数据处理的请求时;
2025-02-04 17:23:17
1055
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅