Fairy要carry-优快云博客

原创【2019.信号】WiFi Sensing With Channel State Information

这篇文章是《WiFi Sensing with Channel State Information： A Survey》（《基于信道状态信息的WiFi感知：综述》），由Yongsen 马、周刚和Shuangquan Wang撰写，发表在2019年的《ACM Computing Surveys》上。它探讨了如何利用WiFi信号中的信道状态信息（Channel State Information，简称CSI）来进行各种感知任务，比如检测人的存在、识别动作、估计呼吸频率等。

2025-03-10 18:54:16 593

原创 SparseMOE在翻译任务的应用

好的，我将使用 Markdown 格式对代码进行模块化分析，并逐行解释代码的含义。最后总结整个流程。导入实现机器翻译模型所需的库。torchnumpySparseMOEjiebanltkCounterosrandomjsonmathpunkt定义了一个类，用于处理翻译任务的数据集。<BOS><EOS><PAD><UNK>实现了一个简单的注意力机制模块。定义了一个基于稀疏MoE和注意力机制的翻译模型。实现位置编码模块，用于为嵌入向量添加位置信息。x1.4f.4f实现模型的训练过程。len。

2025-03-06 21:17:57 628

原创 SparseMoE-2

输入 : (2, 4, 16)的张量，表示2个样本，每个4个token，每个token16维展平 : 变为(8, 16)的张量，8个token路由 :计算logits: (8, 2)，每个token对每个专家的原始分数计算概率: (8, 2)，每个token选择每个专家的概率选择专家: 每个token选择2个专家(本例中是所有专家)专家处理 :专家0处理所有token，权重不同专家1处理所有token，权重不同结果加权求和输出 : (2, 4, 16)的张。

2025-03-06 20:05:22 1002

原创 ShareExpert SparseMoE的学习

通过稀疏和共享专家的结合，实现了高效的 token 处理，前向传播输出最终隐藏状态和路由得分。训练：结合 MSE 损失和负载均衡损失，确保预测准确性和专家利用率。架构图：清晰展示了 Transformer 和 DeepSeekMoE 的数据流，与代码逻辑高度一致。希望这个解释对您理解模型和代码有所帮助！如果有进一步的问题，请随时提问。

2025-03-05 20:00:38 967

原创 SparseMoE详解

SparseMOE工作流程输入张量被展平为。MOERouter计算每个 token 的 top-k 专家及其权重。每个专家处理被分配的 token，输出加权累加到最终结果中。最终输出恢复为。关键特点稀疏性: 每个 token 只通过 top-k 个专家，而不是所有专家，从而降低计算成本。灵活性: 通过调整和top_k，可以平衡模型容量和计算效率。代码优化点使用index_add_而不是+=操作，避免重复索引时的性能和正确性问题。以上是对SparseMoE。

2025-03-05 19:53:46 700

原创【2025.arXiv】Parametric Retrieval Augmented Generation

作者提出了一种新的RAG范式，称为参数化检索增强生成（Parametric Retrieval Augmented Generation, Parametric RAG）。这种方法通过文档参数化将外部知识直接集成到LLM的前馈网络（Feed-Forward Networks, FFN）参数中。这种方法不仅通过消除将多个文档注入LLMs输入上下文的需要来节省在线计算成本，而且还加深了外部知识与LLM参数知识空间的集成。

2025-02-18 19:08:46 636

原创【2024】Kalman-SSM: Modeling Long-Term Time Series With Kalman Filter Structured State Spaces

*1.卡尔曼滤波器：**它是一种递归算法，用于在噪声环境中估计系统的隐藏状态，通过不断接收新的数据来更新预测。卡尔曼滤波器广泛应用于导航、通信等领域，用来滤除噪声信号并进行精确预测。卡尔曼滤波器通常使用递归方法一步步更新模型状态，而SSM可以转化为卷积形式来更高效地处理时间序列数据。SSM在动态系统分析中被广泛应用。SSM是一种数学模型，用于描述。它通过线性方程表示系统的。

2025-02-16 21:23:02 286

原创【2024】Wavelet Mixture of Experts for Time Series Forecasting

通过门控网络的引导，每个专家根据分配的权重专门处理特定部分的数据，进行独立的预测。输出层（Y）部分是你需要修改的地方。门控网络的输出是一个概率分布，表示每个专家网络在当前任务中的重要性（即每个专家的“权重”）。WaveTS-M模型最终的低频部分（XA）的预测是通过门控网络和专家网络的联合工作完成的。每个专家根据自己的擅长领域做出预测，然后门控网络根据不同专家的权重动态加权，最终产生低频部分的预测。最后，预测结果会通过逆归一化（iRevIN）进行处理，以恢复到原始数据的尺度和分布，得到最终的预测值。

2025-02-16 21:17:02 533

原创【2025-ICLR-未中】教授多模态大语言模型理解心电图图像

这篇文章讨论了如何通过多模态大语言模型（MLLMs）来理解心电图（ECG）图像，特别是如何应对当前传统心电图分析方法中的挑战。文章提出了一个新的数据集和模型来提高心电图图像的解读能力，并展示了其在实际临床应用中的潜力。

2025-02-10 16:40:00 873

原创【2024.ICSP】基于深度卷积神经网络的腕部脉冲信号分析

低通滤波器去除了高频噪声，归一化帮助标准化信号的幅度范围。带通滤波器专注于拍击波的频率（1-4Hz），而**香农能量包络（SEE）**则帮助平滑这些信号。最后，通过希尔伯特变换（HT），我们可以精确地在信号中找到拍击波的峰值位置，从而进行进一步的分析和分类。这些步骤合起来，帮助提取出脉搏信号中有用的特征，去除干扰和噪声，使得分类算法能够更好地工作。

2025-02-10 14:51:23 399

原创【SCI一区.2022】Multi-Feature Complementary Learning for Diabetes Mellitus Detection Using Pulse Signals

通过原始脉搏信号及其提取的不同特征，展示了如何从脉搏信号中提取多维度的特征来帮助分析脉搏的健康信息。根据这个波形图，我们可以提取到脉搏信号的时间特征（比如脉搏的强弱、频率、波形等），这些都是糖尿病等健康状态的潜在指标。通过计算多个脉搏周期的平均值，可以消除个体之间的差异（如体型、年龄等）并得到一个更加标准化的脉搏波形，这有助于进行更准确的特征分析。STFT是一种分析信号频率成分的方法，它将脉搏信号分割为多个重叠的时间段，对每个时间段进行傅里叶变换，从而得到脉搏信号的局部频率信息。提取的脉搏信号特征。

2025-02-10 14:07:21 979

原创【SCI一区2018】：Computerized Wrist pulse signal Diagnosis using Gradient Boosting Decision Tree

理想的脉搏信号应该是一个稳定的波形，但如果基线漂移没有去除，就会影响信号的分析，给后续的特征提取和分类带来困难。时间域分析就是分析这些波形的特征，比如波峰的高度、波谷的深度、波形的宽度等，来判断脉搏的状态。这样，信号会被分解为多个层次。**2. 导数计算：**计算信号的一阶导数，通过导数判断信号的上升和下降过程。**1. 周期起点确定：**周期的起点是信号中波形的一个明显的低谷或波峰，通常可以从信号的上升支路开始。：最后，我们将去除低频漂移后的高频部分和剩余的低频部分重新组合，得到一个去除基线漂移的信号。

2025-02-10 12:58:39 773

原创一文了解边缘计算

边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务；目标是在靠近数据输入或用户的地方提供计算、存储和网络带宽。边缘计算本质上是一种服务，类似于云计算、大数据服务，但这种服务的特点是非常靠近用户。为什么要靠近用户？计算能力部署在设备侧附近，对设备的请求能实时响应；**2.低带宽运行：**将工作迁移到更接近于用户或是数据采集终端，能减少站点带宽带来的限制，尤其是当边缘节点减少了向中枢或云端发送大量数据处理的请求时；

2025-02-04 17:23:17 877

原创 DeepSeek R1学习

调用费用大约为 o1 模型的 1/50。百万Token输出耗费约16元。蒸馏一轮：百元左右。

2025-01-28 23:19:33 1523

原创 MoE的学习

混合专家模型（Mixture of Experts，MoE）是一种先进的神经网络架构，旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型，然后将所有子模型的输出进行合并，以生成最终结果。这种分配可以根据输入数据的特征进行动态调整，确保每个专家处理其最擅长的数据类型或任务方面，从而实现更高效、准确的预测。

2025-01-27 17:21:19 546

原创 PPO算法学习

图1：强化学习的流程如图一所示，智能体与环境的交互过程如下：目的：智能体在与环境交互的过程中不断学习，最终找到一个策略，能够根据当前的 State 环境状态和 Reward 奖励反馈，来选择最佳的 Action。在1.1中，我们谈到了奖励值 Rt ，它表示环境进入状态 St 下的即时奖励。但如果只考虑即时奖励，目光似乎太短浅了：当下的状态和动作会影响到未来的状态和动作，进而影响到未来的整体收益。所以，一种更好的设计方式是：**t 时刻状态 s 的总收益 = 身处状态 s 能带来的即时收益 + 从状态

2025-01-22 00:31:25 1168

原创论文阅读：KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation

作者构建了一个含有8000个知识内容的知识集，并拆分成了六个不同类别的数据集，评估了推理效果，指标为ACC和R1（衡量输出和参考答案的相关性）对实体进行标准化的目的类似于：在某个时间点，某种年龄和某种性别的人并发症状可能比较明显，因此我们可以利用实时的外部知识去丰富实体的属性内容。我的想法是将余弦相似度与KL散度，然后利用词典对句子分词，捕获谓语动词评价其词汇的情感，将三者综合起来作为句子与句子之间的相似度。一个具体的人，做了具体的事，怎么样做的。**过程：**结构化信息获取、知识对齐、存储。

2025-01-15 18:28:11 1147 1

原创论文阅读：The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models

个人感觉这个方法就是CodeAttack的翻版，一个是封装成函数一个是封装为代码，本质上恶意内容还是暴露在某一处地方了。能不能把它隐藏起来呢？探讨用户是否能够强制LLMs执行可能有害的函数调用，模型是否缺乏拒绝执行潜在危险函数调用的能力，以及这种能力的缺失对越狱攻击的影响。文章主要聚焦在 LLMs 函数调用的安全性，探索 LLMs 的函数调用是否可以被利用来绕过安全对齐，产生恶意输出。然后作者分析了函数调用中的参数与聊天模式下的响应相比，对比这种差异是否更容易导致越狱成功。数据集：AdvBench 子集。

2025-01-14 16:31:19 184

原创论文阅读：WHEN LLM MEETS DRL: ADVANCING JAILBREAKING EFFICIENCY VIA DRL-GUIDED SEARCH

首先在训练阶段，强化学习代理会将越狱提示作为输入，通过MLP映射出一个状态，这个状态决定使用哪个策略，即突变器。以往的越狱科学研究都集中在 Random Search 这块，而 Random Search 会限制大模型本身的泛化能力，如：AutoDAN，GCG 等，他们没有适当策略情况下就随机选择突变体，会导致输入无语义，很容易被大模型检测到。作者设置了一个n^2的矩阵，引导式搜索的时间复杂度最差为 0(n2)，通过公式证明 Random Search 的时间耗时至少为 0(3n2)，为前者的3倍。

2025-01-12 22:49:13 363 1

原创论文阅读：Play Guessing Game with LLM-Indirect Jailbreak Attack with Implicit Clues

另外，在开源模型当中，他们对于公开的越狱 Prompt 非常铭感，即便添加了正面的 Query，他们也很有可能拒绝这些包含敏感词的提示。目前对大模型进行越狱的研究手段主要有场景伪装的方法（PAPs、PAIR）和对抗后缀生成肯定前缀的方法（GCG、AutoDAN），以及否定反转以生成肯定内容的方法（EnDec）。作者通过这个措施来获取攻击内容，因为得到的防御建议可能普遍适用于所有恶意和非恶意的活动，但与具体意图有着松散关系。作者通过得到的越狱措施推测唯一的意图，并结合措施重新组织计划。

2025-01-11 18:07:36 662

原创论文阅读：Jailbreak Open-Sourced Large Language Models via Enforced Decoding

相比于GCG等方法，更加通用有效，但是文章并没有与之比对，怀疑在GPT等模型上的效果会很差，因为模型的输出并不会因为是否拒绝而为恶意内容，即便是肯定输出，也有很大可能输出的是肯定且正面的回答。在开源表现较好，有消融实验证明了否定反转的重要性，并证明了判断是否为否定的阈值的重要性（即，超参数）。这种方法对模型本身的能力有很大影响，比如正确输出：“小明是一个不好的孩子”，这样输出后内容为“小明为一个好的孩子”，这对事实具有本质性的修改。的方式得到肯定的语气，防止 LLM 因为否定词拒绝反应。

2025-01-11 02:51:22 889 1

原创矩阵论：级数收敛

定理：矩阵幂级数收敛的充要条件为谱半径<1——>可以用图中公式。即：如果谱半径 p(A) < 1，则矩阵幂级数收敛。幂级数的收敛半径求法：（ak➗a（k+1）的极限）

2024-12-20 17:53:06 458

原创矩阵论第四章：范数

非负性：x ≠ 0 时 ||x|| ＞ 0，当 x = 0 时，||x|| = 0齐次性：可以抽出 k 来，即 ||kx|| = ||k||·||x||三角不等式：||x+y|| <= ||x|| + ||y||

2024-12-19 19:08:04 204

原创矩阵论第二章：内积空间

元素大小：内积开根号正交变换的本质就是长度不变，即向量的内积不变所以正交变换变换的是方向这种α1…αn 是标准正交基，那么 Aα1…也是标准正交基，另外在 A(正交变换) 在一组标准正交基下的矩阵也是正交矩阵。

2024-12-19 17:52:42 327

原创矩阵论第五章：矩阵分解

将矩阵 A 分解为列满秩矩阵 x 行满秩矩阵，Er 为秩为 r 的单位矩阵。

2024-12-19 16:31:07 266

原创矩阵论-第三章：矩阵的标准型

当你看到需要计算一个很长的公式的时候，你就可以往。

2024-12-16 14:19:25 1044

原创矩阵论-第一章：线性空间

在给定条件 TA = CA - AC 情况下，证明 T 是线性变换——>可以利用线性变换两个证明方式进行证明，其一是 T(a+p) = Ta +Tp，其二为 T(ka) = kTa。**极大无关组的个数：**等于秩的大小，此题的秩为3，所以极大无关组的元素个数为3——>有很多个极大无关组（a1，a2，p1）/（a1，a3，p1）/…**求基底：**求V1+V2的基=L(V1,V2)这一子空间，然后对L(V1,V2)进行线性变换，求其极大无关组。V1和V2的维度=二者交子空间的维度+和子空间的维度。

2024-12-16 13:02:40 570

原创 LLM生命周期

因此，残差连接将注意力机制的输出与输入相加，确保即使注意力机制的效果不明显，原始信息依然保留在输出中。然而，如果这种变换的效果不如预期，残差连接可以确保前馈网络的输出至少保留了输入的基本信息，从而减轻变换失败的负面影响。残差连接的作用就是将输入直接接到输出上，以防止梯度小时并保留原始信息，这样即使经过了复杂的变换，模型仍然可以保留输入的特征，确保信息的稳定传递。因为Transformer结构本身没有时间序列的概念，所以需要在每个Token的向量中加入其在序列中的位置信息，以便模型能够理解词汇的顺序。

2024-10-25 20:58:43 757

原创 EM算法学习

可以发现：计算出θA和θB的值的前提是知道A、B币种的抛掷情况。所以我们需要使用EM算法：求出每轮选择硬币种类的概率。

2024-10-16 20:37:24 364

原创高斯滤波（Gaussian Filtering）详解

（x，y）是像素的相对坐标，表示该点与中心点的距离。σ 是高斯分布的标准差，决定了高斯函数的宽度（即像素点在中心点（即均值处）附近的分布程度）。值越大，滤波器越模糊，噪声去除能力更强，但图像细节可能丢失更多。【标准差越大，说明像素点出现在离中心点更远的地方，而在较远的地方标准差更大，更适合进行去除噪声，因为会考虑更多的像素信息。较小的标准差则更适合保留细节，去噪效果弱】exp 指的是指数函数。这个公式描述了二维空间中，离中心像素越远的像素，其权重越低。

2024-10-16 12:45:25 2755

原创书生浦语-MindSearch

然后创建自己的空间Space，选择完Gradio采用空模板后。在Settings中创建一个新的Secret并添加SiliconFlow的免费API Key。最后创建一个新目录，将原来MindSearch下的文件放在新目录下，并以app.py作为程序入口。SiliconFlow的key相关配置已经集成在了MindSearch中，直接。然后打开一个Web端的vscode，将MindSearch进行clone。

2024-08-31 17:07:04 531

原创书生浦语实训营-InternVL 多模态模型部署微调实践

InternVL 是一种用于多模态任务的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。对于InternVL这个模型来说，它的vision模块就是一个微调过的ViT，llm模块是一个InternLM的模型。对于视觉模块来说，它的特殊之处在Dynamic High Resolution。ViT（Vision Transformer）是一种基于Transformer架构的图像分类模型。

2024-08-31 10:54:39 1136

原创 Xtuner微调配置文件的解析

来源： https://www.datalearner.com/blog/1051703254378255#google_vignette关键配置信息：表示训练数据集中的多条样本将会被打包到一个最大长度的样本中。这种方式适用于处理变长序列的任务，确保训练过程高效且稳定。数据处理效率：当样本长度不一致时，直接对整个批次进行处理可能会导致性能下降。将多个样本打包到统一的最大长度可以提高数据加载和处理的效率。模型输入要求：某些模型（如循环神经网络和变换器模型）需要输入具有固定长度的序列。通过将多个样本打包

2024-08-27 16:46:04 994

原创书生大模型实战营3期- 5 - 茴香豆：企业级知识库问答工具

界面完成 2 轮问答（问题不可与教程重复，作业截图需包括 gradio 界面问题和茴香豆回答）。知识库可根据根据自己工作、学习或感兴趣的内容调整，如金融、医疗、法律、音乐、动漫等（优秀学员必做）。准备embedding模型和reranker模型、7B的chat模型。修改配置文件中的向量模型和重排序模型以及chat模型。搭建标准版茴香豆知识助手，并使用。

2024-08-25 18:23:36 281

原创 GLUE数据集的预处理

https://gluebenchmark.com/taskshttps://blog.youkuaiyun.com/weixin_57128596/article/details/140524968?spm=1001.2014.3001.5501

2024-08-25 16:01:11 437

原创书生浦语大模型实战营：LMDeploy量化部署

自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 的非对称量化。1B代表10个亿参数，假如是16位浮点数（f16），也就是2个Byte，则模型的权重大小为：1 * 10^9 * 2 = 2GB；模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。会占用剩余显存的80%，我们可以缩小其比例，减少重复计算，优化推理服务性能机制。默认的比例为0.8。

2024-08-25 02:17:19 1083

原创书生浦语之实战营：使用Lagent 自定义你的 Agent 智能体

Lagent 是一个轻量级开源智能体框架，旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式IPython 解释器PPT Python 解释器我们将实现一个调用 MagicMaker API 以完成文生图的功能。首先，我们先来创建工具文件：然后，我们将下面的代码复制进入'dongman', # 动漫'guofeng', # 国风。

2024-08-22 13:02:24 500

原创 LeakyReLU

LeakyReLU是一种改进的激活函数。ReLUReLU的主要问题是当输入为负时，输出恒为零，这可能导致**“神经元死亡”问题**，即一旦神经元的输入变为负数，后续的训练中该神经元将永远输出零，从而失去作用。为了缓解这个问题，LeakyReLU引入了一个小的负斜率，使得当输入为负数时，输出仍然是负值但具有一定的幅度。LeakyReLU其中，𝛼是一个很小的正数（通常在 0.01 左右）。LeakyReLU 的优点在于它可以在输入为负数时仍然保持梯度，从而防止神经元完全失效。

2024-08-19 23:27:10 394

原创 Transformer2

这里就设计矩阵和空间变换的基础了，我们可以利用向量和矩阵相乘，将向量（向量中的每个元素你可以视作一个数据点）投射到一个新的空间中，本质是对原始的向量进行了一个Linear变换（依旧是一个点对点的关系）。而潜空间与中文手册实验最大区别就是：潜空间是连续的，而中文手册不是，哪怕遇到之前没有学习过的情况，仍然能够在潜空间中找到对应的对象，而中文手册更像是一个K-V，这是无穷尽的。因此，你可以发现，根据Word2Vec训练出来的潜空间里面的词向量对应的词意，不依赖于作者的主观意图，是一种客观表达，跟语境相关。

2024-08-19 10:35:53 322

原创 Transformer2

这里就设计矩阵和空间变换的基础了，我们可以利用向量和矩阵相乘，将向量（向量中的每个元素你可以视作一个数据点）投射到一个新的空间中，本质是对原始的向量进行了一个Linear变换（依旧是一个点对点的关系）。而潜空间与中文手册实验最大区别就是：潜空间是连续的，而中文手册不是，哪怕遇到之前没有学习过的情况，仍然能够在潜空间中找到对应的对象，而中文手册更像是一个K-V，这是无穷尽的。因此，你可以发现，根据Word2Vec训练出来的潜空间里面的词向量对应的词意，不依赖于作者的主观意图，是一种客观表达，跟语境相关。

2024-08-16 19:21:01 975

内网穿透，sunny的

空空如也