taoqick-优快云博客

原创 DyT （Transformers without Normalization）

省流版： DyT 的灵感来自于这样一个观察结果，即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后，没有归一化的 Transformers 在大多数情况下无需调整超参数，就能达到或超过归一化对应层的性能。因此DyT是LayerNorm/RMSNorm在Transformer类模型中的平替，但是在CNN中替换BatchNorm效果下降比较多。

2025-04-02 07:50:10 155

原创 DeepSeek矩阵的逆求法

矩阵的逆可以通过多种方法计算，具体方法根据矩阵的阶数和结构有所不同。

2025-04-02 07:09:06 692

原创 DeepSeek总结常用的CoT方法（ToT、GoT）

常用的CoT（Chain-of-Thought，思维链）方法通过引导大语言模型生成中间推理步骤，显著提升了复杂任务的解决能力。

2025-04-02 05:11:26 263

原创 DeepSeek 汇总一下PRM和ORM的主要论文

PRM的核心创新在于通过逐步骤反馈优化模型推理路径，而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本（如隐式学习、自动标注）和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制，以及面向工业场景的端到端优化框架。如需具体论文链接或进一步解读，可参考上述文献的原始出处。

2025-04-02 05:10:10 292

原创 DeepSeek 如何系统性的解决大模型的幻觉问题？

系统性解决幻觉需构建“数据-模型-知识-评估”的闭环：通过RAG和CoT增强事实性，动态知识库减少信息滞后，多智能体路由提升专业性，解码控制抑制语义漂移。未来需进一步探索模型自我纠错能力与跨模态证据融合，以实现更高可靠性。要系统性解决大模型的“幻觉”问题（即生成看似合理但实际错误的信息），需从数据优化、模型训练、知识管理、推理控制等多层面构建闭环解决方案。

2025-04-02 03:28:14 282

转载矩阵求导和BP中的Shape总结

如果W是m*n，x是n*1，

2025-04-02 03:25:49 8

原创 Leetcode 1094. Car Pooling 差分数组

【代码】Leetcode 1094. Car Pooling 差分数组。

2025-04-02 00:35:43 357

原创 Leetcode 1976. Number of Ways to Arrive at Destination 带重复的Dijstrala BFS等价

重复的dijstrla

2025-03-31 15:13:07 837

原创 PyTorch DDP流程和SyncBN、ShuffleBN

MoCo V1中就使用了Shuffling BN的操作。BN大部分的时候是在当前GPU上算的，使用BN的时候BN的running mean和runnning variance很容易让模型找到正确的解。Shuffling BN就是算之前先把样本顺序打乱，送到多卡上，算完再合在一起。，实际上就是把各块卡搜集到的均值和方差汇总起来。PyTorch DDP中的BN同步通过 all_gather 原语实现全局统计量聚合，既保证了多卡训练的一致性，又通过优化通信量避免了性能瓶颈。

2025-03-29 08:10:24 273

转载 GPU Utilization/SM Activity/SM Active/SM Occupancy

对应 DCGM 的 DCGM_FI_PROF_GR_ENGINE_ACTIVE，表示在一个时间间隔内 Graphics 或 Compute 引擎处于 Active 的时间占比。Active 时间比例越高，意味着 GPU 在该周期内越繁忙。该值比较低表示一定没有充分利用 GPU，比较高也不意味着已经充分利用 GPU。

2025-03-29 06:22:45 16

原创 Token压缩思路和代码赏析（ToMe： TOKEN MERGING: YOUR VIT BUT FASTER）

简单来说把一个token区别拆分成a, b = metric[…, ::2, :], metric[…, 1::2, :]这两部分，然后两部分做bipartite soft matching。n2。

2025-03-18 21:17:37 433

原创稀疏矩阵乘法非零个数的期望

n*n的稀疏矩阵，平均每行每列都有m个非0的数，n>>m。如果A和B都是上述类型矩阵，那么C=A@B ，C平均每行有多少个非0的数据？

2025-03-09 14:52:27 911

原创 Gumbel Softmax重参数和SF估计（Score Function Estimator，VAE/GAN/Policy Gradient中的重参数）

We derive the probability density function of the Gumbel-Softmax distribution with probabilities π1,…,πk\pi_1, \ldots, \pi_kπ1,…,πk and temperature τ\tauτ. We first define the logits xi=log⁡πix_i = \log \pi_ixi=logπi, and Gumbel samples g1,…,gkg_1, \ld

2025-02-19 19:03:25 760

原创 Leetcode 523. Continuous Subarray Sum Prefix 坑

【代码】Leetcode 523. Continuous Subarray Sum Prefix 坑。

2025-02-16 11:05:14 408

原创 nn.EmbeddingBag把offsets之间的进行归约，offsets从0开始

在nn.EmbeddingBag中，mean模式会对输入索引对应的嵌入向量进行平均计算。根据输入索引查找对应的嵌入向量。根据偏移量将输入索引分成多个序列。对每个序列的嵌入向量进行平均计算。输出归约后的嵌入向量。通过这种方式，可以高效地处理变长序列的嵌入操作，并进行归约计算。

2025-02-15 13:45:36 823

原创对PosWiseFFN的改进： MoE、PKM、UltraMem

如果Attention的维度是d_model，通常PosWiseFFN模型结构就是2个矩阵中间加个Gelu，d_ff是d_model的4倍：第1个矩阵的weight是[d_model, 4*d_model]，第2个矩阵的的weight是[4*d_model, d_model]。

2025-02-14 23:51:15 1131

原创 RAG入门： RetroMAE、BGE、M3、MemoRAG

Lexical Retrieval：给定一个文本，获取语言模型最后一层上所有位置的隐状态，每个位置对应原始文本中的一个token，依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重，将所有每个token的隐状态*对应的权重再求和作为文本的稀疏表征（如果文本包含两个以上相同的token，则该token的权重取其中最大的权重值）。很熟悉的感觉吧，很像tfidf，也跟RetroMAE-V2的第二部分特征很相似，这部分特征更在意文本中各个token的信息，重要的token就赋予更高的权重。

2025-02-13 20:44:26 710

转载匈牙利匹配算法 linear_sum_assignment

值得注意的是，在DETR的代码（https://github.com/facebookresearch/detr/blob/29901c51d7fe8712168b8d0d64351170bc0f83e0/d2/detr/detr.py#L10）中，的。

2025-02-13 18:44:20 146

转载 LLM大模型对超长文本处理的技术方案汇总（NBCE、Unlimiformer）

理论上，大模型可以处理任意长度的问题长度，但受限于GPU显存和算力，过长的文本会使GPU出现OOM内存溢出及耗时过高，用户等待时长过长问题。目前工业界对超长文本的处理，大部分通过RAG的方式处理，也是业界比较流行的，但除RAG外其实也有两大类方法，主要是按是否需要重新对齐大模型的方式分为：不训练LLM大模型和训练LLM大模型参数，其实RAG也算是不需要重新对大模型训练的一种，RAG相关本文就不再赘述。

2025-02-11 23:45:15 471

原创 s1: Simple test-time scaling 阅读笔记

s1: Simple test-time scaling 实际上就是在s1K数据集上对Qwen2.5-32B-Instruct语言模型进行有监督微调（），并为其配备 “预算强制” 功能后，我们的模型s1-32B在竞赛数学问题（MATH 和 AIME24）上的表现比o1-preview高出27%

2025-02-10 11:41:50 376

原创 Continous Batching、Inflight Batching、Prefill Decode分离、SpecDecode

简单来说就是batch内的请求长度和回复长度长短不一，存在Early-Finished的情况，但是空占着GPU的情况。

2025-02-07 18:51:17 534

原创 python文件操作汇总

方便速查。

2025-01-27 17:54:49 300

转载 LCR 146. 螺旋遍历二维数组 Leetcode 54 和原地转 Leetcode 48旋转图像

螺旋遍历：从左上角开始，按照向右、向下、向左、向上的顺序依次提取元素，然后再进入内部一层重复相同的步骤，直到提取完所有元素。输入：array = [[1,2,3,4],[12,13,14,5],[11,16,15,6],[10,9,8,7]]输出：[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]输入：array = [[1,2,3],[8,9,4],[7,6,5]]输出：[1,2,3,4,5,6,7,8,9]

2025-01-27 17:02:42 31

原创 DPO、KTO、DiffusionDPO

原文来自于 https://arxiv.org/pdf/2305.18290，Bradley-Terry (BT)模型，假设人的喜欢遵循下面的公式，给定x，得到y1和y2分别遵循以下关系，其中r∗p∗y1≻y2∣xexpr∗xy1))expr∗xy2))expr∗xy1))除一下得到下面的形式，刚好是可以sigmoid形式p∗y1≻y2∣x1expr∗xy2。

2025-01-27 16:17:38 720

原创为什么现在的LLM都是Decoder-only的架构？

转载自 https://www.zhihu.com/question/588325646/answer/3357252612?

2025-01-01 17:22:59 705

原创 pytorch中torch.nn.functional.normalize、nn.norm和LayerNorm计算中的区别

v=vmax⁡(∥v∥p,ϵ)\mathbf{v} = \frac{\mathbf{v}}{\max\left(\|\mathbf{v}\|_p, \epsilon\right)}v=max(∥v∥p,ϵ)vnn.norm计算方式可以通过p参数指定是pro(Frobenium norm，其实就是平方和开根号)还是nuc（叫nuclear norm，其实就是SVD分解的奇异值，也就是Singular Value）LayerNorm计算方式分子减均值，分母对方差开根号，更多细节参考超细节的

2024-12-23 12:02:54 721

原创 HF beam search 代码精读、中文断句、PrefixConstrainedLogitsProcessor、BeamHypotheses

简单来说就是初始的时候把(bs, cur_seqlen)的input_ids序列repeat_interleave成(bs×beam_size, cur_seqlen)的形状，然后过模型得到(bs×beam_size, vocab_size)的next_token预测，再把next_token预测转换成(bs, beam_size×vocab_size)后取top beam_size，得到(bs, beam_size)的next_token预测。最后同时。

2024-12-15 16:57:49 864

原创 Leetcode 543. Diameter of Binary Tree

【代码】Leetcode 543. Diameter of Binary Tree。

2024-12-01 16:28:46 305

原创 Leetcode 2013. Detect Squares Take of care of dups

【代码】Leetcode 2013. Detect Squares Take of care of dups。

2024-12-01 15:03:13 1003

原创图片base64和PIL互相转换

【代码】图片base64和PIL互相转换。

2024-11-07 17:27:36 209

转载矩阵梯度推导

转载自https://zlearning.netlify.app/math/matrix/matrix-gradient.html。

2024-11-05 21:32:51 67

原创向量化召回算法ANN、IVF、HNSW、IVF-PQ

ANN（Approximate Nearest Neighbor）意为近似近邻搜索，即通过模型预计算，建立索引或图以便在线检索时通过剪枝或图检索从而加速检索过程，通常为非穷尽检索。目前常用的ANN 检索方式有 IVF, HNSW, BTree, IVF-PQ。

2024-10-27 23:40:25 1663

原创 nn.Parameter和nn.Linear、nn.ModuleList和nn.Sequential区别

self.weight = nn.Parameter(torch.FloatTensor(out_features, in_features)) 和self.weight = nn.Linear(in_features, out_features) 有什么区别？初始化方式不一样，nn.Parameter初始化方式需要指定，nn.Linear默认是Kaiming初始化nn.Linear默认有个bias

2024-10-21 23:42:19 195

原创局部敏感哈希 Shingling/minhash/LSH

局部敏感哈希（Locality-Sensitive Hashing, LSH）是一种算法技术，主要用于高维数据的相似性搜索和近似最近邻查询。LSH 的核心思想是通过构建一组哈希函数，确保相似的输入数据经过哈希变换后具有较高的概率会被映射到同一个哈希桶中。LSH 在解决高维数据空间中有效相似性搜索的问题上具有重要应用，尤其是在图像、音频、文档和生物信息等需要快速查询相似项的领域。

2024-09-18 17:43:23 1210

原创 Reproducible scaling laws for contrastive language-image learning

这篇scaling laws横轴是GMAC per sample x samples seen，“GMAC” 是"Giga Multiply-Accumulate" 的缩写，这是计算机部件/系统所能执行的运算量的一种度量方式。所以，一Giga MAC (GMAC) 可以表示一部分硬件在一秒内可以执行十亿次乘累加操作。整个论文中的scaling law是通过from scratch来验证的，Open CLIP有weights但是没有数据，OpenCLIP有数据，同时论文中用了LAION 5B的数据。

2024-06-04 13:44:22 348

CH09-virtual memory1

空空如也