- 博客(868)
- 资源 (1)
- 收藏
- 关注
原创 DyT (Transformers without Normalization)
省流版: DyT 的灵感来自于这样一个观察结果,即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后,没有归一化的 Transformers 在大多数情况下无需调整超参数,就能达到或超过归一化对应层的性能。因此DyT是LayerNorm/RMSNorm在Transformer类模型中的平替,但是在CNN中替换BatchNorm效果下降比较多。
2025-04-02 07:50:10
155
原创 DeepSeek总结常用的CoT方法(ToT、GoT)
常用的CoT(Chain-of-Thought,思维链)方法通过引导大语言模型生成中间推理步骤,显著提升了复杂任务的解决能力。
2025-04-02 05:11:26
263
原创 DeepSeek 汇总一下PRM和ORM的主要论文
PRM的核心创新在于通过逐步骤反馈优化模型推理路径,而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本(如隐式学习、自动标注)和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制,以及面向工业场景的端到端优化框架。如需具体论文链接或进一步解读,可参考上述文献的原始出处。
2025-04-02 05:10:10
292
原创 DeepSeek 如何系统性的解决大模型的幻觉问题?
系统性解决幻觉需构建“数据-模型-知识-评估”的闭环:通过RAG和CoT增强事实性,动态知识库减少信息滞后,多智能体路由提升专业性,解码控制抑制语义漂移。未来需进一步探索模型自我纠错能力与跨模态证据融合,以实现更高可靠性。要系统性解决大模型的“幻觉”问题(即生成看似合理但实际错误的信息),需从数据优化、模型训练、知识管理、推理控制等多层面构建闭环解决方案。
2025-04-02 03:28:14
282
原创 Leetcode 1976. Number of Ways to Arrive at Destination 带重复的Dijstrala BFS等价
重复的dijstrla
2025-03-31 15:13:07
837
原创 PyTorch DDP流程和SyncBN、ShuffleBN
MoCo V1中就使用了Shuffling BN的操作。BN大部分的时候是在当前GPU上算的,使用BN的时候BN的running mean和runnning variance很容易让模型找到正确的解。Shuffling BN就是算之前先把样本顺序打乱,送到多卡上,算完再合在一起。,实际上就是把各块卡搜集到的均值和方差汇总起来。PyTorch DDP中的BN同步通过 all_gather 原语实现全局统计量聚合,既保证了多卡训练的一致性,又通过优化通信量避免了性能瓶颈。
2025-03-29 08:10:24
273
转载 GPU Utilization/SM Activity/SM Active/SM Occupancy
对应 DCGM 的 DCGM_FI_PROF_GR_ENGINE_ACTIVE,表示在一个时间间隔内 Graphics 或 Compute 引擎处于 Active 的时间占比。Active 时间比例越高,意味着 GPU 在该周期内越繁忙。该值比较低表示一定没有充分利用 GPU,比较高也不意味着已经充分利用 GPU。
2025-03-29 06:22:45
16
原创 Token压缩思路和代码赏析(ToMe: TOKEN MERGING: YOUR VIT BUT FASTER)
简单来说把一个token区别拆分成a, b = metric[…, ::2, :], metric[…, 1::2, :]这两部分,然后两部分做bipartite soft matching。n2。
2025-03-18 21:17:37
433
原创 稀疏矩阵乘法非零个数的期望
n*n的稀疏矩阵,平均每行每列都有m个非0的数,n>>m。如果A和B都是上述类型矩阵,那么C=A@B ,C平均每行有多少个非0的数据?
2025-03-09 14:52:27
911
原创 Gumbel Softmax重参数和SF估计(Score Function Estimator,VAE/GAN/Policy Gradient中的重参数)
We derive the probability density function of the Gumbel-Softmax distribution with probabilities π1,…,πk\pi_1, \ldots, \pi_kπ1,…,πk and temperature τ\tauτ. We first define the logits xi=logπix_i = \log \pi_ixi=logπi, and Gumbel samples g1,…,gkg_1, \ld
2025-02-19 19:03:25
760
原创 Leetcode 523. Continuous Subarray Sum Prefix 坑
【代码】Leetcode 523. Continuous Subarray Sum Prefix 坑。
2025-02-16 11:05:14
408
原创 nn.EmbeddingBag把offsets之间的进行归约,offsets从0开始
在nn.EmbeddingBag中,mean模式会对输入索引对应的嵌入向量进行平均计算。根据输入索引查找对应的嵌入向量。根据偏移量将输入索引分成多个序列。对每个序列的嵌入向量进行平均计算。输出归约后的嵌入向量。通过这种方式,可以高效地处理变长序列的嵌入操作,并进行归约计算。
2025-02-15 13:45:36
823
原创 对PosWiseFFN的改进: MoE、PKM、UltraMem
如果Attention的维度是d_model,通常PosWiseFFN模型结构就是2个矩阵中间加个Gelu,d_ff是d_model的4倍:第1个矩阵的weight是[d_model, 4*d_model],第2个矩阵的的weight是[4*d_model, d_model]。
2025-02-14 23:51:15
1131
原创 RAG入门: RetroMAE、BGE、M3、MemoRAG
Lexical Retrieval:给定一个文本,获取语言模型最后一层上所有位置的隐状态,每个位置对应原始文本中的一个token,依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重,将所有每个token的隐状态*对应的权重再求和作为文本的稀疏表征(如果文本包含两个以上相同的token,则该token的权重取其中最大的权重值)。很熟悉的感觉吧,很像tfidf,也跟RetroMAE-V2的第二部分特征很相似,这部分特征更在意文本中各个token的信息,重要的token就赋予更高的权重。
2025-02-13 20:44:26
710
转载 匈牙利匹配算法 linear_sum_assignment
值得注意的是,在DETR的代码(https://github.com/facebookresearch/detr/blob/29901c51d7fe8712168b8d0d64351170bc0f83e0/d2/detr/detr.py#L10)中,的。
2025-02-13 18:44:20
146
转载 LLM大模型对超长文本处理的技术方案汇总(NBCE、Unlimiformer)
理论上,大模型可以处理任意长度的问题长度,但受限于GPU显存和算力,过长的文本会使GPU出现OOM内存溢出及耗时过高,用户等待时长过长问题。目前工业界对超长文本的处理,大部分通过RAG的方式处理,也是业界比较流行的,但除RAG外其实也有两大类方法,主要是按是否需要重新对齐大模型的方式分为:不训练LLM大模型和训练LLM大模型参数,其实RAG也算是不需要重新对大模型训练的一种,RAG相关本文就不再赘述。
2025-02-11 23:45:15
471
原创 s1: Simple test-time scaling 阅读笔记
s1: Simple test-time scaling 实际上就是在s1K数据集上对Qwen2.5-32B-Instruct语言模型进行有监督微调(),并为其配备 “预算强制” 功能后,我们的模型s1-32B在竞赛数学问题(MATH 和 AIME24)上的表现比o1-preview高出27%
2025-02-10 11:41:50
376
原创 Continous Batching、Inflight Batching、Prefill Decode分离、SpecDecode
简单来说就是batch内的请求长度和回复长度长短不一,存在Early-Finished的情况,但是空占着GPU的情况。
2025-02-07 18:51:17
534
转载 LCR 146. 螺旋遍历二维数组 Leetcode 54 和 原地转 Leetcode 48旋转图像
螺旋遍历:从左上角开始,按照 向右、向下、向左、向上 的顺序 依次 提取元素,然后再进入内部一层重复相同的步骤,直到提取完所有元素。输入:array = [[1,2,3,4],[12,13,14,5],[11,16,15,6],[10,9,8,7]]输出:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]输入:array = [[1,2,3],[8,9,4],[7,6,5]]输出:[1,2,3,4,5,6,7,8,9]
2025-01-27 17:02:42
31
原创 DPO、KTO、DiffusionDPO
原文来自于 https://arxiv.org/pdf/2305.18290,Bradley-Terry (BT)模型,假设人的喜欢遵循下面的公式,给定x,得到y1和y2分别遵循以下关系,其中r∗p∗y1≻y2∣xexpr∗xy1))expr∗xy2))expr∗xy1))除一下得到下面的形式,刚好是可以sigmoid形式p∗y1≻y2∣x1expr∗xy2。
2025-01-27 16:17:38
720
原创 为什么现在的LLM都是Decoder-only的架构?
转载自 https://www.zhihu.com/question/588325646/answer/3357252612?
2025-01-01 17:22:59
705
原创 pytorch中torch.nn.functional.normalize、nn.norm和LayerNorm计算中的区别
v=vmax(∥v∥p,ϵ)\mathbf{v} = \frac{\mathbf{v}}{\max\left(\|\mathbf{v}\|_p, \epsilon\right)}v=max(∥v∥p,ϵ)vnn.norm计算方式可以通过p参数指定是pro(Frobenium norm,其实就是平方和开根号)还是nuc(叫nuclear norm,其实就是SVD分解的奇异值,也就是Singular Value)LayerNorm计算方式分子减均值,分母对方差开根号,更多细节参考 超细节的
2024-12-23 12:02:54
721
原创 HF beam search 代码精读、中文断句、PrefixConstrainedLogitsProcessor、BeamHypotheses
简单来说就是初始的时候把(bs, cur_seqlen)的input_ids序列repeat_interleave成(bs×beam_size, cur_seqlen)的形状,然后过模型得到(bs×beam_size, vocab_size)的next_token预测,再把next_token预测转换成(bs, beam_size×vocab_size)后取top beam_size,得到(bs, beam_size)的next_token预测。最后同时。
2024-12-15 16:57:49
864
原创 Leetcode 543. Diameter of Binary Tree
【代码】Leetcode 543. Diameter of Binary Tree。
2024-12-01 16:28:46
305
原创 Leetcode 2013. Detect Squares Take of care of dups
【代码】Leetcode 2013. Detect Squares Take of care of dups。
2024-12-01 15:03:13
1003
原创 向量化召回算法ANN、IVF、HNSW、IVF-PQ
ANN(Approximate Nearest Neighbor) 意为近似近邻搜索,即通过模型预计算,建立索引或图以便在线检索时通过剪枝或图检索从而加速检索过程,通常为非穷尽检索。目前常用的ANN 检索方式有 IVF, HNSW, BTree, IVF-PQ。
2024-10-27 23:40:25
1663
原创 nn.Parameter和nn.Linear、nn.ModuleList和nn.Sequential区别
self.weight = nn.Parameter(torch.FloatTensor(out_features, in_features)) 和self.weight = nn.Linear(in_features, out_features) 有什么区别?初始化方式不一样,nn.Parameter初始化方式需要指定,nn.Linear默认是Kaiming初始化nn.Linear默认有个bias
2024-10-21 23:42:19
195
原创 局部敏感哈希 Shingling/minhash/LSH
局部敏感哈希(Locality-Sensitive Hashing, LSH)是一种算法技术,主要用于高维数据的相似性搜索和近似最近邻查询。LSH 的核心思想是通过构建一组哈希函数,确保相似的输入数据经过哈希变换后具有较高的概率会被映射到同一个哈希桶中。LSH 在解决高维数据空间中有效相似性搜索的问题上具有重要应用,尤其是在图像、音频、文档和生物信息等需要快速查询相似项的领域。
2024-09-18 17:43:23
1210
原创 Reproducible scaling laws for contrastive language-image learning
这篇scaling laws横轴是GMAC per sample x samples seen,“GMAC” 是"Giga Multiply-Accumulate" 的缩写,这是计算机部件/系统所能执行的运算量的一种度量方式。所以,一Giga MAC (GMAC) 可以表示一部分硬件在一秒内可以执行十亿次乘累加操作。整个论文中的scaling law是通过from scratch来验证的,Open CLIP有weights但是没有数据,OpenCLIP有数据,同时论文中用了LAION 5B的数据。
2024-06-04 13:44:22
348
原创 BPE、Wordpiece、Unigram、SpanBERT等Tokenizer细节总结
这部分部分摘录自https://martinlwx.github.io/zh-cn/the-bpe-tokenizer/max01len。
2024-04-27 23:55:03
2006
1
原创 pytorch view、expand、transpose、permute、reshape、repeat、repeat_interleave、gather、scatter
【代码】pytorch view、expand、transpose、permute、reshape。
2024-04-11 17:56:25
1294
原创 kvcache原理、参数量、代码详解
kvcache一句话来说就是把。训练的时候不需要保存。推理解码生成时都是自回归auto-regressive的方式,也就是每次生成一个token,都要依赖之前token的结果。如果没生成一个token的时候乘以W_K,W_V这俩参数矩阵要对所有token都算一遍,代价非常大,所以缓存起来就叫kvcache。举个例子,假如prompt=“The largest city of China is”,输入是6个tokens,返回是"Shang Hai"这两个tokens。
2024-04-08 00:21:52
13636
7
原创 [WIP]Sora相关工作汇总VQGAN、MAGVIT、VideoPoet
视觉任务相对语言任务种类较多(detection, grounding, etc.)、粒度不同 (object-level, patch-level, pixel-level, etc.),且部分任务差异较大,利用,目前SOTA工作MAGVIT-v2,VideoPoet。
2024-04-06 16:17:05
1587
原创 小于n的最大数 Leetcode 902 Numbers At Most N Given Digit Set
这两个题目的写法差别还比较大。
2024-03-31 16:26:47
1979
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人