LLM相关论文阅读笔记_崔高杰的博客-优快云博客

LLM相关论文阅读笔记

关注

文章平均质量分 93

关注数：文章数：10 文章阅读量：10897 文章收藏量：206

作者: 崔高杰

前大厂算法牛马，站位是把实验室成果转化到流水线上，自己也干点基于流水线需求的算法优化（trick达人）在金融行业干过时序建模，在工业领域干过动作识别，在福报厂干过行为序列和NLP。日常更点论文学习笔记和工程方案总结。

展开

On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分

本文是Anthropic团队基于Claude模型的模型解释工作，是对这篇On the Biology of Large Language Model阅读笔记的第二篇，专注于原文的数学计算部分

原创 2025-04-27 13:38:28 · 894 阅读 · 0 评论
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理

这篇文章是对Anthopic公司 Claude团队的LLM解释性研究工作 On the Biology of a Large Language Model的论文学习笔记的第一篇，这篇里主要介绍了解释工具CLT（cross-layer Transcoder的构造和LLM里面进行知识推理的方案

原创 2025-04-23 21:22:08 · 1462 阅读 · 0 评论
LEARNING DYNAMICS OF LLM FINETUNING【论文阅读笔记】

本文是对ICLR上一篇中稿文章 Learning Dynamic of LLM FineTuning的阅读笔记。本文简述了论文的结论，并详细拆解了文章中的关键事实，对理解LLM的post-train的机制有很好的帮助。

原创 2025-04-11 14:17:00 · 1090 阅读 · 0 评论
I Have Covered All the Bases Here-Interpreting Reasoning Features in Large Language Models SAE【论文笔记】

本文是对论文I Have Covered All the Bases Here- Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders 的学习笔记，这个文章揭示了Transformer模型做推理的时候的一种机制

原创 2025-03-28 13:59:08 · 757 阅读 · 0 评论
s1: Simple test-time scaling 【论文阅读笔记】

这篇文章是对文章 s1:Simple test-time scaling的阅读笔记，同时增加了相关方法（包括一篇蚂蚁的综述论文和一篇Google的方法论文的简报。）能够给人一个time-time scaling常见做法的直观解释

原创 2025-03-25 12:08:16 · 1173 阅读 · 0 评论
Transformers without Normalization 论文阅读笔记

本文是对Transformers without Normalization这篇文章的阅读笔记。包括论文的主要内容，和作者的一些想法。Transformer作为LLM（大语言模型）的基础结构，其中的Normalization步骤是长期验证过有效的模块。这篇论文研究了一种替代方案

原创 2025-03-18 21:15:28 · 1175 阅读 · 0 评论
【一周论文速度笔记】推理步骤对COT数据的正确性+如何挑选质量好的数据

包括本周速读的三篇文章，LLMs Can Easily Learn to Reason from DemonstrationsStructure, not content, is what matters!Predictive Data Selection: The Data That Predicts Is the Data That Teaches，和Compression Represents Intelligence Linearly

原创 2025-03-05 15:11:29 · 1005 阅读 · 0 评论
【一周论文速读笔记】LLM中标点符号的作用LLM-Microscope: Uncovering the Hidden Role of Punctuation

本周速读的两篇文章，一篇是关于标点符号在LLM中作用的，一篇是Lora能承载多少知识的

原创 2025-02-28 13:42:26 · 871 阅读 · 0 评论
【论文阅读笔记】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

本文详述了deepseek关于Native Sparse Attention中关于transformer运算上的改造

原创 2025-02-26 14:55:05 · 1392 阅读 · 0 评论
【LIMO- Less is More for Reasoning 阅读笔记和观后感】

总结和分析了LIMO和LIMA两篇文章的要点，微吐槽向

原创 2025-02-21 13:40:52 · 1081 阅读 · 0 评论

LLM相关论文阅读笔记

作者: 崔高杰

On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分

On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理

LEARNING DYNAMICS OF LLM FINETUNING【论文阅读笔记】

I Have Covered All the Bases Here-Interpreting Reasoning Features in Large Language Models SAE【论文笔记】

s1: Simple test-time scaling 【论文阅读笔记】

Transformers without Normalization 论文阅读笔记

【一周论文速度笔记】推理步骤对COT数据的正确性+如何挑选质量好的数据

【一周论文速读笔记】LLM中标点符号的作用LLM-Microscope: Uncovering the Hidden Role of Punctuation

【论文阅读笔记】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

【LIMO- Less is More for Reasoning 阅读笔记和观后感】