自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (7)
  • 收藏
  • 关注

原创 LLM综述笔记4:如何做大模型微调

文章摘要: 本文探讨了大语言模型(LLM)的两种后训练方法:指令微调和对齐微调。指令微调通过构建格式化指令样本(任务描述、输入/输出、示例)增强模型任务能力,数据来源包括NLP任务数据集、日常聊天数据及合成数据,关键因素包括指令规模、格式设计、质量改进与筛选策略。优化方法涵盖数据分布平衡、结合预训练、多阶段微调等。对齐微调则聚焦于使模型行为符合人类价值观(有用性、诚实性、无害性),需通过人类反馈(如红队测试)优化,但存在对齐代价问题。两种方法显著提升了LLM的泛化能力、领域适应性与安全性,为实际应用奠定基础

2025-08-09 11:53:31 1184

原创 LLM综述笔记3:模型和预训练

本文综述了大型语言模型(LLM)预训练中的关键数据处理技术。预训练语料包括通用文本(网页、书籍、对话)和专用数据(多语种、科学、代码),其质量直接影响模型能力。数据预处理包括过滤去重(基于分类器和启发式规则)、隐私保护及分词(BPE/WordPiece/Unigram)。合理的数据调度策略(混合比例和训练顺序)对模型性能提升至关重要。研究表明,高质量数据清洗比数据规模更重要,可提升模型稳定性和安全性。该领域仍需针对多源异构数据开发更高效的预处理方法。

2025-08-03 10:48:07 1278

原创 LLM综述笔记2:大语言模型的资源

本文总结了当前可公开获取的大语言模型(LLM)开发资源,包括模型权重、API接口、预训练语料和工具库。重点介绍了LLaMA、Mistral、Gemma、Qwen等主流开源模型的特点和性能,以及OpenAI的API接口。在预训练语料方面,系统梳理了网页(CommonCrawl、C4等)、书籍(BookCorpus)、维基百科、代码(The Stack)等五大类语料资源及其应用场景。这些公开资源为研究人员进行LLM增量开发或实验研究提供了重要参考。

2025-07-30 11:30:08 939

原创 LLM综述笔记1:总览

本文系统梳理了语言模型的发展历程,将其划分为统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)和大语言模型(LLM)四个阶段。重点探讨了大语言模型的两个核心特征:扩展法则(Scaling Laws)和涌现能力(Emergent Abilities)。研究显示,模型性能随规模扩大呈幂律提升,但存在边际收益递减现象;而LLM在达到临界规模后会突然展现出小模型不具备的新能力,如上下文学习、复杂推理等。文章还分析了当前LLM研究面临的三大挑战:涌现能力的机理不明、训练资源门槛过高,以及价值对齐

2025-07-29 10:47:08 1318

信号处理教程 (digital signal processing)

数字信号处理(digital signal processing),简称DSP,是指用数学和数字计算来解决问题。 大学里,数字信号处理常指用数字表示和解决问题的理论和技巧;而DSP也是数字信号处理器(digital signal processor)的简称,是一种可编程计算机芯片,常指用数字表示和解决问题的技术和芯片。

2019-01-02

强化学习 教材 Reinforcement learning is an area of Machine Learning.

Reinforcement learning is an area of Machine Learning. Reinforcement. It is about taking suitable action to maximize reward in a particular situation. It is employed by various software and machines to find the best possible behavior or path it should take in a specific situation.

2019-01-02

Numerical Analysis

内容涉及数值计算方法的数学基础、数值计算方法在工程、科学和数学问题中的应用以及所有数值方法的MATLAB 程序等,涵盖了经典数值分析的全部内容。包括:非 ...

2019-01-02

Numerical Analysis Sauer

Timothy Sauer earned his Ph.D. in mathematics at the University of California–Berkeley in 1982, and is currently a professor at George Mason University. He has ...

2019-01-02

算法导论英文版

《算法导论》是基础算法方面最权威、最详细的著作之一,在很多国际著名大学被用于算法课的教材。诸多算法方面的论文将其列入参考文献当中。 该书详细的介绍了诸多常见的算法及数据结构,并用严谨的证明来论证其正确性。每个章节均有例题,适合学习者深入理解。第一版刊行于1990年,2009年最新版为第三版。

2019-01-02

统计学习方法

统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主. 要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、 ...

2019-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除