自然语言处理
文章平均质量分 77
nlp相关知识
zhurui_xiaozhuzaizai
想要浓密的秀发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型知识蒸馏的方法: DeepSeek, Llama 4 & Gemma 3中使用的技术
在用于按物种对动物图像进行分类的模型中,最早的隐藏层可能只是辨别照片的一部分中存在动物形状;捕捉样本之间的关系或特征间的关联性,例如通过对比学习的方式传递相似性信息。这些关系和相关性可以通过多种方式进行建模,包括特征图之间的相关性、表示不同层之间相似性的矩阵、特征嵌入或特征表示的概率分布。例如,在主要用于图像分割等计算机视觉任务的卷积神经网络中,随着数据在网络中传输,每个连续的隐藏层都会逐渐捕获更丰富的细节。同时也将相同的数据输入未经训练的学生模型,获取它的 softmax 概率分布。原创 2025-11-24 17:12:10 · 506 阅读 · 0 评论 -
测试时扩展,如何选择最优扩展策略,COT,自洽性解码,思维树,MCTS
这个公式表示,总的验证分数是所有验证器评分的乘积。验证器增强推理 是一种通过使用验证器(Verifier)来检查模型生成的答案的正确性,从而提高推理准确率的技术。事实验证器:知识库检索验证。例如,可以使用知识库来检索相关信息,然后判断模型生成的答案是否与知识库中的信息一致。乘积的原因:使用乘积的原因是,如果有一个验证器的评分很低,则总的验证分数也会很低,这表示答案的可靠性较低。其他组合方式:除了乘积之外,还可以使用其他的组合方式,例如,加权平均。可以构建一个多层验证体系,对模型生成的答案进行多方面的验证。原创 2025-11-21 11:54:37 · 261 阅读 · 0 评论 -
TPO:推理时即时偏好对齐的新方案
论文地址:上海人工智能实验室提出 Test-Time Preference Optimization(测试时偏好优化,TPO)。传统训练时对齐方法(例如RLHF和DPO):需要训练一句话总结:TPO让大模型在每次回答时通过迭代的文本反馈自行调整输出,实现了无需更新模型权重的。原创 2025-08-14 17:13:30 · 1067 阅读 · 0 评论 -
测试时对齐方法
BONQALIGN。原创 2025-07-27 21:08:35 · 132 阅读 · 0 评论 -
测试时计算策略(BON, stepwiseBON, beamsearch, lookahead,混合方法,计算最优扩展,过程奖励模型引导,多数投票)
测试时计算策略原创 2024-12-25 17:10:28 · 1521 阅读 · 0 评论 -
mamba->jamba
mamba模型原创 2024-04-17 15:14:48 · 2946 阅读 · 0 评论 -
知识蒸馏介绍
知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由Hinton在2015年首次在文章《Distilling the Knowledge in a Neural Network》中提出并应用在分类任务上面,这个复杂模型我们称之为teacher(教师模型),小模型我们称之为Student(学生模型)。原创 2024-10-10 16:30:04 · 1761 阅读 · 0 评论 -
大模型LLM相关面试题整理
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。原创 2023-10-20 14:12:32 · 6370 阅读 · 0 评论 -
大模型LLM相关面试题整理-训练集-训练经验-微调
综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。原创 2023-10-17 19:55:35 · 4766 阅读 · 1 评论 -
大模型LLM相关面试题整理-PEFT
PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。原创 2023-10-17 19:40:51 · 1796 阅读 · 4 评论 -
大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm
绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。原创 2023-10-17 19:37:10 · 2313 阅读 · 0 评论 -
算法一些面试题整理
1.自己项目有关模型的相关问题如:项目整体流程、网络结构、 论文的实验是怎么做的、你的贡献是什么、创新点在哪里、遇到哪些问题是怎么解决的2.过拟合和欠拟合的表现及解决方法怎样判断过拟合欠拟合过拟合【泛化能力差】欠拟合:【训练和预测时表现都不好】方差和偏差的解释欠拟合会导致高 Bias ,过拟合会导致高 Variance产生原因:【训练数据一般都是现实练数据的子集。并且样本中存在噪声数据,由于采样错误,导致样本的数据不能正确的反应现实场景和业务】【模型太复杂,过度的学习到了样本里的噪声数据,并.原创 2021-02-19 10:20:22 · 490 阅读 · 0 评论 -
面试题相关
20年校招DL/NLP/推荐系统/ML/算法基础面试必看300问及答案下载地址https://github.com/sladesha/Reflection_Summarybagging和boosting区别:https://www.cnblogs.com/earendil/p/8872001.html原创 2021-02-17 10:54:16 · 97 阅读 · 0 评论
分享