- 博客(69)
- 收藏
- 关注
原创 NLP论文速读|我们可以用CoT生成图像吗?让我们一步一步验证和加强图像生成
研究者们首先探索了测试时验证(Test-time Verification)技术,通过引入Outcome Reward Model(ORM)和Process Reward Model(PRM)作为验证器,分别对最终生成图像和中间步骤图像进行评估,以选择最优的生成路径。这些结果表明,测试时验证(尤其是ORM)和偏好对齐(DPO)都能有效提升图像生成的质量,且迭代DPO在优化模型生成能力方面具有更大的潜力。论文链接:https://arxiv.org/pdf/2501.13926?
2025-02-10 12:40:41
323
原创 NLP论文速读(ICLR 2025)|在实时机器翻译中对齐人类偏好
此外,现有的偏好对齐方法主要关注生成内容的优化,忽略了 SiMT 中与延迟相关的人类偏好以及对读写策略的优化。Table 1在使用无参考的COMET分数评估标注的参考翻译与GPT-4/4o生成的翻译以及原始参考翻译的质量方面,所得到的结果显示:标注的参考翻译在所有语言对上都与原始参考翻译具有相似的COMET分数,这表明标注的参考翻译在质量上与原始参考翻译相当。基于现有的语言学和计算语言学研究,将 SiMT 场景中的人类偏好分为五个方面:翻译质量偏好、单调性偏好、关键点偏好、简单性偏好和延迟偏好。
2025-02-09 11:46:36
889
原创 NLP论文速读|S1: 简单的测试时间缩放
近年来,语言模型(LMs)的性能提升主要依赖于训练时计算资源的大幅扩展,尤其是大规模的自监督预训练。通过多次添加“Wait”字符串(2 次、4 次、6 次)来强制模型继续思考,可以看到模型性能进一步提升,但随着思考次数的增加,性能提升逐渐趋于平缓。为了增强数据的多样性,作者还创建了两个新的数据集:s1-prob(斯坦福大学统计系的博士资格考试问题)和s1-teasers(面试中常用的数学谜题)。具体来说,它通过强制模型在达到预设的思考步数时结束思考过程,或者通过添加“Wait”字符串来延长模型的思考时间。
2025-02-08 12:03:47
749
原创 NLP论文速读(ICLR 2025)|重新思考奖励模式评估:我们找错对象了吗?
然而,构建一个完美捕捉人类偏好的奖励模型是非常困难的,因此实际中的奖励模型往往是不完美的代理(proxy)。目前,奖励模型的评估主要依赖于在验证集上计算准确率(accuracy),但准确率与下游策略性能之间的关系尚未被充分研究。通过比较代理模型与金色标准模型之间的误差(用准确率衡量),以及优化策略与理想策略之间的性能差距(用归一化下降比率NDR衡量),分析两者之间的关系。Figure 3展示了论文实验部分中奖励模型(RM)的准确率与策略性能差距(policy regret)之间的关系。
2025-02-08 11:46:28
364
原创 NLP论文速读(ICLR 2025)|LLM对齐中的综合基准奖励模型
生成式模型(如GPT-4o、Claude-3-5-sonnet等)在成对评估中普遍表现较好,但在Best-of-N评估中,部分生成式模型(如Skywork-Critic-Llama3.1-70B)表现更为突出,显示出生成式模型在复杂选择任务中的潜力。2)评估方法的改进:提出一种新的“Best-of-N”(BoN)评估范式,以弥补传统成对评估的不足,更直接地评估奖励模型在对齐任务中的作用。本文提出了一个综合性的奖励模型基准(RMB),涵盖了49个真实世界场景,包括成对评估和Best-of-N评估。
2025-02-07 23:27:21
840
原创 NLP论文速读(ACL 2024)|一个指令微调的开放多语言模型(Aya Model: An Instruction Finetuned Open-Access Multilingual ……)
这导致了NLP模型在资源丰富的语言之外的性能差距扩大,模型在模仿训练分布时表现更好,而对于训练中未包含的语言则存在已知的偏见,以及对所有用户的关键安全和安全缺陷。这个指令混合包括了超过50%的资源较少的语言,显著扩展了训练数据的覆盖范围,并且比最近提出的多语言IFT数据集(如xP3)大2.5倍,包含203M个数据点。通过扩展训练数据的覆盖范围和优化数据质量,Aya 模型在多语言任务中取得了显著的性能提升,为多语言模型的发展提供了一个新的方向。
2025-01-17 10:48:11
572
原创 NLP论文速读(ICML 2024)|通过人的反馈实现质量多样性(Quality Diversity through Human Feedback:Towards Open-Ended ……)
使用对比学习策略,通过优化潜空间中的距离关系,使相似的嵌入更接近,不相似的嵌入更远离。具体来说,给定三个潜空间嵌入,如果人类判断第一个嵌入与第二个嵌入比与第三个嵌入更相似,那么就优化潜空间中的距离,使第一个和第二个嵌入的距离变小,而与第三个嵌入的距离变大。潜空间中的每个维度代表一个多样性指标,这些维度的大小和方向捕捉了不同的多样性概念,提供了一个紧凑且信息丰富的输入表示。本文旨在结合这两种方法的优势,提出一种新的方法,通过人类反馈来推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。
2025-01-15 11:45:25
1498
原创 NLP论文速读(ICLR 2024)|将大型语言模型与进化算法连接起来,可以产生强大的提示优化器(Connecting large language models with ……)
本文希望通过结合LLMs的语言处理能力和EAs的优化能力,提出一种新的框架,既能自动化提示优化过程,又能保持提示的连贯性和可读性,从而提高LLMs在各种任务中的性能。1)初始化提示群体:初始提示群体包括手动设计的提示和LLMs生成的提示,以结合人类的智慧和模型的多样性。从表1和表2的结果可以看出:与手动设计的提示和现有方法相比,EVOPROMPT在多个任务上显著优于手动设计的提示(MI)和现有的自动提示生成方法(如APE和APO)。本文提出了一种名为EVOPROMPT的新型框架,用于离散提示优化。
2025-01-13 23:42:45
701
原创 NLP论文速读(ICML2024)|迭代数据平滑(Iterative Data Smoothing: Mitigating Reward Overfitting and ……)
对于频繁出现的样本对,IDS能够准确估计奖励,而对于不常见的样本对,估计的奖励保持在初始化值附近,从而隐式地惩罚不确定性较高的样本。Figure 2展示了在多臂老虎机(multi-armed bandit)设置中的实验结果,这些实验旨在比较三种不同的方法:传统的最大似然估计(MLE)、悲观最大似然估计(Pessimistic MLE)和本文提出的迭代数据平滑方法。通过Figure 2中的实验结果,论文得出结论,IDS方法在多臂老虎机设置中有效地解决了奖励过拟合和过度优化的问题。
2025-01-12 14:10:20
398
原创 NLP论文速读|基于主动检索的渐进多模态推理
然而,现有的方法在推理路径扩展和模拟过程中存在局限性,尤其是在多模态场景中,模型内部知识不足以支持推理路径扩展,因为不同模态输入之间的交互常常出现错位。为了克服这些挑战,本文提出了一种结合主动检索(AR)和蒙特卡洛树搜索(MCTS)的框架,以期通过检索外部知识来增强推理路径扩展的质量,并改善MLLMs在复杂多模态推理中的能力。与较强的模型相比,较弱的MLLMs(如Qwen2-VL-7B)在使用AR-MCTS后显示出显著的性能提升,这表明AR-MCTS能够更有效地释放较弱MLLMs的推理潜力。
2025-01-06 23:36:25
665
原创 【元旦快乐】NLP论文速读|视觉超级对齐:面向视觉基础奖励模型的弱到强泛化(Vision Superalignment: Weak-to-Strong Generalization for……)
随着神经网络在多个领域展现出超越人类性能的能力,研究社区开始关注如何控制、评估和优化这些异常强大的模型,认识到它们在推进我们对人工智能的理解和应用方面的巨大潜力。本文的动机在于现有的深度学习范式,即教师-学生学习模式,通常涉及一个较强的模型(教师)提高一个较弱模型(学生)的性能。这表明AdaptConf方法能够有效地利用弱模型的指导来提升强模型的性能。本文的动机是探索在视觉领域中,弱模型如何有效地指导强模型,并通过实验验证WSG在视觉领域的可行性,并提出一种改进的、适应性的信心方案来增强WSG的有效性。
2025-01-01 00:00:14
599
原创 NLP论文速读(NeurIPS 2024)|BERT作为生成式上下文学习者BERTs are Generative In-Context Learners
在GPT-3引入上下文学习后,这种能力使得模型能够从提示和示例中推断并执行任务,而无需特定的任务训练数据和深度学习专业知识,这使得这类模型在实际应用中更为实用。本文挑战了这种普遍的假设,即上下文学习的能力仅限于因果语言模型,并展示了掩蔽语言模型同样能够展现出这种能力。根据Table 1的内容,该论文的实验部分主要关注了自然语言理解任务的性能比较,特别是针对掩蔽语言模型DeBERTa和因果语言模型GPT-3在SuperGLUE基准测试上的表现。通过循环重复此过程,以生成文本,类似于因果语言模型。
2024-12-31 00:04:22
1073
原创 NLP论文速读(EMNLP 2024)|增强语言模型一致性:一种基于置信度的标签平滑方法Enhancing Language Model Alignment: A Confidence-Base ……
本文通过理论分析,揭示了标签平滑参数与置信度的关系,并提出了一种新的方法,即置信度感知标签平滑(Confidence Aware Label Smoothing, CALS),以期在训练动态和均衡中实现更稳定和保守的梯度更新,从而提高模型与人类偏好的对齐度。在CALS中,梯度更新既考虑了偏好标签的置信度,也考虑了模型预测的正确性。这些结果表明,CALS方法在逻辑回归任务中能够有效地提高模型的泛化能力,并且在不同的维度设置下都能保持较低的测试损失,证明了CALS方法在提高模型与人类偏好对齐方面的潜力。
2024-12-30 04:00:00
774
原创 NLP论文速读(NeurIPS 2024)|树状结构两阶段推荐系统的泛化误差边界Generalization Error Bounds for Two-stage Recommender System
通过分析树结构检索器和排序器的泛化误差,文章旨在揭示如何通过增加树结构中的分支数量和协调不同阶段之间的分布来增强两阶段推荐系统的泛化性能。具体来说,文章使用Rademacher复杂度作为工具,来建立各种基于树的检索器使用束搜索时的泛化上界,以及在移位训练分布下不同排序器模型的泛化上界。实验结果表明,增加树结构检索器中的分支数量和在协调分布上训练排序器可以提高两阶段推荐系统的泛化性能。对于排序器,文章分析了在训练分布和推理分布不一致时排序器模型的泛化误差,并提出了通过协调分布来提高泛化性能的方法。
2024-12-28 00:14:17
673
原创 NLP论文速读(ICML 2024)|解决在RLHF出现的奖励黑客问题(Disentangled Reward Mitigates Hacking in RLHF )
RLHF 是一种技术,它通过训练奖励模型(Reward Model, RM)来学习人类对给定提示的响应的偏好,然后通过强化学习训练语言模型以生成最大化学到的奖励的响应。特别是在响应长度较长时,ODIN 训练的模型相比其他方法有更高的赢分,表明其生成的响应不仅长度更短,而且质量更高。(Disentangled Reward Mitigates Hacking in RLHF)的方法,通过联合训练两个线性头在共享特征表示上预测奖励,一个训练与长度相关,另一个训练与长度去相关,从而更多地关注实际内容。
2024-12-27 00:20:17
423
原创 NLP论文速读(NeurIPS 2024)|减少RLHF中的奖励黑客行为
作者发现,在InfoRM的IB潜在空间中,奖励过度优化与大量异常值的出现之间存在相关性,而在没有IB的RM中没有观察到这种现象。因此,本文提出了一个新的奖励建模框架,旨在通过信息论的方法来过滤掉与人类偏好无关的信息,从而提高模型的泛化能力,并减少奖励过度优化现象。通过广泛的实验,作者证明了InfoRM在不同设置和RM规模(70M、440M、1.4B和7B)下的有效性,并且进一步分析表明,InfoRM的过度优化检测机制不仅有效,而且能够在广泛的数据集上稳健工作,标志着RLHF领域的一个重要进步。
2024-12-26 12:00:00
639
原创 NLP论文速读(AAAI 2024)|面向序列生成的基于高效采样强化学习 (Efficient Sampling-based Reinforcement Learning for……)
然而,在实际应用中,序列生成问题常常涉及大型动作空间(例如词汇表)和长动作序列(例如翻译),这对探索过程提出了严重的计算挑战,也是设计复杂采样方法的重要动机。此外,通过改进采样策略,可以平衡探索和利用,从而提高模型的长期奖励,这对于序列生成任务的性能至关重要。根据Table 1的内容,论文的实验部分主要关注于比较不同采样大小(Sampling Size, SS)对机器翻译任务的影响,特别是在IWSLT'14德英(De-En)和WMT'14英德(En-De)数据集上。这种方法有效地减少了内存占用。
2024-12-25 23:18:23
1438
原创 NLP论文速读(NeurIPS 2024)|面向可控语言模型的选择式生成(Selective Generation for Controllable Language Models)
通过控制错误发现率(FDR)并利用文本蕴含关系来评估生成序列的正确性,可以减少GLMs在生成错误信息时的置信度,从而提高其在关键决策系统中的可用性。SGenSemi还提供了一种方法,让用户在多个候选者中选择最优的选择函数类别,以实现最佳的FDR-E控制。根据Table 1的内容,论文的实验部分主要关注于比较不同半监督学习方法在控制生成语言模型(GLMs)的假发现率(FDR-E)方面的效能。SGenSemi在两种模型上均能实现期望的FDR-E保证,并具有较高的效率,表明该方法在控制FDR-E方面的有效性。
2024-12-24 11:49:13
803
原创 NLP论文速读|如何在没有模型崩溃的情况下合成文本数据?
随着生成性AI技术的发展,合成数据在网络数据生态系统中变得越来越普遍,未来的GPT-n模型训练将不可避免地涉及到合成数据和人类产生数据的混合使用。因此,本文的动机是提出一种新的方法来编辑人类产生的数据,以获得半合成数据,这种方法可以在保持数据分布覆盖的同时,提高数据质量,避免模型崩溃。实验结果表明,随着合成数据比例的增加,GPT-2 Small模型在各个数据集上的PPL值普遍增加,这表明模型性能随着合成数据比例的增加而下降。随着合成数据比例的增加,模型在各个数据集上的PPL值也随之增加。
2024-12-23 10:02:01
557
原创 NLP论文速读(ACL 2024)|基于文本摘要的多维优化强化学习
在一致性维度上,也观察到了显著的提升。本文的动机在于现有的文本摘要方法在多个质量维度上的表现不均衡,特别是在一致性和相关性等维度上的表现较差。此外,现有的评价指标(如ROUGE)并不能全面评估摘要的质量,因为它们主要依赖于与参考摘要的词汇重叠,而不能评估句子的自然流畅性或一致性。因此,本文提出了一种新的方法,通过多目标强化学习来同时优化摘要的多个质量维度,以期生成更符合人类偏好的高质量摘要。根据Table 1的内容,论文中的实验主要关注了多目标强化学习(MDO)策略在文本摘要任务中的应用和效果。
2024-12-20 03:45:00
701
原创 NLP论文速读(COLM 2024)|奖励集成是否可以解决Reward Hacking问题
研究奖励模型集成在不同策略和偏好注释下的表现。预训练集成(pretrain ensembles)在预训练阶段使用不同的随机种子,而微调集成(finetune ensembles)在微调阶段使用不同的随机种子,但预训练种子相同。对于每个任务,作者预训练了不同规模的T5模型,并使用不同的随机种子进行微调,以构建在预训练或微调种子上不同的集成,并评估它们在未指定问题上的表现。使用更大的RM来评估使用较小RM训练的模型的泛化能力,以及使用提示的PALM-2-Large模型作为自动评估器,来评估与人类判断的相关性。
2024-12-19 13:01:29
668
原创 NLP论文速读(ACL 2024)|在保证LLM生成准确度的情况下提升多样性
现有的开源数据集可能无法匹配模型构建者的特定领域分布或不包含所需的标签,这导致模型构建者需要收集和标注新的数据,这可能非常耗时且昂贵。根据Figure 2的内容,本文的实验旨在评估多样化文本生成方法对生成数据的多样性、标签准确性、以及训练模型的准确性的影响。然而,过高的温度可能会导致与提示无关的标记,从而影响生成结果的准确性。:展示了使用不同多样化方法生成的数据训练的模型的准确性,并与使用原始数据集训练的模型(oracle模型)和GPT-3的少样本/零样本分类的准确性进行比较。
2024-12-18 00:14:19
1542
原创 NLP论文速读(NeurIPS 2024)|语言模型的可泛化多目标对齐
在训练期间,MetaAligner被堆叠在策略模型上以执行目标感知校正,其中策略模型的参数是固定的,MetaAligner通过基于SFT的三步训练过程进行优化:预热、等偏好对齐和对比偏好对齐。从策略模型规模的角度来看,MetaAligner成功地对开源模型进行了对齐,这些模型的规模从2B到70B不等,显著扩展了MetaAligner本身的规模。根据Table 2的内容,论文的实验部分主要评估了MetaAligner模型在三个不同的对齐数据集(HH-RLHF、UltraFeedback和IMHI)上的性能。
2024-12-17 00:36:07
1143
原创 NLP论文速读(MetaMetrics)|使用人类偏好校准生成任务的度量
本文的动机是基于以下几点:传统的评估指标(如BLEU和BERTScore)在某些情况下无法准确反映生成内容的质量。本文提出了一种名为METAMETRICS的元指标(meta-metric),旨在通过结合多个现有指标来优化其与人类偏好的一致性。METAMETRICS通过监督学习的方式,结合多个指标的分数来计算一个元指标分数,该分数与人类偏好评分的对齐程度作为优化目标。对于基于参考的指标,数据在x = (xhyp, xref)的上下文中进行评估,其中xhyp和xref分别对应假设文本和参考文本。
2024-12-16 11:28:27
919
原创 NLP论文速读(ICLR 2024)|通过群体不变学习改进与人类偏好对齐的泛化
为了提高模型在不同数据组中的一致性和稳定性,本文提出了一种新的方法,旨在通过学习不同数据组之间的不变特征来增强模型的泛化能力。实验结果支持了本文提出的方法在处理不同数据组时的有效性,特别是在提高模型的泛化能力和稳定性方面。根据Figure 2的实验内容,本文的实验部分主要关注于验证所提出方法在不同数据组之间的性能差异以及泛化能力。泛化能力:实验验证了所提出方法能够在训练过程中一致地识别不同组的数据,从而增强了策略的泛化能力。性能差距缩小:政策不变学习通过减少不同数据组之间的性能差异,提高了模型的泛化能力。
2024-12-15 12:04:55
649
原创 NLP论文速读(北大&百川出品)|从一个拓扑的视角看待RLHF中的奖励模型泛化
通过引入新的理论框架和方法,本文旨在提高奖励模型的数据效率和泛化能力,从而提升语言模型的对齐性能。根据Table 2的实验描述,本文的实验部分主要验证了基于树结构的奖励模型(Tree-Based RM)与基于链结构的奖励模型(Chain-Based RM)在不同任务上的性能对比。Table 2显示,在三个关键任务上,与链结构场景相比,树结构RM使模型获得了更大的性能提升,且使用树结构RM微调的模型平均胜率为65%。基于宏观和微观层面的理论,本文提出了一种新的基于树结构偏好数据的奖励建模方法。
2024-12-14 09:00:00
640
原创 NLP论文速读(ICML 2024)|面相对齐大语言模型的迁移和合并奖励模型方法
然而,这种方法面临两个主要问题:奖励模型的单调变换如何影响对齐效果,以及如何将多个奖励模型结合起来以对齐到多个属性。在从偏好数据中学习的奖励模型的背景下,作者认为如果输出的奖励值大于某个特定于提示的参考值,则该输出是“好”的。通过减少非常高奖励值的边际效用,鼓励模型改进表现不佳的提示,并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。通过将变换后的奖励求和来实现逻辑与(AND)操作,即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。的方法来变换奖励模型。
2024-12-13 12:06:44
1121
原创 NLP论文速读(NeurIPS 2024)|语言生成的重新排序法则
Mallows模型(左图):该图显示了在不同e−λ值(表示重排器质量的参数)和固定ϵ(假设不可接受的概率)为0.3的情况下,失败率随N增加而变化的趋势。Zipf-Mandelbrot模型(右图):与Mallows模型相比,Zipf-Mandelbrot模型下的失败率下降速度较慢,但由于模型的弱化,错误曲线弯曲,导致错误减少速度变慢,但仍然收敛到零。本文考虑了更现实的重排器模型,如Mallows模型和Zipf-Mandelbrot模型,并分析了这些模型下的错误概率。
2024-12-12 13:06:25
691
原创 NLP论文速读(NeurIPS 2024)|通过选择采样来实现高效的探索增强A∗搜索
论文比较了多种搜索算法,包括Retro*、Retro*+、MCTS、A搜索、WA、LevinTS、PHS、ε-Greedy以及本文提出的SeeA*的三种变体(基于均匀采样、聚类采样和UCT类采样)。SeeA*:三种变体(基于均匀采样、聚类采样和UCT类采样)均在解决问题的百分比和平均解决方案长度方面优于其他算法,节点扩展次数和平均运行时间较低。总体下来:SeeA*算法在实验中表现出色,特别是在解决问题的百分比和平均解决方案长度方面,显示出其在启发函数不准确时的优越性。
2024-12-11 08:30:00
939
原创 NLP论文速读(NeurIPS 2023)|通过人类偏好数据集改进LLM的安全性对齐
条形图显示了四5666666个不同模型(Alpaca-7B、Alpaca-13B、Vicuna-7B和GPT-3.5-turbo)被三个评估实体(QA-moderation、GPT-4评估和人类反馈)标记为安全的QA对的比例。当模型缺乏足够的安全对齐性时(如Alpaca-7B和Alpaca-13B),评估者之间关于安全元标签的不一致性更大。Alpaca-7B和Alpaca-13B模型显示出较差的安全对齐性,这从安全QA对的比例中可以看出。评估QA对在14个潜在危害类别中的无害性,并分配相应的安全元标签。
2024-12-10 09:30:32
892
原创 NLP论文速读(AISTATS 2024 )|面向从偏好学习的一般理论范式
本文的动机是弥合理论与实践之间的差距,通过引入一种简单且通用的理论表示来描述从人类偏好中学习的实际算法。作者指出,现有的方法如RLHF和DPO在理论上缺乏深入的理解,尤其是在处理偏好数据时的过拟合问题。实验结果显示,DPO总是收敛到一个确定性的策略,无论τ的值是多少。实验设置了一个简单的偏好数据集D1,包含三个观察到的偏好:(ya, yb),(yb, yc),(ya, yc)。2)采样损失函数:为了在实际中优化IPO,作者提出了一种基于采样的损失函数,该函数可以通过从偏好数据集中采样来估计。
2024-12-07 11:37:52
664
原创 NLP论文速读(斯坦福大学)|使用Tree将语法隐藏到Transformer语言模型中正则化
本文的背景是基于人类语言理解的组合性特征,即语言处理本质上是层次化的:语法规则将词级别的意义组合成更大的成分的意义,然后再组合成句子。然而,当前的神经模型,如变换器(Transformers),缺乏对这种树状结构的直接归纳偏差。尽管变换器在大规模数据上进行预训练以实现合理的泛化,但最新的研究表明,即使是最先进的大型语言模型(LLMs)仍然在组合性泛化方面存在困难,即在新环境中理解熟悉的词汇。的方法,这是一种辅助损失函数,用于将输入句子的成分句法分析转换为对向量隐藏状态的一组可微分的正交性约束。
2024-12-06 14:40:50
1108
原创 NLP论文速读(EMNLP 2022:)|通过知识选择来增强面向预训练语言模型的知识蒸馏Improved Knowledge Distillation for Pre-trained Language
与Random-Hard(或Random-Soft)相比,本文的方法在F1和准确率得分上取得了显著提升,表明所提出的知识选择模块(KSM)优于随机选择知识的基线。为了解决这一问题,近期的研究工作转向知识蒸馏(Knowledge Distillation, KD),旨在将大型PLM(即教师模型)的知识转移到轻量级模型(即学生模型)中,而不会显著损失性能。基于这些发现,作者提出了一种假设:如果学生模型在每个训练步骤中学习适当的知识,那么蒸馏出的学生模型可能会实现更优的性能。
2024-12-05 00:08:53
1208
原创 NLP论文速读|Beyond Logit Lens:鲁棒幻觉的语境嵌入检测
论文信息: 本文讨论的背景是大型多模态模型(Large Multimodal Models, LMMs)的快速发展,这些模型通过结合大型语言模型(Large Language Models, LLMs)的语言能力和特定模态的编码器,显著推进了多模态理解。然而,这些模型存在“幻觉”问题,即产生过于自信的错误答案,这限制了它们的可靠性和应用。传统的检测和减轻幻觉的方法通常涉及昂贵的训练或依赖外部模型,而最近利用内部模型特征的方法显示出了希望。本文的动机在于提高LMMs的可靠性和可解释性,使其在实际部署
2024-12-02 23:45:56
958
原创 NLP论文速读(CVPR 2023)|更好的文生图人类偏好对齐
FID用于衡量生成图像与真实图像之间的距离,Aesthetic Score和CLIP Score评估图像的美学质量,而HPS则是本文提出的新指标,用于衡量图像与人类偏好的一致性。通过这种方式,调整后的模型在生成图像时能够更好地捕捉用户的意图,并减少不自然的图像生成,从而生成更符合人类偏好的图像。因此,研究者们收集了大量用户对生成图像的选择数据,以期通过分析这些数据来训练一个能够预测人类偏好的分类器,并据此提出一种新的方法来指导图像生成模型,使其输出更符合人类的偏好。
2024-11-30 00:01:17
1266
原创 NLP论文速读(EMNLP 2024)|缓解在RLHF过程中的对齐税
本文动机在于LLMs在预训练后已经具备处理多种任务的能力,但在进行RLHF对齐时,这些能力可能会丢失,这限制了模型在实际应用中的有效性和安全性。预训练的LLMs,如GPT-4、Bard和Claude,虽然在多种任务上表现出色,但仍需与人类偏好对齐,以确保它们在提供帮助、信息真实性和避免造成伤害方面符合人类的期望。从图中可以看出:模型平均(MA)方法在所有任务中都取得了较好的性能,尤其是在阅读理解和常识问答任务上,能够在保持较高RLHF奖励的同时,减少对预训练能力的遗忘。
2024-11-29 02:45:00
528
原创 NLP论文速读(EMNLP2024)|多风格可控生成的动态多奖励权重
本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式性)和作者的情绪或态度(例如厌恶)。(动态加权)在所有指标上表现最佳,不仅在风格控制上优于其他方法,同时保持了较低的困惑度和二元组重复率,表明生成的文本既符合目标风格,又保持了较高的语言质量。这些奖励公式被用来训练模型以生成具有特定风格的文本,特别是结合了负面(Negative)和非正式(Informal)风格的文本。在风格控制上表现不错,同时保持了较低的二元组重复率,表明生成的文本较为多样化。
2024-11-27 22:34:09
1115
原创 NLP论文速读(剑桥大学出品)|分解和利用专家模型中的偏好进行改进视觉模型的可信度
本文探讨的背景是多模态大型语言模型(MLLMs),这类模型通过结合视觉特征和文本空间来增强语言模型的能力。本文提出了一个名为DecompGen的框架。论文使用了三个基准数据集来评估MLLMs的幻觉(hallucinations)问题。论文中使用了两个MLLMs作为基础模型:LLaVA-v1.5和Qwen-VL-Chat,两者都有7B模型参数。为了构建DGPref,使用了Visual Genome(VG)作为图像源,产生了16k图像和52k偏好数据样本。 在DPO训练中,为了参数效率,采用了低秩适应技术。
2024-11-27 00:10:15
964
原创 NLP论文速读(Apple出品)|迈向更好的多模态指令遵循能力评估
本文的背景是多模态大型语言模型(MLLMs)的快速发展,这些模型在理解和响应视觉输入方面展现出了增强的能力,通常被称为多模态“指令遵循”。本文提出了MIA-Bench,这是一个新的基准测试,专门设计用来评估MLLMs严格遵循“指令遵循”的能力。论文的实验部分主要涉及了对多模态大型语言模型(MLLMs)在MIA-Bench基准测试上的性能评估。实验共评估了29个流行的MLLMs。
2024-11-26 00:10:13
379
原创 NLP论文速读(ECCV2024)|面向文生图的Parrot优化的多奖励强化学习
Parrot 的方法通过批量帕累托最优选择和多奖励优化策略,能够在不牺牲其他质量指标的前提下,提升特定指标的表现。的核心思想是在批量样本中识别出具有不同质量奖励之间最佳权衡的非支配点(non-dominated points),并仅使用这些点进行梯度更新,从而自动学习不同奖励之间的最优权衡。为了在推理期间保持对原始提示的忠实度,Parrot引入了一种基于原始提示的指导技术,通过线性组合用户输入和扩展提示的指导来生成图像。引入了原始提示中心的指导,确保在提示扩展后输出图像与输入提示相关,同时丰富图像细节。
2024-11-25 00:00:55
1676
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人