自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(463)
  • 问答 (1)
  • 收藏
  • 关注

翻译 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate翻译

最近,大语言模型 (LLM) 在解决实际问题方面表现出了前所未有的性能。核心技术之一是有监督微调 (SFT),它训练这些 LLM 遵循自然语言指令。在 SFT 过程中,LLM 被迫模仿带标注的响应。人们已经付出了很多努力来构建高质量的 SFT 数据集,使用 Self-Instruct 和 Evol-Instruct 等方法增强 LLM 的通用指令遵循能力。最近,MAmmoTH、MetaMath 和 WizardCoder 等作品已经采用 SFT 来提高 LLM 在数学推理、编码等领域的目标能力。

2025-03-30 04:10:38 13

翻译 Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?翻译

思维链(Chain-of-Thought,简称 CoT)推理为大语言模型(LLMs)应对复杂推理任务提供了一种全新的方案。通过使用少量精心设计的指令,CoT 使得 LLMs 能够生成非结构化的推理步骤,从而提升其在复杂任务中的表现。此外,OpenAI 推出的 o1 模型标志着人工智能系统在执行高级推理能力方面的重大进展。与传统模型不同,o1 擅长通过使用扩展的推理链和采用测试时扩展(即“慢思考”)的方式来解决复杂问题。近年来,众多研究开始尝试对大模型的推理范式进行假设。

2025-03-26 04:35:52 15

翻译 CoSER: Coordinating LLM-Based Persona Simulation of Established Roles翻译

大语言模型 (LLM) 的最新进展促进了人工智能中拟人化认知的出现。角色扮演语言 Agent (RPLA),即基于相关数据模拟既定角色的 LLM,因此而广受欢迎。RPLAs已被用于模拟各种类型的人物,包括不同人群、虚构角色或普通个体,并激发了广泛的应用,如角色聊天机器人、视频游戏中的 NPC 以及人类的数字克隆。本文研究的是针对既定角色的 RPLAs,这代表了一项至关重要但具有挑战性的任务,超越了对个人特征或刻板印象的天真描绘。具体而言,RPLA 应该忠实地与角色的复杂背景保持一致,并捕捉他们微妙的个性。

2025-03-22 04:01:24 15

翻译 Robust Speech Recognition via Large-Scale Weak Supervision翻译

语音识别领域的进步得益于无监督预训练技术的开发,例如 Wav2Vec 2.0。由于这些方法直接从原始音频中学习,无需人工标注,因此它们可以高效地使用大量未标注语音数据集,并且已迅速扩展到 1,000,000 小时的训练数据,远远超过学术监督数据集通常的 1,000 小时左右。在标准基准上进行微调后,这种方法已经提高了最先进的水平,尤其是在低数据设置下。这些预训练的音频编码器。

2025-03-17 04:20:48 34

翻译 Towards Economical Inference: Enabling DeepSeek’s Multi-Head Latent Attention翻译

大语言模型 (LLM) 的快速发展显著加速了通用人工智能 (AGI) 的发展,模型能力随着参数数量的增加而可预测地扩展。然而,这些收益的代价是高昂的:训练的计算需求不断增加,推理吞吐量下降,导致大量的能源消耗和碳排放。随着下游任务的复杂度不断提升,长上下文处理和计算密集型推理成为 LLM 应用的核心。Multi-Head Attention (MHA, 2017) 的一个关键瓶颈在于其固有的 KV 缓存的内存占用,该缓存随序列长度和模型大小线性增长。

2025-03-13 04:51:54 48

翻译 Continual Pre-Training of Large Language Models: How to (re)warm your model?翻译

大型预训练模型已使视觉和语言领域的许多下游任务的性能得到大幅提升。然而,训练这些基础模型的成本过高。现有研究旨在通过实现低成本超参数优化或提供在给定计算预算下最大化性能的指导方针来降低大规模模型开发的成本。然而,这些研究假设模型将从头开始训练。随着可用于预训练的数据量不断增长,新的和改进的数据集(例如 RedPajama 和 SlimPajama)将不断涌现。从业者是否应该始终结合现有数据集(例如 Pile)并从头开始训练以获得最佳性能?这样做很快就会变得成本过高,并且无法利用现有的预训练模型。

2025-03-09 04:32:07 54

翻译 ParGo: Bridging Vision-Language with Partial and Global Views翻译

最近的多模态大语言模型 (MLLM) 在各种任务(例如,视觉问答)中取得了显著进展。视觉语言投影层是 MLLM 中广泛使用的组件,旨在为 LLM 提供适当的视觉特征。由于其在桥接模态方面发挥的关键作用,它在最近的研究中引起了广泛关注。先驱工作直接使用线性或多层感知器层 (MLP) 来投影视觉特征。然而,这种基于线性的投影仪很难控制提供给 LLM 视觉 token 的数量(例如,处理细粒度特征),从而导致计算成本高昂。

2025-03-06 04:38:21 40

翻译 Natural language guidance of high-fidelity text-to-speech with synthetic annotations翻译

在大规模数据集上训练的文本转语音模型已展示出令人印象深刻的上下文学习能力和自然度。然而,这些模型中说话人身份和风格的控制通常需要参考语音,这限制了创造性应用。。然而,对人工标注描述的依赖阻碍了扩展到大型数据集。我们的工作弥补了这两种方法之间的差距。我们提出了一种可扩展的方法来标住说话人的身份、风格和录音条件的各个方面。然后,我们将此方法应用于 45k 小时的数据集,并使用该数据集来训练语音语言模型。此外,我们提出了提高音频保真度的简单方法,尽管完全依赖于找到的数据,但其表现明显优于最近的研究。

2025-03-02 20:51:56 33

翻译 Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning翻译

大语言模型 (LLM) 在各种推理任务中都表现出色,包括数学问题、编程和逻辑推理。实现这些强大推理能力的关键技术之一是思维链 (CoT) 提示,它允许 LLM 通过生成一系列中间推理步骤来解决复杂任务。因此,许多早期的努力都集中在使用大规模、高质量的 CoT 推理链对 LLM 进行微调,无论是通过人工标注还是通过从更高级的模型中提取合成数据。然而,人工标注极其耗费人力,而蒸馏通常会将模型的推理能力限制到一定水平。

2025-02-27 03:02:04 48

翻译 Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant翻译

大语言模型 (LLM) 已成为解决通用任务的强大工具,通过对话帮助人们解决日常生活问题。虽然这些模型已经改变了基于文本的交互,但音频对于人类交流仍然至关重要,它所承载的信息往往超过书面文字。大多数语音助手使用级联系统架构。在这种方法中,用户触发自动语音识别 (ASR) 系统将请求转录为文本。然后,自然语言理解 (NLU) 管道将此 query 转换为结构化格式,用于通过自然语言生成 (NLG) 生成文本答案。最后,文本转语音 (TTS) 系统将答案发声给用户。

2025-02-21 03:23:58 14

翻译 LLAMA PRO: Progressive LLaMA with Block Expansion翻译

人类通常能够获得新技能而不会损害旧技能;然而,对于大语言模型 (LLM) 来说,情况却相反,例如从 LLaMA 到 CodeLLaMA。为此,我们提出了一种新的 LLM 后预训练方法,并扩展了 Transformer 块。我们仅使用新语料库来微调扩展的块,从而高效、有效地提高模型的知识并减轻遗忘。在本文中,我们在代码和数学语料库上进行了实验,得到了 LLAMA PRO-8.3B,这是一个由 LLaMA2-7B 初始化的多功能基础模型,在通用任务、编程和数学方面表现出色。

2025-02-19 04:15:52 20

翻译 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning翻译

扩大 Transformer 的上下文长度是一项挑战,因为其核心的注意力层对运行时和内存的要求是输入序列长度的二次方。理想情况下,我们希望超越标准的 2k 序列长度限制,以训练模型理解书籍、高分辨率图像和长篇视频。仅在去年,就出现了几种上下文比以前长得多的语言模型:GPT-4 的上下文长度为 32k,MosaicML 的 MPT 的上下文长度为 65k,Anthropic 的 Claude 的上下文长度为 100k。长文档查询和故事写作等新兴用例表明需要具有如此长上下文的模型。

2025-02-16 19:08:13 29

翻译 s1: Simple test-time scaling翻译

过去几年来,语言模型 (LM) 的性能改进很大程度上依赖于使用大规模自监督预训练来扩展训练时计算。这些强大模型的创建为建立在它们之上的新扩展范式奠定了基础:测试时扩展。这种方法的目的是增加测试时的计算以获得更好的结果。人们已经进行了大量工作来探索这个想法,OpenAI o1 最近验证了这种范式的可行性。o1 已经展示了强大的推理性能,并通过扩展测试时间计算获得了持续的收益。OpenAI 将他们的方法描述为使用大规​​模强化学习 (RL),这意味着使用大量数据。

2025-02-13 15:21:13 49

翻译 Towards Lifelong Learning of Large Language Models: A Survey翻译

随着大语言模型 (LLM) 的应用扩展到各个领域,这些模型适应数据、任务和用户偏好的持续变化的能力变得至关重要。传统的训练方法依赖于静态数据集来训练 LLM,但越来越不足以应对现实世界信息的动态特性。终身学习(又称持续学习、增量学习),或 LLM 在其运行寿命内持续自适应学习的能力,通过整合新知识同时保留先前学习的信息来解决这一挑战,从而防止灾难性遗忘的问题。图 1 提供了终身学习的图示。本调查深入研究了终身学习的复杂情况,根据新知识的整合方式将策略分为两大类:内部知识和外部知识。

2025-02-11 04:25:28 54

翻译 Chain-of-Retrieval Augmented Generation翻译

检索增强生成 (RAG) 是企业应用中的核心技术之一,需要将大型基础模型与专有数据源集成,以生成既有根据又符合事实的响应。传统上,基础模型是在包含数万亿个 token 的大规模数据集上进行训练的,并且在部署后保持冻结状态。尽管如此,这些模型经常难以记住长尾事实知识,或者可能产生虚假声明的幻觉,导致在现实场景中响应不可靠。RAG 通过使用检索到的信息增强生成过程来缓解这一挑战,从而提高模型生成内容的可信度并促进最新信息的整合。

2025-02-06 03:54:06 124

翻译 WebWalker: Benchmarking LLMs in Web Traversal翻译

大语言模型 (LLM) 在广泛的自然语言处理任务中展现出了令人印象深刻的能力。虽然它们的知识库在训练后保持静态,但通过检索增强生成 (RAG) 集成外部搜索引擎允许 LLM 从网络上检索最新信息,从而增强其在动态、知识密集型场景中的实用性。然而,传统的在线搜索引擎(例如 Google 或 Bing)对 query 执行横向搜索,可能无法有效追踪网站中嵌入的更深层内容。与网页交互并深入挖掘可以有效解决此问题。之前与网页相关的研究侧重于解决基于动作的请求,例如 Mind2Web 和 WebArena;

2025-02-02 17:46:44 67

翻译 Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement翻译

大语言模型 (LLM) 正在经历快速发展,专有模型(如 GPT 和 Gemini)以及开源模型(如 LLaMA、Qwen、Mistral 和 Deepseek)以前所未有的速度发展。然而,这种快速迭代带来了一个重大挑战:用于有监督微调 (SFT) 的现有高质量数据的枯竭。此外,互联网上越来越多地充斥着质量参差不齐且通常值得怀疑的合成数据,这使得为 LLM 构建和筛选更高质量的训练数据变得越来越困难。对 SFT 训练的实证研究已明确表明,数据质量和数量在提高模型性能方面都发挥着至关重要的作用。

2025-01-31 04:14:28 60

翻译 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot翻译

大语言模型 (LLM) 的成功推动了对话式 AI 的重大进步,推动了基于文本的聊天机器人和数字助理的发展。然而,LLM 主要用于处理文本输入和生成文本输出,侧重于语义和逻辑交流。相比之下,人类交流超越了语义,经常传达情感和细微差别。因此,基于语音的交互为人机交互提供了更自然、更直观的媒介,提供了更丰富、更具吸引力的用户体验。传统的语音聊天机器人通常依赖于结合自动语音识别 (ASR)、LLM 处理和文本转语音 (TTS) 合成的管道。

2025-01-28 02:03:10 64

翻译 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models翻译

大型语言模型 (LLM) 彻底改变了人工智能中的数学推理方法,推动了定量推理基准和几何推理基准的重大进步。此外,这些模型已被证明有助于帮助人类解决复杂的数学问题。然而,GPT-4 和 Gemini-Ultra 等尖端模型尚未公开,目前可访问的开源模型在性能上远远落后。在本研究中,我们引入了 DeepSeekMath,这是一种特定领域语言模型,其数学能力显著优于开源模型,并在学术基准上接近 GPT-4 的性能水平。

2025-01-25 04:34:34 172

翻译 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models翻译

多模态大型语言模型(MLLM)赋予了大型语言模型(LLM)视觉感知能力,这些模型已在各种视觉语言任务中展现出多功能性和专业性。对于MLLM来说,学习良好的视觉语言对齐是其智能的核心。为了实现跨模态对齐,最近的研究利用中间模块,即投影层,将图像块的表示映射到LLM嵌入空间作为视觉token。广泛使用的投影层可以粗略地归纳为两个分支:非压缩投影和压缩投影。非压缩投影直接使用线性层将视觉token维度转换为LLM维度,同时保持视觉token数量不变。

2025-01-20 04:41:09 42

翻译 DeepSeek-V3 Technical Report翻译

我们提出了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总共有671B个参数,每个token激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了彻底的验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并设置了多token预测训练目标以获得更强大的性能。

2025-01-17 19:02:12 138

翻译 HERMES 3 TECHNICAL REPORT翻译

指令(或“Chat”)微调模型已成为大多数人与大型语言模型交互的主要方式。与“base”或“foundation”模型相反,指令微调模型经过优化,可响应命令式语句。我们提出了 Hermes 3,这是一种中立的通用指令和工具使用模型,具有强大的推理和创造能力。其最大版本 Hermes 3 405B 在多个公共基准测试中实现了开放权重模型中最先进的性能。所有模型的权重均可在 https://huggingface.co/NousResearch 上找到。大型语言模型通常针对广泛而多样的文本分布进行训练。例如,“

2025-01-12 20:57:29 41

翻译 From Local to Global: A Graph RAG Approach to Query-Focused Summarization翻译

人类在各个领域的努力都依赖于我们阅读和推理大量文档的能力,我们经常得出超出源文本本身的结论(即思考和推理过程。

2024-12-21 03:44:46 68

翻译 Generative Agent Simulations of 1,000 People翻译

人类行为模拟(能够跨领域复制人类行为的通用计算代理)的前景广阔,可以广泛应用于政策制定和社会科学。我们提出了一种新的 Agent 架构,可以模拟 1,052 个真实个体的态度和行为——将大语言模型应用于有关他们生活的定性访谈,然后测量这些 Agent 如何很好地复制它们所代表的个体的态度和行为。生成式 Agent 复制参与者在综合社会调查中的回答的准确率是参与者两周后复制自己答案的 85%,并且在预测实验复制中的性格特征和结果方面表现相当。

2024-12-17 04:21:38 66

翻译 REFT: Reasoning with REinforced Fine-Tuning翻译

解决数学问题的最先进方法采用有监督微调 (SFT),使用思维链 (CoT) 标注来训练模型。如图 1 所示,CoT 标注概述了解决数学问题的中间推理步骤。通常,训练数据中的每个问题都有一个 CoT 标注,即一条正确的推理路径,SFT 则会利用该标注。我们观察到,这可能会导致 SFT 模型的泛化能力相对较弱。通常情况下,同一个问题存在多个有效的 CoT 路径,这凸显了对更强大的微调方法的需求。为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调 (ReFT)(图 1 底部)。

2024-12-14 03:48:38 57

翻译 AUTO-RAG: AUTONOMOUS RETRIEVAL-AUGMENTED GENERATION FOR LARGE LANGUAGE MODELS翻译

大型语言模型 (LLM) 的检索增强生成 (RAG) 被广泛用于处理知识密集型任务,这大大提高了输出质量并有效缓解了幻觉。然而,某些限制仍然存在,例如检索内容中的噪音以及一次尝试检索复杂问题所需的足够知识的挑战。这些问题最终损害了 RAG 系统的整体性能并阻碍了其广泛采用。为了解决这些限制,人们提出了迭代检索,它不断更新检索结果以满足生成过程中出现的动态信息需求。现有的工作通常依赖于 few-shot 提示和手动制定的规则来实现迭代检索,这在推理过程中需要大量的人力和额外的计算开销。

2024-12-10 04:14:38 120

翻译 RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs翻译

检索增强生成 (RAG) 是一种广泛使用的技术,用于定制大语言模型 (LLM),以处理长尾知识、提供最新信息并适应特定领域和任务,而无需修改模型权重。通常,基于密集嵌入的检索器首先从文档集合或外部数据库中检索给定问题的 top-k 个分块上下文。然后,LLM 读取 top-k 个上下文以生成答案。

2024-12-05 04:37:14 67

翻译 PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS翻译

提高大型语言模型 (LLM) 输出可信度的一种方法是用清晰且易于检查的推理来支持它们——我们称之为可读性。我们在解决小学数学问题的背景下研究了可读性,并表明仅为了答案正确性而优化的思维链解决方案会使它们变得不那么可读。为了减轻可读性的损失,我们提出了一种受 Anil et al. (2021) 启发的 Prover-Verifier 游戏训练算法。我们的算法迭代训练小型 verifier 来预测解决方案的正确性,“” prover 产生可以被 verifier 接受的正确解决方案,“

2024-12-04 22:40:25 55

翻译 TÜLU 3: Pushing Frontiers in Open Language Model Post-Training翻译

后训练(包括指令微调、从人工反馈中进行强化学习和其他类型的微调等一系列技术)已成为构建前沿语言模型的关键步骤,但这些技术的开发通常没有伴随开放资源和配方。完全开源的对应产品(例如 TÜLU 2 和 Zephyr-𝛽)通常依赖于更易于实现且更便宜的管道,并且在许多指标上已经过时。为了缩小开源和闭源后训练之间的差距,我们推出了TÜLU 3,这是一系列开源的SOTA后训练模型,以及所有数据、训练配方、代码、基础设施和评估框架。

2024-12-02 04:38:57 134

翻译 EfficientRAG: Efficient Retriever for Multi-Hop Question Answering翻译

检索增强生成 (RAG) 方法在解决多跳问题等复杂问题时会遇到困难。虽然迭代检索方法通过收集更多信息来提高性能,但当前方法通常依赖于对大型语言模型 (LLM) 的多次调用。在本文中,我们介绍了 EfficientRAG,这是一种用于多跳问答的高效检索器。EfficientRAG 迭代生成新query,无需在每次迭代时调用 LLM,并过滤掉不相关的信息。实验结果表明,EfficientRAG 在三个开放领域多跳问答数据集上超越了现有的 RAG 方法。

2024-11-24 14:30:34 67

翻译 Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers翻译

我们介绍了一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型中派生的离散code来训练(称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样将 TTS 视为连续信号回归。在预训练阶段,我们将 TTS 训练数据扩展到 60K 小时的英语语音,这比现有系统大数百倍。VALL-E 具有上下文学习能力,可以仅使用 3 秒的未知的说话人的注册录音作为声音提示来合成高质量的个性化语音。

2024-11-22 03:18:59 56

翻译 Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities翻译

GPT-4o 是一个包罗万象的模型,是大型多模态语言模型发展的一个里程碑。它可以理解视觉、听觉和文本模态,直接输出音频,并支持灵活的双工交互。开源社区的模型通常实现了 GPT-4o 的一些功能,例如视觉理解和语音聊天。然而,由于多模态数据的复杂性、复杂的模型架构和训练过程,训练一个包含所有模态的统一模型具有挑战性。在本文中,我们介绍了,这是一个视听助手,能够为音视频问题提供实时、端到端的语音响应。通过集成预训练的视觉和听觉编码器,Mini-Omni2 在各个模态中保持性能。

2024-11-16 20:50:59 170

翻译 Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM翻译

大语言模型的快速发展带来了许多新的智能应用,尤其是GPT-4o中出色的多模态人机交互给用户带来了令人印象深刻的体验。在此背景下,研究人员近期提出了许多可以实现语音对话的多模态LLM。在本文中,我们提出了一种语音文本多模态LLM架构,称为。我们的主要贡献是将语音输入和输出模态连接到LLM,同时在整个训练过程中保持LLM冻结。

2024-11-12 21:37:48 51

翻译 From Complex to Simple翻译

大语言模型 (LLM) 已成为实际应用的支柱。给定自然语言指令,LLM 可以在没有或只有很少示例的情况下解决未知的任务。LLM 准确理解指令并生成所需输出的能力(称为指令遵循)对于 LLM 的安全性和可靠性至关重要。LLM 必须遵循具有精细要求的指令(即复杂指令),例如图 1 中概述的格式规范。一方面,遵循详细指令的能力减轻了标注样本的需要,这种需求对于复杂的任务来说可能既昂贵又具有挑战性。另一方面,复杂指令几乎不会出现在训练数据中。因此,遵循复杂指令的能力表明模型对未知任务具有更好的泛化能力。

2024-11-11 00:51:30 54

翻译 Towards Scalable Automated Alignment of LLMs: A Survey翻译

1)目前尚不清楚分解问题是否是解决问题最困难的部分,如果认知负担无法分散,IDA 可能难以发挥作用。2)错误会不会累积。虽然这种范式不需要Agent之间的协作来提高效率,但太多错误仍然会带来问题。3)任务可以并行化的程度。如果任务解决过程在很大程度上是连续的,那么收集信号的时间可能会增加,但考虑到 LLM 的当前部署速度,这似乎是一个小问题。总体而言,由于这些假设很难证明或证伪,我们主张在这个方向上进行更多的实证研究。

2024-11-06 03:58:26 62

翻译 SoundStream: An End-to-End Neural Audio Codec翻译

波形编解码器和参数编解码器。波形编解码器旨在在解码器端对输入音频样本进行忠实重建。在大多数情况下,这些编解码器依赖于变换编码技术:使用(通常可逆的)变换将输入时域波形映射到时频域。然后,对变换系数进行量化和熵编码。在解码器端,对变换进行逆变换以重建时域波形。编码器处的比特分配通常由感知模型驱动,该模型决定量化过程。(1)通常,波形编解码器对音频内容的类型做出很少或根本不做假设,因此可以对一般音频进行操作。因此,它们可以在中高比特率下产生非常高质量的音频,但在低比特率下运行时往往会引入编码伪影。

2024-10-21 04:34:32 297

翻译 High-Fidelity Audio Compression with Improved RVQGAN翻译

高分辨率音频的生成建模由于高维度(每秒约 44,100 个音频样本)以及具有短期和长期依赖性的不同时间尺度的结构而困难。为了缓解这个问题,音频生成通常分为两个阶段:1) 根据某些中间表示(例如梅尔频谱图)预测音频;2) 根据某些条件信息(例如文本)预测中间表示。这可以解释为具有观察中间变量的分层生成模型。自然,另一种方法是使用变分自动编码器 (VAE) 框架学习中间变量,使用学习到的条件先验来预测给定某些条件的潜在变量。

2024-10-14 03:55:10 311

翻译 Let’s Verify Step by Step翻译

大型语言模型能够通过以逐步的思维链形式生成解决方案来解决需要复杂多步骤推理的任务。然而,即使是最先进的模型也容易产生错误——它们倾向于在不确定的时刻编造事实。这些幻觉在需要多步骤推理的领域尤其成问题,因为一个逻辑错误就足以破坏更大的解决方案。检测和减轻幻觉对于提高推理能力至关重要。一种有效的方法是训练奖赏模型来区分期望输出和不期望输出。然后,奖赏模型可用于强化学习管道或通过拒绝采样进行搜索。虽然这些技术很有用,但最终系统的可靠性需要依赖于奖赏模型本身。因此,研究如何最有效地训练可靠的奖赏模型非常重要。

2024-10-11 03:54:56 130

翻译 Planning In Natural Language Improves LLM Search For Code Generation翻译

学习和搜索。尽管大型语言模型的最新进展消除了人们对学习有效性的所有怀疑,但搜索尚未证明其对大型语言模型的价值,尽管它在经典机器学习技术上取得了成功。在这里,我们将搜索称为在推理时花费额外计算量以提高整体性能的任何方法。在这项工作中,我们专注于改进 LLM 搜索以生成代码,这是 LLM 当前最重要的应用之一。我们假设,阻碍在推理时广泛使用代码搜索的主要瓶颈是模型输出缺乏高级多样性。这种缺乏多样性的部分原因可能是通常用于将 LLM 训练为聊天机器人的特定后训练目标,其中模型通常经过优化以产生单个正确答案。

2024-10-05 21:03:13 204

翻译 Text2SQL is Not Enough: Unifying AI and Databases with TAG翻译

语言模型有望通过让用户提出针对数据的自然语言问题来彻底改变数据管理,这导致了大量针对 Text2SQL 和检索增强生成 (RAG) 方法的研究。然而,根据我们的经验(包括来自 Databricks 的内部工作负载和客户的经验),用户的问题通常超出了这些框架的能力,因此需要对将数据库系统的逻辑推理能力与现代语言模型 (LM) 的自然语言推理能力相结合的系统进行新的研究投资。具体来说,我们发现实际业务用户的问题通常需要复杂的领域知识、世界知识、精确计算和语义推理组合。

2024-09-29 04:32:03 205

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除