大语言模型
文章平均质量分 92
sp_fyf_2024
老和山扫地僧,专注电商算法与系统优化。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大语言模型】ACL2024论文-38 从信息瓶颈视角有效过滤检索增强生成中的噪声
从信息瓶颈视角有效过滤检索增强生成中的噪声概览本文旨在解决检索增强生成(Retrieval-Augmented Generation, RAG)任务中面对现实世界噪声数据时的挑战。尽管RAG结合了大型语言模型(LLMs)和从广泛语料库中检索到的相关信息,但在处理噪声数据时仍面临困难。现有的解决方案是训练一个过滤模块来寻找相关内容,但这种方法在噪声压缩方面效果不佳。原创 2025-01-16 18:48:57 · 1655 阅读 · 0 评论 -
【大语言模型】ACL2024论文-37 交互式文本到图像检索与大型语言模型:一种即插即用的方法
和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解。如果您对我的博客内容感兴趣,欢迎三连击 (原创 2025-01-16 18:42:33 · 1178 阅读 · 0 评论 -
【大语言模型】DeepSeek与Kimi对论文内容理解的简单对比
近期国内 AI领域,Kimi与DeepSeek都在大力投入,这里对Kimi与DeepSeek的做简要的对比分析,包括技术方向、产品形态、用户市场和未来潜力。本文介绍了DeepSeek LLM项目,旨在通过研究扩展定律(Scaling Laws)来推动开源大语言模型(LLM)的发展。文章详细探讨了在7B和67B两种常见开源配置下,如何通过扩展定律优化模型的训练和性能。原创 2024-12-30 15:26:41 · 17504 阅读 · 0 评论 -
DeepSeek LLM通过长期主义扩展开源语言模型
开源大型语言模型 (LLM) 的快速发展令人惊叹。然而,先前文献中描述的扩展定律得出了不同的结论,这给扩展 LLM 蒙上了一层阴影。我们深入研究了扩展定律,并提出了我们独特的发现,这些发现有助于在两种广泛使用的开源配置(7B 和 67B)中扩展大型模型。在扩展定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长期角度推动开源语言模型发展的项目。为了支持预训练阶段,我们开发了一个数据集,该数据集目前包含 2 万亿个符元,并且正在不断扩展。原创 2024-12-28 22:31:04 · 2784 阅读 · 0 评论 -
DeepSeek-V2:强大、经济且高效的专家混合语言模型
我们提出了 DeepSeek-V2,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它总共包括236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。DeepSeek-V2采用多头潜在注意力(MLA)和DeepSeekMoE等创新架构。MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则可以通过稀疏计算以经济的成本训练强大的模型。原创 2024-12-28 22:10:55 · 5181 阅读 · 0 评论 -
【大语言模型】ACL2024论文-36 利用NLI和ChatGPT及编码簿知识进行零样本政治关系分类
本研究探讨了如何不依赖大量标注数据,通过利用现有标注编码簿中的专家知识,实现政治关系分类的零样本学习方法。研究评估了先进的ChatGPT(GPT-3.5/4)和基于自然语言推理(NLI)的模型ZSP的性能。ChatGPT使用编码簿的标记摘要作为提示,而ZSP将分类任务分解为上下文、事件模式和类别消歧,以提炼特定任务的假设。这种分解增强了可解释性、效率和对模式变化的适应性。实验揭示了ChatGPT的优势和局限性,并关键地显示了ZSP在字典基础上的方法和一些监督模型中的优越性。原创 2024-12-26 08:16:54 · 1105 阅读 · 0 评论 -
【大语言模型】ACL2024论文-35 WAV2GLOSS:从语音生成插值注解文本
本文提出了一个名为WAV2GLOSS的任务,旨在自动从语音中提取插值注解文本(IGT),这是一种对语言文档和资源创建非常重要的语言学注释形式。IGT通常包括四个部分:(1) 转录,(2) 形态分割,(3) 词义解释,以及(4) 翻译成主要语言。作者介绍了第一个涵盖37种语言的标准格式数据集FIELDWORK,并提供了训练/开发/测试拆分。研究比较了端到端和级联的WAV2GLOSS方法,并提供了基于知名语音和自然语言处理模型的基准,为未来的研究奠定了基础。原创 2024-12-25 08:05:05 · 1543 阅读 · 0 评论 -
【大语言模型】ACL2024论文-34 你的模型能区分否定和隐含意义吗?通过意图编码器揭开挑战
本文探讨了在对话系统中,意图分类和意图聚类任务中使用的嵌入模型在理解语义方面的挑战,特别是在处理否定和隐含意义这两个在现实世界对话系统中至关重要的语义概念时。作者提出了一个意图语义工具包,通过三个任务——意图分类、意图聚类和一个新颖的三元组任务——来全面评估意图嵌入模型。研究发现当前的嵌入模型在这些概念的语义理解上表现不佳。为了解决这个问题,文章提出了一种预训练方法,通过利用自回归模型生成的数据和对比损失项来提高嵌入模型的语义理解能力。原创 2024-12-25 08:01:56 · 1198 阅读 · 0 评论 -
【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
大型语言模型(LLMs)在常识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs,这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe,一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从响应(如“Sure”)配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。原创 2024-12-21 17:03:40 · 1462 阅读 · 0 评论 -
【大语言模型】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模型的不安全提示
大型语言模型(LLMs)面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要是在线内容审核API或微调过的LLMs。然而,这些策略通常需要大量的数据收集和资源密集型的培训过程。在本研究中,我们提出了GradSafe,它通过审查LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察:不安全提示与遵从响应(如“Sure”)配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下,安全提示导致明显不同的梯度模式。原创 2024-12-21 16:57:33 · 1271 阅读 · 0 评论 -
【大语言模型】ACL2024论文-31 每个答案都很重要:用概率度量评估常识
大型语言模型在常识任务上表现出了令人印象深刻的性能,但这些任务通常以多项选择题的形式提出,允许模型利用系统性偏见。常识本身也是概率性的,有多个正确答案。例如,“烧开水”的目的可能是泡茶、烹饪,也可能是杀菌。现有任务没有捕捉到常识的概率性质。因此,我们提出了一种新的生成性任务——常识框架补全(CFC),通过多个开放式生成来评估常识。我们还提出了一种与人类判断强烈相关的概率评估方法。人类在我们的数据集上大幅超越了强大的语言模型基线,表明这种方法既是对机器常识的挑战性评估,也是有用的评估。原创 2024-12-21 16:37:54 · 740 阅读 · 0 评论 -
【大语言模型】ACL2024论文-30 探索语言模型在文本分类中的伪相关性:概念层面的分析
本文研究了语言模型(LMs)在文本分类任务中由于训练数据中不平衡的标签分布或上下文学习(ICL)示例而产生的伪相关性问题。以往的研究主要集中在单词、短语和句法特征上,而忽略了概念层面,这通常是由于缺乏概念标签和难以识别输入文本中的概念内容。本文的主要贡献有两个:首先,我们使用ChatGPT为文本分配概念标签,评估模型在细调和ICL测试数据中的概念偏差;其次,我们引入了一种数据重平衡技术,通过结合ChatGPT生成的反事实数据,平衡标签分布,减轻伪相关性。原创 2024-12-21 16:31:48 · 1816 阅读 · 0 评论 -
【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入
本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角,将指令视为关于输入文本的问题,并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念,并在大型语言模型(LLMs)和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外,我们通过对相同语料库应用不同指令进行聚类分析的定性分析,展示了模型的高可解释性。原创 2024-12-21 16:22:21 · 1540 阅读 · 0 评论 -
【大语言模型】ACL2024论文-28 TTM-RE: 增强记忆的文档级关系抽取
本文提出了TTM-RE,一种新颖的方法,它通过集成可训练的记忆模块(Token Turing Machine)和鲁棒的损失函数来解决文档级关系抽取问题。这种方法特别针对大规模、噪声多的训练数据,通过实验表明,TTM-RE在ReDocRED基准数据集上实现了最先进的性能,绝对F1分数提高了超过3%。原创 2024-12-21 16:18:57 · 1558 阅读 · 0 评论 -
【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试
本文介绍了Mementos,一个旨在评估多模态大型语言模型(MLLMs)在图像序列上的顺序推理能力的新型基准测试。Mementos包含了4761个不同长度的多样化图像序列,并采用GPT-4辅助的方法来评估MLLMs的推理性能。通过对九个最新的MLLMs(包括GPT4V和Gemini)的细致评估,研究发现这些模型在准确描述给定图像序列的动态信息时存在困难,常常导致对象及其行为的幻觉/误表示。原创 2024-12-16 22:26:45 · 1352 阅读 · 0 评论 -
【大语言模型】ACL2024论文-26 在支持数据存在的情况下进行框架构建:以美国经济新闻为例研究
本文提出了一个计算框架,用于分析在存在支持数据的情况下的新闻编辑选择。研究聚焦于经济新闻,因为经济指标的报道提供了一个相对简单的方法来确定不同出版物的选择和框架。通过这些指标的值,我们可以了解经济的实际状况,以及出版物如何选择报道它。研究定义了框架预测作为一系列相互依赖的任务。在文章层面,我们学习识别对经济总体状况的报道立场。然后,对于文章中报告的每个数值量,我们学习识别它是否对应于经济指标,以及它是以积极还是消极的方式被报道。通过跟踪2015年至2023年间六家美国出版商的头条文章,我们进行了分析。原创 2024-12-15 12:50:26 · 1362 阅读 · 0 评论 -
【大语言模型】ACL2024论文-25 微妙偏见需要更微妙的衡量:双重指标评估大型语言模型中的代表性和亲和力偏见
本研究关注大型语言模型(LLMs)中常被忽视的微妙偏见,这些偏见虽不明显,但可能显著影响模型输出,使其倾向于特定的社会叙事。研究提出了两种新的衡量指标:代表性偏见得分(RBS)和亲和力偏见得分(ABS),并介绍了面向创造力的生成套件(CoGS),这是一个包含开放式任务的集合,如短篇故事写作和诗歌创作,旨在检测这些微妙偏见。分析发现,主流LLMs存在明显的代表性偏见,倾向于与白人、异性恋和男性相关的身份。亲和力偏见的调查揭示了每个模型内独特的评估模式,类似于“偏见指纹”。原创 2024-12-12 08:03:18 · 1848 阅读 · 0 评论 -
【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变
本文介绍了 WINOVIS,这是一个新颖的数据集,旨在探究文本到图像模型在多模态情境中对代词消歧的能力。研究者利用 GPT-4 生成提示,并采用扩散注意力归因图(DAAM)进行热图分析,提出了一个新的评估框架,将模型在代词消歧方面的能力与其他视觉处理挑战区分开来。通过评估不同版本的模型,研究发现即使最先进的模型如 Stable Diffusion 2.0 在 WINOVIS 上的精确度仅为 56.7%,仅略高于随机猜测,显示出从以往版本到当前的微小进步。原创 2024-12-03 07:59:29 · 1639 阅读 · 0 评论 -
【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑
本文提出了一种名为检索增强多语言知识编辑器(ReMaKE)的方法,旨在更新大型语言模型(LLMs)中的知识。由于LLMs中的知识经常不正确或过时,且通过微调更新知识计算成本高昂且不可靠,因此知识编辑(KE)作为一种有效且经济的替代方案应运而生。当前的KE研究主要集中在单一语言设置中,通常是英语。ReMaKE通过从多语言知识库检索新知识并与提示串联,实现多语言设置中的模型无关知识编辑。实验结果表明,ReMaKE在多语言环境中的表现超过了基线知识编辑方法,是首个在多语言设置中工作的知识编辑方法。原创 2024-12-02 08:04:33 · 1781 阅读 · 0 评论 -
【大语言模型】ACL2024论文-22 大型语言模型中的自信心:探究大型语言模型生成回答的自信心与概率一致性
本文探讨了大型语言模型(LLMs)在生成回答时的自信心与概率一致性问题。随着LLMs在各个领域的广泛应用,理解模型自我评估的自信心对于输出的可靠性至关重要。研究者提出了“自信心-概率一致性”概念,将模型内部的自信心(通过token概率量化)与模型在被明确询问时表达的自信心联系起来。通过使用不同的数据集和提示技术,研究者分析了模型内部和表达的自信心之间的一致性。研究发现,OpenAI的GPT-4在多种任务中展现出最强的自信心-概率一致性。这项工作有助于促进LLMs应用中的风险评估,并进一步理解模型的可信度。原创 2024-11-29 08:11:32 · 2322 阅读 · 0 评论 -
【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练
本文介绍了EVLGen,这是一个为视觉条件语言生成模型预训练设计的高效框架,特别适用于计算需求高的场合,并且利用了冻结的预训练大型语言模型(LLMs)。传统的视觉语言预训练(VLP)通常涉及两个阶段的优化过程:第一阶段是资源密集型的,专注于通用视觉-语言表示学习,第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记,避免了计算密集的第一阶段,同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。原创 2024-11-26 07:57:34 · 1263 阅读 · 0 评论 -
【大语言模型】ACL2024论文-20 SCIMON:面向新颖性的科学启示机器优化
本文探索并增强了神经语言模型生成基于文献的新颖科学方向的能力。传统的基于文献的假设生成工作通常集中在二元链接预测上,这严重限制了假设的表达性,并且没有专注于优化新颖性。本文提出了一种新的设置,模型使用背景上下文(例如问题、实验设置、目标)作为输入,并输出基于文献的自然语言想法。原创 2024-11-23 15:52:26 · 1531 阅读 · 0 评论 -
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
本文介绍了SportsMetrics,这是一个旨在评估大型语言模型(LLMs)在数值推理和信息融合能力方面的新基准。通过提供详细的体育比赛逐场描述,挑战LLMs处理新游戏规则、更长的描述、混乱的叙述和分析游戏摘要中的关键统计数据。在NBA和NFL比赛上的广泛实验表明,SportsMetrics能够评估LLMs在这些任务上的性能。原创 2024-11-21 23:36:33 · 1558 阅读 · 0 评论 -
【大语言模型】ACL2024论文-18 MINPROMPT:基于图的最小提示数据增强用于少样本问答
本文提出了MINPROMPT,一个用于开放域问答(QA)任务的最小数据增强框架,旨在通过近似图算法和无监督问题生成来提高少样本QA的效率和准确性。MINPROMPT通过将原始文本转换为图结构,建立不同事实句子之间的联系,然后应用图算法识别覆盖原始文本中最大部分信息的最小句子集合。基于这些句子生成问答对,并在选定的句子上训练模型以获得最终模型。实验结果表明,MINPROMPT在效率上与基线相比具有可比性或更好的结果,F1分数提高了最多27.5%。原创 2024-11-21 23:28:40 · 1156 阅读 · 0 评论 -
【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。原创 2024-11-20 21:19:40 · 1892 阅读 · 0 评论 -
【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法
本文的主要贡献是介绍了第一个公开的罗马尼亚语自然语言推理(NLI)语料库RoNLI,它包含58K训练句子对和6K验证及测试句子对。这些句子对通过远程监督获取和手动标注得到正确的标签。文章还提出了一种基于数据制图的新型课程学习策略,通过该策略改进了最佳模型。数据集和复现基线的代码已在GitHub上公开。原创 2024-11-18 23:36:38 · 1105 阅读 · 0 评论 -
【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断
大型语言模型(LLMs)在现实世界的应用中取得了成功,但它们背后的解释过程仍然不为人所充分理解。本文提出了一个受哲学上最佳解释推断(IBE)启发的框架IBE-Eval,以推进对LLMs解释的理解和评估。IBE-Eval通过结合明确的逻辑和语言特征(包括一致性、简洁性、连贯性和不确定性)来估计自然语言解释的可信度。在因果问题回答(CQA)上进行了广泛的实验,其中IBE-Eval的任务是在由LLMs(例如GPT 3.5和Llama 2)生成的竞争性解释中选择最可信的因果解释。原创 2024-11-17 09:35:18 · 1664 阅读 · 0 评论 -
【大语言模型】ACL2024论文-14 任务:不可能的语言模型
本文探讨了大型语言模型(LLMs)是否能够学习人类认为可能和不可能的语言。尽管有观点认为LLMs无法区分这两者,但目前缺乏实验证据支持这一论断。研究者们开发了一系列不同复杂度的合成不可能语言,通过系统地改变英语数据的词序和语法规则来设计这些语言。这些语言构成了一个不可能性的连续体,从本质上不可能的语言(例如随机且不可逆的英语单词洗牌)到在语言学中常被认为不可能的语言(尤其是基于词数位置的规则)。原创 2024-11-16 16:42:32 · 1278 阅读 · 0 评论 -
【大语言模型】ACL2024论文-13 透过分裂投票的镜头:探索法律案例结果分类中的分歧、难度和校准
在法律决策中,当法官们无法达成一致意见时,就会出现分裂投票(SV),这给必须理解多样化法律论点和观点的律师带来了困难。在高风险领域,理解人类与人工智能系统之间感知难度的一致性对于建立信任至关重要。然而,现有的自然语言处理(NLP)校准方法专注于分类器对其预测性能的认识,这是以人类多数类为衡量标准的,忽视了固有的人类标签变异(HLV)。本文探索了分裂投票作为自然可观察的人类分歧和价值多元性。原创 2024-11-16 16:34:03 · 1561 阅读 · 0 评论 -
【大语言模型】ACL2024论文-12 大型语言模型的能力如何受到监督式微调数据组成影响
本文研究了大型语言模型(LLMs)在数学推理、代码生成和一般人类对齐能力方面的多样化能力,以及这些能力如何通过监督式微调(SFT)得到增强。研究团队提出了四个研究问题来探索模型性能与数据量、数据组成比例、模型规模和SFT策略之间的关联。实验结果显示,不同的能力在数据量增加时表现出不同的扩展模式,且在相同数据量下,更大的模型通常表现出更优越的性能。数学推理和代码生成随着数据量的增加而持续改进,而一般能力在大约一千个样本后达到平稳。原创 2024-11-16 16:28:01 · 1697 阅读 · 0 评论 -
【大语言模型】ACL2024论文-11 动态主题模型评估
本文提出了一种新的评估动态主题模型(DTMs)的方法,该方法通过分析每个主题随时间变化的质量来填补现有量化措施的空白。此外,作者还提出了一个将主题质量与模型的时间一致性相结合的扩展。通过将所提出的措施应用于合成数据和现有DTMs的数据,并进行人类评估,结果表明所提出的措施与人类判断有很好的相关性。这些发现可能有助于识别变化中的主题,评估不同的DTMs,并指导未来在该领域的研究。原创 2024-11-15 10:45:52 · 1849 阅读 · 0 评论 -
【大语言模型】ACL2024论文-10 CSCD-IME: 纠正拼音输入法产生的拼写错误
本文研究了中文拼写校正(CSC)任务,特别是针对拼音输入法(IME)产生的错误。作者首先介绍了一个包含40,000个标注句子的中文拼写校正数据集(CSCD-IME),这些句子来自新浪微博上的官方媒体帖子。接着,提出了一种通过模拟拼音输入法输入过程自动构建大规模、高质量的伪数据的新方法。通过一系列分析和实验,展示了拼音IME产生的拼写错误在拼音层面和语义层面具有特定的分布,并且足够具有挑战性。同时,提出的伪数据构建方法能够更好地适应这种错误分布,并提高CSC系统的性能。原创 2024-11-14 07:41:52 · 1738 阅读 · 0 评论 -
【大语言模型】ACL2024论文-09 无监督信息精细化训练用于增强大型语言模型的检索增强生成
本文提出了一种新的视角,将大型语言模型(LLMs)在检索增强生成(RAG)中的作用视为“信息精炼器”。这意味着无论检索到的文本的正确性、完整性或有用性如何,LLMs都能持续地整合检索文本和模型参数中的知识,生成比检索文本更简洁、准确和完整的文本。为此,我们提出了一种名为INFO-RAG的信息精细化训练方法,以无监督的方式优化LLMs在RAG中的表现。INFO-RAG成本低且适用于多种任务。原创 2024-11-12 22:26:19 · 1478 阅读 · 0 评论 -
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-03
本文介绍了一种名为LaTent Reasoning Optimization(LaTRO)的框架,旨在通过变分方法优化大型语言模型(LLMs)的推理能力。LaTRO通过将推理过程视为从潜在分布中采样,并自我奖励的方式来优化,使得LLMs能够在不需要外部反馈或奖励模型的情况下,同时提高推理过程和评估推理质量的能力。通过在GSM8K和ARC-Challenge数据集上的实验,LaTRO在多个模型架构上显示出显著的性能提升,证明了预训练LLMs具有可以通过LaTRO优化方法解锁和增强的潜在推理能力。原创 2024-11-12 07:51:15 · 1337 阅读 · 0 评论 -
【大语言模型】ACL2024论文-08 统一的时间知识图谱推理模型:插值与外推
本文提出了一个原创的时间路径基础推理(Temporal PAth-based Reasoning, TPAR)模型,用于处理时间知识图谱(Temporal Knowledge Graph, TKG)中的插值推理和外推推理。TPAR模型采用神经驱动的符号推理方式,能够处理含噪声和模糊的时间数据,并具有良好的可解释性。通过全面的实验,TPAR在链接预测任务上超越了现有的最先进方法(State-of-the-Art, SOTA),并且在插值和外推设置中都表现出色。原创 2024-11-10 09:34:13 · 1784 阅读 · 0 评论 -
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-02
本文介绍了TradeExpert,这是一个创新的框架,它采用混合专家(MoE)方法,通过四个专门化的LLMs来分析不同的金融数据源,包括新闻文章、市场数据、阿尔法因子和基本面数据。这些专家LLMs的洞察力进一步由一个通用专家LLM综合,以做出最终的预测或决策。TradeExpert能够在预测模式和排名模式之间切换,分别用于股票运动预测和量化股票交易。此外,我们还发布了一个大规模的金融数据集,以全面评估TradeExpert的有效性。实验结果表明,TradeExpert在所有交易场景中都展现出卓越的性能。原创 2024-11-09 17:42:48 · 2431 阅读 · 0 评论 -
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
本文讨论了如何将大型语言模型(LLMs)整合到医疗应用中,并提出了一个全面的框架来开发这些应用。文章回顾了现有文献,概述了在专业医疗环境中应用LLMs的独特挑战,并提出了一个三步框架来组织医疗LLM研究活动:建模、优化和系统工程。原创 2024-11-05 08:25:19 · 1584 阅读 · 0 评论 -
【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏
本文介绍了BitDistiller,这是一个通过结合量化感知训练(QAT)和知识蒸馏(KD)来提升超低精度(亚4比特)大型语言模型(LLMs)性能的框架。BitDistiller首先采用定制的非对称量化和裁剪技术来尽可能保持量化权重的保真度,然后提出了一种新颖的基于置信度的Kullback-Leibler散度(CAKLD)目标,用于自蒸馏,以实现更快的收敛和更优的模型性能。实验评估表明,BitDistiller在3比特和2比特配置下,无论是在通用语言理解还是复杂推理基准测试中,都显著超越了现有方法。原创 2024-11-03 17:50:26 · 1824 阅读 · 0 评论 -
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30
本文探讨了大型语言模型(LLMs)在数学推理方面的挑战,并提出了一种新颖的方法——逐步引导推理(Step Guidance Reasoning, SGR),以提高LLMs的数学推理能力。SGR方法通过在推理阶段引入反思过程,使LLMs能够从一步推理有效地引导到下一步。该方法在AMC23数据集上的准确率从30%提高到57.5%,在MATH数据集的5级问题上相对准确率提高了55.8%,从43%提高到67%。SGR方法不依赖于进一步的模型微调,而是在推理过程中定义了“步骤”的概念。原创 2024-11-02 11:44:10 · 1797 阅读 · 0 评论 -
【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
本文探讨了在广告和互联网迷因(meme)中常见的隐喻检测问题。由于互联网迷因的自由形式,导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读,并需要大量的常识知识,这对语言模型构成了挑战。为了应对这些挑战,作者提出了一个紧凑的框架C4MMD,该框架利用思维链(Chain-of-Thought, CoT)方法进行多模态隐喻检测。具体来说,该方法设计了一个三步过程,灵感来自CoT,从多模态大型语言模型(MLLMs)中提取并整合知识到较小的模型中。原创 2024-11-02 07:29:15 · 3055 阅读 · 0 评论
分享