
论文
文章平均质量分 79
zhilanguifang
小透明
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM相关知识&技术学习记录(01)--GPT3.5和GPT4.0里的各个版本区别与联系
对话情绪识别的发展一直受到pipeline设计复杂性的阻碍,导致ERC模型经常过度拟合特定的数据集和对话模式。在这项研究中,我们提出了一种新的方法,即InstructERC,将ERC任务从判别式框架重新调整为基于大型语言模型( LLMs )的生成式框架。instructERC有4个重大贡献:引入一个简单但是有效的模板检索模块,通过将语义相似度较高的历史对话内容、标签陈述、情绪域演示连接起来进行串联,从而显式地整合多粒度对话监督信息。原创 2024-12-14 22:06:19 · 1076 阅读 · 0 评论 -
Prompt相关论文阅读(05)--TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE (2024-11-30)
我们提出了STEP - BACK PROMPTING,一种简单的提示技术,它可以使LLMs进行抽象,从包含特定细节的实例中导出高级概念和第一原理。利用这些概念和原理来指导推理,LLMs显著地提高了他们沿着正确的推理路径进行求解的能力。我们在PaLM - 2L、GPT - 4和Llama2 - 70B模型上进行了STEP - BACK PROMPTING实验,并在包括STEM、知识问答和多跳推理在内的各种具有挑战性的推理密集型任务上观察到了实质性的性能提升。原创 2024-11-30 15:23:48 · 309 阅读 · 0 评论 -
Prompt相关论文阅读(04)--Rephrase and Respond: Let Large Language Models Ask Better Questions(2024-11-29)
误解不仅出现在人际交往中,也出现在人与大语言模型( LLMs )之间。这种差异会使语言模型以意想不到的方式解释看似毫不含糊的问题,从而导致错误的回应。尽管提示的质量,如问题,显著影响LLMs提供的回复的质量已经广为人知了,但是LLMs能够更好地理解问题的系统化方法仍然没有找到。在本文中,我们提出了一种名为“复述和回复”的方法,该方法允许LLM重新复述拓展,并扩展人类所提出的问题,并以单一提示中提供响应。该方法为提高表现提供了一种简单而有效的激励方法。原创 2024-11-29 23:38:04 · 370 阅读 · 0 评论 -
Prompt相关论文阅读(03)--Active Prompting with Chain-of-Thought for Large Language Models(2024-11-29)
大规模语言模型( Large Language Models,LLMs )的不断增加为各种需要推理的复杂任务,如算术和常识推理等带来了新的能力。众所周知,针对特定任务的提示的有效设计对LLMs产出高质量答案的能力至关重要。特别地,一种有效的方法是基于样例的提示和思维链推理,这极大地改善了大模型的表现。然而,目前的CoT方法依赖于一组固定的人工标注样本,对于不同的任务来说,这并不一定是最有效的例子。这篇论文提出了一个方法,自动提示,通过特定任务的示例提示,使LLM适应不同的任务。原创 2024-11-29 16:19:16 · 960 阅读 · 1 评论 -
Prompt相关论文阅读(01)--大语言模型是人类级别的提示工程师(2024-11-23)
通过在自然语言指令上的条件化,大语言模型作为通用目的的计算机展示出了令人印象深刻的能力。然而,任务的表现在很大程度上依赖于用来指导模型的提示的表现,并且大多数有效的提示是人类起草的。受到经典程序合成和人类提示工程的启发,我们提出了自动提示工程APE用于自动指令生成和选择。在我们的方法中,我们将指令视为“程序”,通过搜索一个由LLM提出的指令候选池来优化,以最大化选择的得分函数。为了评估所选指令的质量,我们评估了跟随所选指令的另一个LLM的零样本性能。原创 2024-11-23 14:59:51 · 831 阅读 · 1 评论 -
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25)
使用常识知识来解决ERC任务。提出了一个新的框架COSMIC,包含常识的不同元素,如心理状态、事件和因果关系并在此基础上学习对话中的说话者间的交互。目前最先进的方法经常在上下文传播、情绪偏移检查、区分情绪类别等方面遇到困难,通过学习不同的常识表征,COSMIC解决了这些挑战并在4个不同的基准数据集上取得了新的SOTA结果。原创 2024-10-29 20:35:09 · 674 阅读 · 0 评论 -
ERC论文阅读(01)--BiosERC论文阅读笔记
这篇论文是研究ERC任务的论文,作者提出了微调LLM和训练了自己的基于bert的预训练模型。中心思想是将对话中说话者的性格特征注入模型中,实验证明了其思想的有效性,在常用的数据集MELD、iemocap、emoryNLP上取得了SOTA的效果。原创 2024-10-21 16:39:10 · 467 阅读 · 0 评论 -
NLP经典论文研读--xlnet论文代码复现记录
xlnet这个模型还是相当复杂的,我看了很长一段时间也还是有很多地方没有搞明白,最后又在网上搜了很多大佬写的相关博客,才算是大致弄明白了,想了解xlnet的原理,请参考原论文,这里推荐一位大佬写的博客,写得非常清楚明白,也解决了我的很多困惑。在这里,我重点讲解一下xlnet的代码实现,我这个代码是注:这代码里面没有说实验配置,但是我自己的实验环境是cuda11.3 ,经过实验可以正常运行,我的实验配置供参考,如下:python:3.6。原创 2024-06-27 10:10:13 · 1125 阅读 · 1 评论 -
NLP经典论文研读--xlnet论文研读笔记
xlnet论文阅读笔记原创 2024-06-27 09:54:16 · 835 阅读 · 0 评论 -
NLP经典论文研读--transformer-XL论文源码难点记录
transformerXL论文源码研读,这篇论文我看了差不多快10天,555~主要我确实太菜了,代码也看不明白,花了好久的时间才勉强啃下来。现在来记录一下看这篇论文的一些想法。原创 2024-06-27 09:44:07 · 593 阅读 · 0 评论 -
论文阅读笔记(12月15)--DialogXL
本文介绍了我们在使用预训练语言模型进行会话情感识别( ERC )方面的开创性工作。与常规文档不同,会话话语交替出现于不同的参与方,在以往的工作中通常被组织成层级结构。这样的结构不利于XLNet等预训练语言模型的应用。为了解决这个问题,我们提出了一个一体式的XLNet模型,即DialogXL,它具有增强的内存来存储更长的历史上下文和对话感知的自注意力来处理多方结构。具体来说,为了更好地对会话数据进行建模,我们首先将XLNet的递归机制从segment-level修改为utterance-level。其次。原创 2023-12-16 22:28:27 · 3721 阅读 · 0 评论 -
数据集CPED介绍
昨天思考自己的小论文idea(md,到现在还没有idea,555),然后看到了一个中文对话数据集,觉得很不错,记录一下。原创 2023-12-15 16:55:41 · 1965 阅读 · 0 评论 -
Hierarchical Dialogue Understanding with Special Tokens and Turn-level Attention代码复现记录
我没有完全按照作者在readme里面说的,因为我第一次装了那个出了很多bug,我现在也不知道是什么原因,就换了一些版本,总算是跑通了。如regex,tqdm等,这些没有依赖版本的要求的包,我就是直接在创建的虚拟环境里面pip install 安装的。其实呢,我还是有很多地方不清楚,如果有大佬路过,恳请指点一二,不要吝惜您的赐教,在此拜谢~目前只是跑通了,具体的逻辑细节,我还要再看一下。在运行这个命令的时候,有几点细节要注意。原创 2023-12-04 16:36:12 · 380 阅读 · 0 评论 -
论文复现记录:A Bipartite Graph is All We Need for Enhancing Emotional Reasoning with Commonsense Knowledge
经过我的查询,原来每个epoch都要训练、验证、测试,然后看在哪一个epoch上面模型的表现最好就将其保存为最好的模型。哭了,本人实在是太无知了,跨考生如何快速入门科研,如何快速上手实验,如有大佬经过看到此处,愿意留下三言两语指点一二,本人感激不尽~~我大致明白它的意思,这里测试应该加载的是一个训练完的模型,但是我这个指定的是一个目录,里面保存的是每个epoch结束后模型的状态,关键在于我不知道是不是应该指定最后一个epoch训练完的模型状态作为测试用的模型。改回去以后还是报错,特喵的,我要风了!原创 2023-11-19 21:17:41 · 228 阅读 · 0 评论 -
研一下阅读论文--会话情感识别(1)
EmoCaps:Emotion Capsule based Model for Conversationl Emotion Recognition原创 2023-05-17 22:22:31 · 881 阅读 · 4 评论