AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 11 Jan 2024
Totally 36 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Leveraging Print Debugging to Improve Code Generation in Large Language Models Authors Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang, Fei Wu 大型语言模型法学硕士在代码生成任务方面取得了重大进展,但它们在处理复杂数据结构和算法的编程问题方面的表现仍然不够理想。为了解决这个问题,我们提出了一种上下文学习方法,指导法学硕士使用打印调试方法进行调试,其中包括插入打印语句来跟踪和分析日志以修复错误。我们收集 Leetcode 问题数据集并使用 Leetcode 在线评审系统评估我们的方法。 |
I am a Strange Dataset: Metalinguistic Tests for Language Models Authors Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe Kiela 涉及元语言自引用的陈述本文有六个部分。在许多领域都很普遍。大型语言模型法学硕士可以处理这种语言吗?在本文中,我们提出了“我是一个奇怪的数据集”,这是一个解决这个问题的新数据集。有两个子任务生成和验证。在生成过程中,模型会继续这样的语句 The penultimate word in thisentence is where a true continuation is 。在验证中,模型会判断语句的真实性,例如这句话中的倒数第二个词是句子。错误的 。我们还提供了最少不同的元语言非自参考示例,通过探索模型是否可以处理元语言语言来补充主数据集。该数据集由专家手工制作,并由非专家注释者验证。我们通过 API 测试了各种开源 LLM 7B 至 70B 参数以及闭源 LLM。尽管我们发现模型规模有了一些稳定的改进,但所有模型在两个子任务上,甚至在非自指元语言控制数据上的表现都接近机会。 GPT 4 是唯一一个始终显着优于随机性的模型,但它仍然只在 60 范围内,而我们未经训练的人类注释者得分在 89 到 93 范围内。 |
INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges Authors Jayr Pereira, Andre Assumpcao, Julio Trecenti, Luiz Airosa, Caio Lente, Jhonatan Cl to, Guilherme Dobins, Rodrigo Nogueira, Luis Mitchell, Roberto Lotufo 本文介绍了 INACIA Instru o Assistida com Intelig ncia Artificial,这是一个突破性的系统,旨在将大型语言模型 LLM 集成到巴西联邦审计法院 TCU 的操作框架中。该系统自动执行案例分析的各个阶段,包括基本信息提取、可受理性审查、Mora 和 Fumus boni iuris 分析以及建议生成。通过一系列实验,我们展示了 INACIA 在从案件文件中提取相关信息、评估其法律合理性以及生成司法建议方面的潜力。利用验证数据集和法学硕士,我们的评估方法提出了一种评估系统性能的创新方法,与人类判断高度相关。结果突显了 INACIA 在处理复杂法律任务方面的熟练程度,表明其适合提高法律体系内的效率和司法公平。 |
AUTOACT: Automatic Agent Learning from Scratch via Self-Planning Authors Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen 语言智能体在各种复杂任务上取得了相当可观的表现。尽管在这一领域不断进行探索,现有的语言代理系统仍然与成本高昂、不可重复的数据依赖作斗争,并面临着强制单一模型实现多种功能的挑战。为此,我们引入了 AutoAct,一种自动代理学习框架,它不依赖于来自闭源模型(例如 GPT 4)的大规模注释数据和合成轨迹。鉴于工具库的数据有限,AutoAct 首先自动合成规划轨迹,无需人类或强大的闭源模型的任何帮助。然后,AutoAct利用分工策略,根据目标任务信息和合成轨迹自动区分,产生子代理组来完成任务。我们对不同的法学硕士进行了全面的实验,这表明与各种强大的基线相比,AutoAct 产生了更好或并行的性能。我们甚至注意到,当使用 Llama 2 13b 模型时,AutoAct 可以获得与 GPT 3.5 Turbo 代理相当的性能。 |
CASA: Causality-driven Argument Sufficiency Assessment Authors Xiao Liu, Yansong Feng, Kai Wei Chang 论证充分性评估任务旨在确定给定论证的前提是否支持其结论。为了解决这个任务,现有的工作通常会根据人类注释的数据来训练分类器。然而,对数据进行注释是费力的,并且由于主观标准,注释常常不一致。受因果文献中充分性概率 PS 定义的启发,我们提出了 CASA,一种零样本因果关系驱动的论证充分性评估框架。 PS 衡量当前提事件和结论事件都不存在时,引入前提事件导致结论的可能性有多大。为了估计这个概率,我们建议使用大型语言模型LLM来生成与前提和结论不一致的上下文,并通过注入前提事件来修改它们。对两个逻辑谬误检测数据集的实验表明,CASA 可以准确识别不充分的论点。我们进一步在写作辅助应用程序中部署 CASA,发现 CASA 生成的建议增强了学生书面论证的充分性。 |
Pre-trained Large Language Models for Financial Sentiment Analysis Authors Wei Luo, Dihong Gong 金融情感分析是指将金融文本内容分类为情感类别,例如:积极、消极和中性。在本文中,我们关注财经新闻标题的分类,由于缺乏大量的训练样本,这是一项具有挑战性的任务。为了克服这个困难,我们建议采用预训练的大型语言模型 LLM 1、2、3 来解决这个问题。从大量文本语料库中训练出来的法学硕士在文本理解方面具有优势,可以有效地适应特定领域的任务,同时需要很少量的训练样本。特别是,我们使用监督微调 SFT 技术来调整开源 Llama2 7B 模型 2023 4 。 |
A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer Authors Yong Ma, Senlin Luo, Yu Ming Shang, Zhengjun Li, Yong Liu 语言器用于将标签词映射到类标签,是提示调整的重要组成部分。在本文中,我们提出了一种构建言语器的新方法。虽然现有的言语构建方法主要依赖于基于类名来增强和细化同义词或相关词的集合,但这种范式存在视角 |