AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 4 Mar 2024
Totally 48 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Mitigating Reversal Curse via Semantic-aware Permutation Training Authors Qingyan Guo, Rui Wang, Junliang Guo, Xu Tan, Jiang Bian, Yujiu Yang 虽然大型语言模型法学硕士在不同的任务中取得了令人印象深刻的表现,但最近的研究表明,因果法学硕士遭受了逆转诅咒。这是一个典型的例子,模型知道 A 的父亲是 B ,但无法推理 B 的孩子是 A 。这种限制对通用人工智能(AGI)的进步提出了挑战,因为它表明模型理解和应用双向推理的能力存在差距。在本文中,我们首先进行了实质性评估,发现逆转诅咒的根本原因在于训练阶段和推理阶段之间的词序不同,即因果语言模型预测训练数据中的先行词的能力较差。因此,对训练数据进行排列被认为是一种潜在的解决方案,因为这可以使模型预测先行词或标记。然而,以前的排列方法可能会破坏完整的短语或实体,从而给模型理解和学习训练数据带来挑战。为了解决这个问题,我们提出了语义感知排列训练 SPT ,它通过将训练句子分割成语义单元(即带有辅助语言模型的实体或短语)并在输入模型之前对这些单元进行排列来解决这个问题。 |
Dialect prejudice predicts AI decisions about people's character, employability, and criminality Authors Valentin Hofmann, Pratyusha Ria Kalluri, Dan Jurafsky, Sharese King 现在,数亿人与语言模型进行交互,其用途包括从作为写作辅助到为招聘决策提供信息。然而,众所周知,这些语言模型会延续系统性的种族偏见,使它们对非裔美国人等群体的判断产生有问题的偏见。虽然之前的研究主要集中在语言模型中的公开种族主义,但社会科学家认为,随着时间的推移,具有更微妙特征的种族主义已经发展起来。目前尚不清楚这种隐蔽的种族主义是否体现在语言模型中。在这里,我们证明语言模型以方言偏见的形式体现了隐蔽的种族主义。我们扩展了研究,表明美国人对非裔美国英语的使用者持有种族主义语言刻板印象,并发现语言模型也有同样的偏见,表现出比任何语言都更消极的隐性刻板印象。人类对非裔美国人的刻板印象曾经被实验记录过,尽管最接近民权运动之前的刻板印象。相比之下,语言模型对非裔美国人的明显刻板印象要积极得多。我们通过要求语言模型仅根据人们的说话方式做出关于人们的假设性决定,证明方言偏见可能会产生有害后果。语言模型更有可能表明,说非裔美国英语的人会被分配不太有声望的工作、被定罪并被判处死刑。最后,我们表明,现有的减轻语言模型中种族偏见的方法(例如人类反馈训练)并不能减轻方言偏见,而是可以通过教导语言模型表面上掩盖它们所维持的种族主义,从而加剧隐性和明显的刻板印象之间的差异。更深层次。 |
Few-Shot Relation Extraction with Hybrid Visual Evidence Authors Jiaying Gong, Hoda Eldardiry 少量镜头关系提取的目标是当只有少数标记实例可用于训练时预测句子中名称实体之间的关系。现有的少数镜头关系提取方法只关注单模态信息,例如仅文本。当文本中描述的名称实体之间没有明确的上下文时,这会降低性能。我们提出了一种多模态少镜头关系提取模型 MFS HVE,它利用文本和视觉语义信息来联合学习多模态表示。 MFS HVE 包括语义特征提取器和多模态融合组件。 MFS HVE 语义特征提取器旨在提取文本和视觉特征。视觉特征包括全局图像特征和图像内的局部对象特征。 MFS HVE 多模态融合单元使用图像引导注意力、对象引导注意力和混合特征注意力来集成来自各种模态的信息,以充分捕获图像视觉区域和相关文本之间的语义交互。 |
Self-Consistent Decoding for More Factual Open Responses Authors Christopher Malon, Xiaodan Zhu 自我一致性已成为提高大型语言模型生成的简短答案准确性的强大方法。正如前面所定义的,它只涉及从生成的文本解析出的最终答案的准确性。在这项工作中,我们通过将投票集成到解码方法中,将这一想法扩展到开放响应生成。每个输出句子都是从多个样本中选择的,并基于简单的标记重叠分数以先前的选择为条件。我们将这种样本选择方法与贪婪解码、波束搜索、核采样以及最近引入的 DoLA、PCRR 和 SCRR 幻觉避免解码器进行比较。我们表明,在对 FRANK 基准测试中使用的 CNN DM 和 XSum 子集进行基于 NLI 的评估中,Sample Select 相对于这些解码器将事实性提高了 30 个相对余量,同时与参考摘要保持可比的 ROUGE 1 F1 分数。 |
A Bit of a Problem: Measurement Disparities in Dataset Sizes Across Languages Authors Catherine Arnett, Tyler A. Chang, Benjamin K. Bergen 应如何跨语言比较文本数据集大小 即使对于内容匹配的并行语料库,UTF 8 编码文本对于不同语言也可能需要截然不同的字节数。在我们的工作中,我们将两种语言之间的字节溢价定义为用于对这些语言中的内容匹配文本进行编码的字节比率。我们计算 1155 种语言的字节溢价,并使用线性回归来估计其他语言的字节溢价。 |
Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores Authors Chantal Shaib, Joe Barrow, Jiuding Sun, Alexa F. Siu, Byron C. Wallace, Ani Nenkova 大型语言模型生成的输出的多样性塑造了对其质量和实用性的看法。人们很容易注意到不同交互中的提示泄漏、模板化答案结构和预设响应,但没有标准分数来衡量模型行为的这方面。在这项工作中,我们实证研究英语文本的多样性得分。我们发现,计算高效的压缩算法捕获的信息类似于通过缓慢计算 n gram 重叠同质性分数所测量的信息。此外,压缩比、长 n 克的自重复以及 Self BLEU 和 BERTScore 的测量组合足以进行报告,因为它们彼此之间的相关性较低。分数的适用性超出了生成模型的分析范围,例如,我们重点介绍了在指令调整数据集和人类生成的文本上的应用。 |
Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction Authors Edward Whittaker, Ikuo Kitagishi 语言模型 LM(例如 BERT)已被证明在识别文本中的命名实体 NE 的任务中表现良好。 |
ROME: Memorization Insights from Text, Probability and Hidden State in Large Language Models Authors Bo Li, Qinghua Zhao, Lijie Wen 探索大型语言模型的记忆具有重要意义。先前的工作已经建立了量化记忆的指标,探索了各种影响因素,例如数据重复、模型大小和提示长度,并通过将模型输出与训练语料库进行比较来评估记忆。然而,训练语料库规模巨大,预处理耗时。为了在不访问训练数据的情况下探索记忆,我们提出了一种名为 ROME 的新方法,其中通过比较已记忆和未记忆之间的差异来探索记忆。具体来说,模型首先将选定的样本分为记忆组和非记忆组,然后从文本、概率和隐藏状态的见解来比较两组中的演示。 |
Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese Authors Yuqi Chen, Sixuan Li, Ying Li, Mohammad Atari 在这项工作中,我们开发了一个用于古典汉语历史心理文本分析的管道。数千年来,人类一直在用各种语言生成文本,然而,大多数计算文献都集中在当代语言和语料库上。历史心理学这一新兴领域依靠计算技术,利用自然语言处理 NLP 中开发的新方法从历史语料库中提取心理学的各个方面。目前的流程称为情境化建构表征 CCR,将心理测量学的专业知识(即心理调查)与通过基于转换器的语言模型生成的文本表征相结合,以测量古典汉语语料库中的传统主义、规范强度和集体主义等心理建构。考虑到可用数据的稀缺性,我们提出了一种间接监督对比学习方法,并建立了第一个中国历史心理学语料库 C HI PSY 来微调预训练模型。我们评估该管道以证明其与其他方法相比的优越性能。 CCR 方法在我们的所有任务中都优于基于词嵌入的方法,并且在 |