
information extraction
文章平均质量分 94
各种/通用信息抽取相关论文
小小帅AIGC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Embedding—通过对比学习微调模型以获取学术文献句子嵌入:CLASSIFICATION AND CLUSTERING OF SENTENCE-LEVEL EMBEDDINGS OF SCIENT
该论文的目标是微调一个针对学术文献的句子特征,使用科学文献数据集,通过有监督对比学习的方式微调scibert和MiniLM,标签为:背景,目标,方法,结果,其他。对文章中标题为相应标签的章节中的句子打标为相应的标签,从而进行微调。原创 2024-08-09 13:29:01 · 1235 阅读 · 0 评论 -
多分类—微调DistilBERT对生物医学文本进行实验方法多分类:Automated Text Mining of Experimental Methodologies from Biomedical
生物医学文献是一个迅速发展的科技领域。生物医学文本的分类是生物医学研究的重要组成部分,尤其是在生物学领域。本研究提出了经过微调的DistilBERT,这是一种用于挖掘生物医学文本的方法学专用预训练生成式分类语言模型。该模型已证明了其在语言理解能力方面的有效性,并将 BERT 模型的规模缩小了 40%,但速度却提高了 60%。本项目的主要目标是改进该模型,并评估该模型与未经精细调整的模型相比的性能。我们使用 DistilBert 作为支持模型,并在 32,000 篇摘要和完整文本文章的语料库上进行了预训练;原创 2024-08-08 12:11:30 · 1251 阅读 · 0 评论 -
IE(关键词)—通过T5验证提示如何设计,细节原文阅读:A Preliminary Study on Prompt-based Unsupervised Keyphrase Extraction
A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction基于提示的无监督关键词提取初步实证研究本文探索的是基于提示的LLM在关键词抽取中的效果,也就是说,通过实验不同提示下的性能,从而分析提示工程的设计效果。主要方法是通过传统的方原创 2024-07-18 13:11:20 · 874 阅读 · 0 评论 -
IE(关键词)—设计统计方法完成关键词排序,细节和原文阅读:An Efficient Domain-independent Approach for Supervised Keyphrase Extr
An Efficient Domain-independent Approach for Supervised Keyphrase Extraction and Ranking与领域无关的高效关键字提取和排名监督方法原创 2024-07-17 13:05:22 · 647 阅读 · 0 评论 -
IE(关键词)—MetaKP:关键词生成新范式—按需生成关键词(T5/BART/LLM),细节理解和原文阅读:MetaKP: On-Demand Keyphrase Generation
传统的关键词预测方法只能为每篇文档提供一组关键词,无法满足用户和下游应用的不同需求。为了弥补这一差距,我们引入了按需生成关键词的方法,这是一种新颖的范式,它要求关键词符合特定的高层次目标或意图。为了完成这项任务,我们提出了 METAKP,这是一个大型基准,包括四个数据集、7500 个文档和 3760 个目标,涉及新闻和生物医学领域,并带有人类标注的关键词。利用 METAKP,我们设计了监督和非监督方法,包括多任务微调方法和使用大型语言模型的自一致性提示方法。原创 2024-07-17 13:05:12 · 1139 阅读 · 0 评论 -
IE(关键词)—基于LLM和后处理步骤生成关键词,细节理解和原文阅读:LLM-TAKE: Theme-Aware Keyword Extraction Using Large Language Mod
关键词提取是自然语言处理的核心任务之一。传统的提取模型由于注意力集中时间短,很难总结出相距甚远的单词和句子之间的关系。这反过来又使它们无法用于生成从整个文本的上下文推断出的关键词。在本文中,我们将探索使用大型语言模型(LLM)来生成根据项目文本元数据推断出的项目关键词。我们的建模框架包括几个阶段,通过避免输出无信息或敏感的关键词,减少 LLM 中常见的幻觉,从而对结果进行细粒度处理。我们将基于 LLM 的框架称为主题感知关键词提取(LLM-TAKE)。原创 2024-07-10 12:51:42 · 2343 阅读 · 0 评论 -
Information extraction (keywords extraction,关键词抽取)—提升关键词抽取的后处理方法(Pos,领域库),细节理解和原文阅读:Using PoS-Tag
随着现代计算机系统处理的数字文本数据量不断增加,自动关键词提取(AKE)变得越来越重要。它在信息检索(IR)和自然语言处理(NLP)中有多种应用,包括文本摘要、主题分析和文档索引。本文提出了一种简单而有效的基于后处理的通用方法,通过 PoS 标记支持的增强语义感知水平来提高任何 AKE 方法的性能。为了证明所提方法的性能我们考虑了从 PoS 标记步骤和两个代表性语义信息源(一个或多个上下文相关词库中定义的专门术语和维基百科中的命名实体)中检索到的词类型。原创 2024-07-08 12:14:16 · 1064 阅读 · 0 评论 -
IE(关键词)—基于BART生成式摘要的关键词生成,细节理解和原文阅读:Cross-Domain Robustness of Transformer-based Keyphrase
用于文本生成的现代模型在许多自然语言处理任务中都取得了最先进的成果。在这项工作中,我们探讨了抽象文本摘要模型在关键词选择方面的有效性。关键词列表是数据库和电子文档库中文本的重要元素。在我们的实验中,针对关键词生成进行微调的抽象文本摘要模型在目标文本语料库中显示出相当高的结果。然而,在大多数情况下,在其他语料库和领域中的zero-shot性能要低得多。我们研究了抽象文本摘要模型在关键词生成方面的跨领域局限性。原创 2024-07-08 12:13:50 · 1230 阅读 · 0 评论 -
Information extraction(keywords extraction,关键词)—对LLM关键词抽取的实验分析,细节理解和原文阅读:Comparative Study of Domain
关键词在缩小人类理解与机器处理文本数据之间的差距方面发挥着至关重要的作用。关键词是丰富数据的必要条件,因为它们是详细注释的基础,而详细注释可提供对基础数据更深入的洞察力。关键词/领域驱动的术语提取是自然语言处理中的一项关键任务,有助于信息检索、文档摘要和内容分类。本综述重点介绍关键词抽取方法,强调三大大型语言模型(LLM)的使用: Llama2-7B、GPT-3.5 和 Falcon-7B。我们使用了一个定制的 Python 软件包来连接这些 LLM,从而简化了关键词提取。原创 2024-07-05 09:45:51 · 1611 阅读 · 0 评论 -
Information extraction(keywords extraction,关键词抽取)—术语抽取语料库,原文阅读:CoastTerm: a Corpus
气候变化对沿海地区(尤其是活跃但脆弱的地区)的影响日益加剧,这就要求各利益相关方和各学科通力合作,共同制定有效的环境保护政策。我们为自动术语提取(ATE)和自动分类(ATC)任务引入了一个新的专业语料库,该语料库由 410 篇有关沿海地区的科学摘要中的 2491 个句子组成。原创 2024-07-04 13:39:38 · 899 阅读 · 0 评论 -
Information extraction (关键词抽取)—提取关键词以改进文档检索,细节理解和原文阅读:Keyword Extraction for Improved Document
最近的研究表明,基于用户和计算机之间的互动来澄清和改进查询的混合式会话搜索具有巨大的优势。不过,将用户从对话中提供的额外信息纳入系统也带来了一些挑战。事实上,进一步的交互可能会使系统感到困惑,因为用户可能会使用与信息需求无关的词语,但这些词语对于多轮对话中正确造句至关重要。为此,我们在本文中收集了两个会话关键词提取数据集,并提出了一种端到端文档检索管道,将它们结合在一起。原创 2024-07-03 12:29:07 · 1220 阅读 · 0 评论 -
Information extraction(keywords extraction,关键词抽取)—对关键词提取进行验证,细节理解和原文阅读:Automated Annotation of
先进的分子生物学技术和设施每天都会产生大量宝贵的数据;然而,这些数据往往缺乏研究人员有效查找和搜索所需的基本元数据。元数据的缺乏给这些数据集的利用带来了巨大挑战。基于机器学习的元数据提取技术已成为一种潜在的可行方法,可自动为科学数据集标注有效搜索所需的元数据。文本标注通常由人工完成,在验证机器提取的元数据方面起着至关重要的作用。然而,人工标注既费时又不一定可行;因此,有必要开发自动文本标注技术,以加快科学创新的进程。原创 2024-07-03 12:28:58 · 1569 阅读 · 0 评论 -
Information extraction NLU—mPMR:多语言预训练机器阅读理解式框架,细节理解和原文阅读:mPMR: A Multilingual Pre-trained Machie
我们提出了多语言预训练机器阅读(mPMR),这是一种用于多语言机器阅读理解(MRC)式预训练的新方法。mPMR旨在指导多语言预训练语言模型(mPLMs)执行自然语言理解(NLU),包括多语言序列分类和跨度提取。为了在只有源语言微调数据的情况下实现跨语言泛化,现有的 mPLM 只能将 NLU 能力从源语言转移到目标语言。相比之下,mPMR 允许从 MRC 式预训练到下游任务直接继承多语言 NLU 能力。mPMR 还为跨语言跨度提取和序列分类提供了统一的求解器,从而可以提取理由来解释句对分类过程。原创 2024-07-01 13:34:53 · 1541 阅读 · 0 评论 -
information extraction—RexUIE通用信息提取,基于显式模式指示器的递归方法,细节理解与原文阅读:RexUIE: A Recursive Method
通用信息提取(UIE)是一个备受关注的领域,因为不同的目标、异构结构和特定需求的模式都带来了挑战。然而,以前的工作只是通过统一少数任务(如命名实体识别(NER)和关系提取(RE))取得了有限的成功,任务还不足以成为真正的通用信息提取模型,尤其是在提取其他通用模式(如四元和五元)时。此外,这些模型使用的是隐式结构模式指示器,这可能会导致类型之间的链接不正确,从而阻碍模型在低资源场景中的泛化和性能。在本文中,我们用一种正式的表述方式重新定义了真实的 UIE,它几乎涵盖了所有的提取模式。原创 2024-06-26 12:40:41 · 1479 阅读 · 0 评论 -
information extraction—GliNER 多任务(通用信息提取的轻量级模型),细节理解与原文阅读:GliNER multi-task: Generalist Lightweight
信息提取任务需要准确、高效和可泛化的模型。经典的有监督深度学习方法可以实现所需的性能,但它们需要大型数据集,而且适应不同任务的能力有限。另一方面,大型语言模型(LLM)具有良好的泛化能力,这意味着它们可以根据用户要求适应许多不同的任务。但是,大型语言模型的计算成本很高,而且往往无法生成结构化的输出结果。在本文中,我们将介绍一种新型的 GLiNER 模型,它可以用于各种信息提取任务,同时又是一种小型编码器模型。原创 2024-06-25 11:20:52 · 1751 阅读 · 0 评论 -
information extraction—SeqGPT(用于开放域序列理解的大型语言模型),细节理解与原文阅读:SeqGPT: An Out-of-the-box Large Language
大型语言模型(LLM)在开放域 NLP 任务中表现出了令人印象深刻的能力。然而,对于输出和输入格式总是受到限制的自然语言理解(NLU)任务来说,大型语言模型有时过于自由。它们在 NLU 任务中的表现与提示或演示有很大关系,而且在执行几项有代表性的 NLU 任务(如事件提取和实体键入)时表现不佳。为此,我们提出了 SeqGPT,这是一个开源自回归模型,专门针对开放域自然语言理解进行了增强。我们用两个原子任务来表达所有的 NLU 任务,原创 2024-06-25 11:20:37 · 1635 阅读 · 0 评论