自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(177)
  • 收藏
  • 关注

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.25-2024.09.30

由于知识领域的差距和多模态数据的稀缺,外科手术视频语言预培训(VLP)面临着独特的挑战。本研究旨在通过解决手术讲座视频中的文本信息丢失问题和手术 VLP 的时空挑战来弥补这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频语言预训练(PeskaVLP)框架来解决这些问题。知识增强使用大型语言模型(LLM)来完善和丰富手术概念,从而提供全面的语言监督并降低过拟合风险。

2025-03-24 15:40:21 918

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.20-2024.09.25

语义分割网络在独立和同分布数据的假设条件下取得了巨大成功。然而,由于这些网络通常训练的视觉概念集有限,因此在检测未知语义类别的异常情况时往往力不从心。为了解决这个问题,异常分割通常需要对离群样本进行微调,这就需要在数据收集、标记和模型再训练方面付出额外的努力。为了避免这种繁琐的工作,我们采取了一种不同的方法,建议将视觉语言(VL)编码器纳入现有的异常检测器,利用语义广泛的 VL 预训练来提高异常点识别能力。此外,我们还提出了一种新的评分功能,可通过文本提示实现无需数据和训练的异常点监督。

2025-03-24 15:40:04 604

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.15-2024.09.20

给定语言表达,参考遥感图像分割(RRSIS)旨在识别图像中的地面物体并分配像素标签。这项任务面临的主要挑战之一是通过文本-图像配准捕捉多模态特征。然而,现有的 RRSIS 方法使用的是一种虚构的粗对齐方式,即直接提取语言表达与视觉特征进行融合。本文认为,"细粒度图像-文本配准 "可以改善多模态信息的提取。为此,我们提出了一种新的遥感图像分割方法,称为 FIANet,它能充分利用视觉和语言表征。具体来说,原始参考表达被视为上下文文本,并进一步解耦为地面物体文本和空间位置文本。

2025-03-24 15:39:46 547

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.25-2024.09.30

影响语言产生的神经系统疾病,如阿尔茨海默病(AD),会对患者和护理者的生活产生重大影响,无论是通过社交、心理情感影响还是其他尚未完全理解的方面。大型语言模型(LLM)架构的最新进展开发了许多工具,可通过自发语音识别神经系统疾病的代表性特征。然而,大型语言模型通常缺乏可解释性,这意味着它们无法为其决策提供明确而具体的理由。因此,我们需要能够识别语音中神经系统疾病代表性特征的方法,并清楚地解释为什么这些特征是相关的。

2025-03-24 15:38:59 634

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.20-2024.09.25

奖励推理(从人类偏好中学习奖励模型)是从人类反馈中强化学习(RLHF)的关键中间步骤,用于微调大型语言模型(LLM),如 ChatGPT。在实践中,奖励推理面临着几个基本挑战,包括双重问题规范错误、奖励模型评估缺乏基本事实、分布偏移以及联合奖励模型和策略训练中的过拟合。避免这些缺陷的另一种方法是不进行奖励推理的直接策略优化,如直接偏好优化(DPO),它提供了一种简单得多的管道,并在 LLM 中取得了经验上的成功。然而,DPO 利用的是最优策略与奖励函数之间的闭式表达,这只适用于强盗设置或确定性 MDP。

2025-03-24 15:38:37 830

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.15-2024.09.20

多语言大型语言模型(LLM)是出色的翻译工具,但这在很大程度上仅限于高资源语言。对于许多 LLM 来说,翻译低资源语言仍然是一项具有挑战性的任务。为了在这种低资源环境下最大限度地提高数据效率,我们引入了 Mufu,其中包括自动生成的多语种候选语种选择,以及在提示中纠正不准确翻译的指令。Mufu 提示将翻译任务转化为贴片翻译任务,并试图利用 LLM 的推理能力和辅助翻译候选语,要求模型从中评估输入质量、跨语言对齐语义、从相关输入中复制并覆盖不正确的实例。

2025-03-24 15:38:19 808

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.01-2024.09.05

标题:抽象文本摘要:技术现状、挑战和改进摘要相对于抽取式技术,本调查报告特别关注抽象文本摘要的发展前景,对最新技术、当前挑战和前瞻性研究方向进行了全面概述。我们将这些技术分为传统的序列到序列模型、预训练大型语言模型、强化学习、分层方法和多模态摘要。与以往没有详细研究复杂性、可扩展性和技术比较的作品不同,本综述采用了一种全面的方法,涵盖了最先进的方法、挑战、解决方案、比较、局限性,并描绘了未来的改进方向–为研究人员提供了一个广泛的概览,以推进抽象摘要研究。

2025-03-24 15:37:57 514

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.25-2024.08.31

自动图像异常检测对于制造业的质量检测非常重要。通常的无监督异常检测方法是利用正常样本数据集为每个对象类别训练一个模型。然而,更现实的问题是零/少镜头异常检测,在这种情况下,只有零个或几个正常样本可用。这就给特定对象模型的训练带来了挑战。最近,大型基础视觉语言模型在各种下游任务中显示出强大的零镜头性能。虽然这些模型学习了视觉和语言之间的复杂关系,但它们并不是专门为异常检测任务设计的。

2025-03-24 15:37:36 764

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.01-2024.09.05

自 ChatGPT 问世以来,大型语言模型(LLM)在各种任务中表现出色,但在很大程度上仍是黑盒系统。因此,它们的开发在很大程度上依赖于数据驱动方法,限制了通过改变内部架构和推理途径来提高性能。因此,许多研究人员开始探索 LLMs 的潜在内部机制,旨在找出其推理瓶颈的本质,而大多数研究都集中在注意力方面。我们的调查旨在通过集中研究注意头的可解释性和内在机制来揭示 LLMs 的内部推理过程。我们首先将人类的思维过程提炼为一个四阶段框架:知识回顾、上下文识别、潜在推理和表达准备。

2025-03-24 15:36:58 677

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.05-2024.09.10

在大型语言模型(LLM)领域,处理长语境的能力对于多轮对话、代码生成和文档摘要等任务越来越重要。本文探讨了提高长语境性能、降低计算复杂度和利用预训练模型(统称为 “不可能三角”)等难题。我们介绍了 E2LLM(编码器拉长大语言模型),这是一种有效解决这一矛盾的新方法。该方法包括将长上下文分割成块,通过预训练的文本编码器将每个块压缩成嵌入向量,并利用适配器将这些表示与仅解码器的 LLM 对齐。为了便于 LLM 理解软提示,我们采用了两个训练目标,分别侧重于编码器输出的重构和长语境指令的微调。

2024-09-27 12:49:13 912

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.05-2024.09.10

在本文中,我们介绍了 “DetailCLIP:面向细节的 CLIP”,以解决基于对比学习的视觉语言模型,尤其是 CLIP,在处理分割等面向细节和细粒度任务时的局限性。虽然 CLIP 及其变体在图像和文本表征的全局对齐方面表现出色,但它们往往难以捕捉到精确分割所需的细粒度细节。为了克服这些挑战,我们提出了一个新颖的框架,该框架采用了补丁级自抖和像素级重构损失比较,并增强了基于注意力的标记去除机制。

2024-09-27 12:49:01 1082

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15

直接偏好优化(Direct Preference Optimization,DPO)的成功应用最近从对齐大型语言模型(LLMs)扩展到对齐具有人类偏好的文本到图像模型(text-to-image models),这引起了业界的极大兴趣。然而,我们注意到,这些方法在微调模型与参考模型的配准过程中,仅仅依赖于最小化反向库尔贝-莱伯勒分歧,而忽略了其他分歧约束的加入。在本研究中,我们重点将文本到图像模型配准范例中的反向库尔贝克-莱布勒发散扩展到。

2024-09-26 13:01:04 1226 2

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.10-2024.09.15

由于预训练的大型语言模型(LLMs)在自然语言处理方面的成功,它们在生物医学领域吸引了越来越多的关注。然而,在将这些模型应用于生物信息学和生物医学领域时,多源基因组学数据的复杂特征和异质性带来了巨大的挑战。为了应对这些挑战,我们提出了 GP-GPT,这是第一个用于基因表型知识表示和基因组学关系分析的专业化大型语言模型。我们的模型在一个由超过 3,000,000 个基因组学、蛋白质组学和医学遗传学术语组成的综合语料库上分两个阶段进行了微调,该语料库来自多个大规模验证数据集和科学出版物。

2024-09-26 13:00:51 920

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.25-2024.08.31

大语言模型(LLM)在处理长语境任务时面临巨大挑战,因为它们在预训练时的有效语境窗口大小有限,这限制了它们在扩展序列上的泛化能力。同时,通过后预训扩展 LLM 的上下文窗口非常耗费资源。为了解决这个问题,我们引入了 LongRecipe,这是一种用于扩展 LLM 上下文窗口的高效训练策略,包括影响性标记分析、位置索引转换和训练优化策略。它能在保持训练效率的同时模拟长序列输入,并显著提高模型对长程依赖关系的理解能力。

2024-09-25 12:58:37 1358

原创 文本摘要综述—从统计方法到大型语言模型综述介绍,原文阅读:A Systematic Survey of Text Summarization: From Statistical Methods to

随着深度神经网络、预训练语言模型 (PLM) 和最近的大型语言模型 (LLM) 的出现,文本摘要研究经历了几次重大转变。因此,本综述通过这些范式转变的视角,全面回顾了文本摘要的研究进展和演变。它分为两个主要部分:(1)详细概述 LLM 时代之前的数据集、评估指标和摘要方法,涵盖传统统计方法、深度学习方法和 PLM 微调技术;(2)首次详细研究 LLM 时代基准测试、建模和评估摘要的最新进展。通过综合现有文献并提出一个有凝聚力的概述,本综述还讨论了研究趋势、未解决的挑战,并提出了摘要方面的有希望的研究方向,旨

2024-09-25 12:58:26 1459

原创 AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.07.20-2024.08.15

在开放领域问题解答(OpenQA)等知识密集型任务中,大型语言模型(LLM)往往难以仅依靠其内部(参数)知识生成符合事实的答案。为解决这一局限性,检索增强生成(RAG)系统通过从外部来源检索相关信息来增强 LLM,从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能,但其训练却面临着挑战,原因是地面实况证据稀缺,这主要归咎于人工标注的高成本。在本文中,我们提出了 W-RAG,利用 LLM 的排名功能创建弱标签数据,用于训练高密度检索器。

2024-09-24 13:19:56 876

原创 AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.08.15-2024.09.10

检索增强生成(RAG)已成为在使用私有和最新知识库的同时使用大型语言模型(LLM)的常见范例。在这项工作中,我们探讨了在评估 RAG 系统生成的基础答案时使用 LLM 作为法官所面临的挑战。为了评估法官模型的校准和判别能力,我们确定了 7 种生成器故障模式,并引入了 GroUSE(Grounded QA Unitary Scoring of Evaluators)–一种包含 144 个单元测试的元评估基准。

2024-09-24 13:19:44 1155

原创 摘要生成—通过关键术语提示方法微调LLM模型,论文理解与阅读:Prompting LLMs with content plans to enhance the summarization of

本文做的是文献总结生成,即抽象摘要生成,探索的是提示方法,通过给定提示训练摘要模型,判断提示方法是否有用,具体:> > 1. 提示方法:从结构化的论文中抽取出关键术语,作为提示内容> 2. 模型选择:使用longT5,BigBirdPegasus,LED等模型> 3. 模型输入:1.引言+结论;2.每个章节;3.每个章节+章节标题

2024-09-23 10:18:54 1352

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.20-2024.08.25

最近在收集和分析连续教育数据方面取得的进展,使时间序列分析在教育研究中占据了举足轻重的地位,凸显了其在促进数据驱动决策方面的重要作用。然而,目前还缺乏对这些进展进行整合的全面总结。据我们所知,本文是第一篇专门针对教育领域的时间序列分析技术进行全面评述的文章。我们首先探讨了教育数据分析的前景,对与教育相关的各种数据源和类型进行了分类。然后,我们回顾了四种著名的时间序列方法–预测、分类、聚类和异常检测–说明了它们在教育环境中的具体应用点。

2024-09-23 10:17:48 944

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.20-2024.08.25

这项研究探索开发用于低资源语言(特别是阿塞拜疆语)图像检索的多模态视觉语言模型。现有的视觉语言模型主要支持高资源语言,对其进行微调仍然需要大量计算。为了应对低资源语言视觉语言检索的挑战,我们整合了 CLIP 模型架构,并采用了多种技术来平衡计算效率和性能。这些技术包括通过机器翻译生成合成数据、图像增强,以及使用特定领域的数据进一步训练基于转换器的模型的注意机制。

2024-09-05 15:46:10 864

原创 可控摘要综述—可控文本摘要调查,原文阅读:Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospec

通用的文本摘要方法往往无法满足个人用户的特定意图和需求。最近,学术界的注意力转向了开发更符合特定目标和用户需求的可控摘要方法。尽管可控摘要的研究成果越来越多,但目前还没有一份全面的调查报告来深入探讨在这种情况下使用的各种可控属性,深入研究相关的挑战,并调查现有的解决方案。在本调查报告中,我们正式提出了可控文本摘要(CTS)任务,根据可控属性的共同特点和目标对其进行了分类,并对每个类别中的现有数据集和方法进行了深入研究。此外,基于我们的发现,我们揭示了 CTS 的局限性和研究空白,同时也探讨了 CTS 的潜在

2024-09-05 15:45:59 952

原创 教育LLM—大型教育语言模型: 调查,原文阅读:Large Language Models for Education: A Survey

人工智能(AI)对传统教育有着深远的影响。近年来,大型语言模型(LLM)越来越多地应用于自然语言处理、计算机视觉、语音识别和自动驾驶等各种领域。LLM 还被应用于推荐、金融、政府、教育、法律事务和财务等多个领域。作为强大的辅助工具,LLM 融合了深度学习、预训练、微调和强化学习等多种技术。将 LLMs 用于智能教育(LLMEdu)已成为世界各国的重要战略方向。尽管 LLMs 在提高教学质量、改变教育模式、修正教师角色等方面已显示出巨大的前景,但该技术仍面临着一些挑战。

2024-09-04 12:42:38 1053

原创 科学LLM—科学大语言模型综述,原文阅读:A Comprehensive Survey of Scientific Large Language Models and Their Applicatio

1.纯文本:1.1.纯文本—数据集:科学LLM 最常用的预训练语料库是来自书目数据库的研究论文,例如AMiner、Microsoft Academic Graph (MAG)和 Semantic Scholar。其中一些来源(S2ORC)包含论文全文信息,而其他来源仅包含标题和摘要。1.2.纯文本—Model分类(预训练方式):早期的科学LLM模型在预训练期间以自监督的方式利用论文文本,旨在从大规模未标记语料库中获取科学知识。

2024-09-04 12:42:24 1949

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.15-2024.08.20

在机器学习应用中,检测失散(OOD)数据对于降低模型过度自信的风险,从而提高部署系统的可靠性和安全性至关重要。现有的大多数 OOD 检测方法主要针对单模态输入,如图像或文本。在多模态文档方面,这些方法的性能明显缺乏广泛的研究,它们主要是针对计算机视觉任务开发的。我们针对文档分类系统中的多模态 OOD 任务提出了一种新方法,称为注意力头屏蔽(AHM)。我们的实证结果表明,所提出的 AHM 方法优于所有最先进的方法,与现有的解决方案相比,它显著降低了假阳性率(FPR),最高可达 7.5%。

2024-09-03 13:05:58 960

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.15-2024.08.20

将大型语言模型(LLM)与人类推理方法相结合,可确保 LLM 做出符合道德标准且与人类相似的决定。由于目前的模型容易产生误报并提供恶意回复,因此引发了伦理问题。为了解决这个问题,我们策划了一个名为 “对齐理由数据集”(DFAR)的伦理数据集,旨在帮助对齐语言模型,生成类似人类的理由。该数据集包括带有道德-不道德标签的语句及其相应的原因。在本研究中,我们采用了一种独特而新颖的微调方法,即利用道德标签及其相应的原因(L+R),而现有的微调方法仅使用标签(L)。

2024-09-03 13:05:05 963

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.10-2024.08.15

在人-物互动(HOI)检测、场景图生成(SGG)和引用关系(RR)任务中,人们分别对视觉关系理解进行了研究。鉴于这些任务的复杂性和相互关联性,建立一个灵活的框架,以统一的方式有效地处理这些任务至关重要。在这项工作中,我们提出了 FleVRS,这是一个在标准和可提示视觉关系分割中无缝集成了上述三个方面的单一模型,并进一步具备了开放词汇分割的能力,以适应新的场景。FleVRS 利用文本和图像模式之间的协同作用,将图像中的各种类型的关系基础化,并将视觉语言模型中的文本特征用于视觉概念理解。

2024-09-02 12:48:35 957

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.10-2024.08.15

在开放领域问题解答(OpenQA)等知识密集型任务中,大型语言模型(LLM)往往难以仅依靠其内部(参数)知识生成符合事实的答案。为解决这一局限性,检索增强生成(RAG)系统通过从外部来源检索相关信息来增强 LLM,从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能,但其训练却面临着挑战,原因是地面实况证据稀缺,这主要归咎于人工标注的高成本。在本文中,我们提出了 W-RAG,利用 LLM 的排名功能创建弱标签数据,用于训练高密度检索器。

2024-09-02 12:48:25 1167

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.05-2024.08.10

有关大型语言模型(LLMs)文化意识的许多工作都集中在模型对地缘文化多样性的敏感性上。然而,除了跨文化差异之外,不同文化之间也存在共同点。例如,美国的新娘面纱与中国的 "红盖头 "在文化上扮演着相似的角色。在本研究中,我们引入了一个基准数据集 CUNIT,用于评估纯解码器 LLM 在理解概念的文化统一性方面的能力。具体来说,CUNIT 包含 1,425 个评估示例,基于 10 个国家的 285 个传统文化特定概念。基于对每个概念的文化相关特征进行系统的人工标注,我们计算出任何一对跨文化概念之间的文化关联。

2024-08-15 13:15:46 911

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.05-2024.08.10

GPT-4o 卓越的多模态能力和交互体验突出表明了其在实际应用中的必要性,然而开源模型却很少在这两个领域都有出色表现。在本文中,我们将介绍 VITA,它是有史以来第一个开源的多模态大语言模型(MLLM),善于同时处理和分析视频、图像、文本和音频模式,同时具有先进的多模态交互体验。从 Mixtral 8x7B 作为语言基础开始,我们扩充了它的中文词汇量,然后进行了双语教学调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予语言模型视觉和音频功能。

2024-08-15 13:15:35 1032

原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.01-2024.08.05

人类并非经济人(即理性经济人)。作为人类,我们会表现出系统性的行为偏差,如损失厌恶、锚定、框架等,这些偏差会导致我们做出次优的经济决策。既然这些偏差可能存在于训练大型语言模型(LLMs)的文本数据中,那么 LLMs 在多大程度上也容易出现同样的行为偏差呢?了解 LLM 中的这些偏差对于部署 LLM 以支持人类决策至关重要。我们提出了效用理论–现代经济理论的核心范式–作为评估 LLMs 经济偏差的一种方法。效用理论可以量化经济行为,并将其与完全理性或人类行为等基准进行比较。

2024-08-14 12:40:14 1291

原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.01-2024.08.05

虽然可以轻松在线访问预训练编码器,快速构建下游机器学习(ML)服务,但人们设计了各种攻击来破坏这些编码器的安全性和隐私性。虽然大多数攻击针对的是上游侧的编码器,但编码器在部署到下游机器学习服务中时如何受到威胁仍是未知数。本文揭示了一种新的漏洞:预训练编码器推理(PEI)攻击,这种攻击会对隐藏在下游 ML 服务背后的编码器造成隐私威胁。只需提供对目标下游服务和一组候选编码器的 API 访问,PEI 攻击就能根据候选编码器推断出目标服务秘密使用的编码器。

2024-08-14 12:40:03 1037

原创 抽象摘要—生成学术多文档结构化/简短摘要方法与数据集:Generating a Structured Summary of Numerous Academic Papers: Dataset and

本文介绍了一种学术论文多文档摘要总结的数据集,BigSurvey-MDS:综合总结;BigSurvey-Abs:survey论文的摘要是其正文的简短总结。并提出了一种多文档摘要总结方法:基于类别对齐和稀疏transformer(CAST)的方法。

2024-08-13 12:50:30 2678

原创 摘要生成—通过摘要风格控制摘要的生成/抽取,原文阅读与理解:GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Te

本文介绍了一种自适应摘要抽取/生成方法,通过一个风格检测器,检测输入文本的文本风格,从而确定要使用抽取式还是抽象式的方法进行摘要总结,方法值得学习。

2024-08-13 12:50:10 808

原创 学术模型—学术领域文本预训练模型综述,原文阅读:A Survey of Pre-trained Language Models for Processing Scientific Text

介绍了学术领域的110+个预训练模型: 领域:生物医学领域,化学领域,学术多领域 方向:NER,分类,RE,QA,NLI架构:基于bert,基于生成,基于其他架构

2024-08-12 12:34:06 796

原创 学术预训练模型—基础的学术领域Bert预训练模型,原文理解与阅读:SciBert: A Pretrained Language Model for Scientific Text

本文是经典的学术bert预训练模型,仅供补充基础知识

2024-08-12 12:33:53 1186

原创 Embedding—通过对比学习微调模型以获取学术文献句子嵌入:CLASSIFICATION AND CLUSTERING OF SENTENCE-LEVEL EMBEDDINGS OF SCIENT

该论文的目标是微调一个针对学术文献的句子特征,使用科学文献数据集,通过有监督对比学习的方式微调scibert和MiniLM,标签为:背景,目标,方法,结果,其他。对文章中标题为相应标签的章节中的句子打标为相应的标签,从而进行微调。

2024-08-09 13:29:01 1133

原创 抽象摘要—对三个抽象摘要模型(T5,BART,Pegasus)的性能进行评估:An Analysis of Abstractive Text Summarization Using Pre-train

本文做的就是一个测评,评估pegasus-cnn-dailymail,T5-base,bart-large-cnn的性能,从结论来看t5是效果最差的。

2024-08-09 13:28:51 771

原创 多分类—微调DistilBERT对生物医学文本进行实验方法多分类:Automated Text Mining of Experimental Methodologies from Biomedical

生物医学文献是一个迅速发展的科技领域。生物医学文本的分类是生物医学研究的重要组成部分,尤其是在生物学领域。本研究提出了经过微调的DistilBERT,这是一种用于挖掘生物医学文本的方法学专用预训练生成式分类语言模型。该模型已证明了其在语言理解能力方面的有效性,并将 BERT 模型的规模缩小了 40%,但速度却提高了 60%。本项目的主要目标是改进该模型,并评估该模型与未经精细调整的模型相比的性能。我们使用 DistilBert 作为支持模型,并在 32,000 篇摘要和完整文本文章的语料库上进行了预训练;

2024-08-08 12:11:30 1189

原创 抽象摘要—基于DistilBERT无监督(聚类和重建)为多文档生成摘要:Absformer: Transformer-based Model for Unsupervised Multi-Doc

多文档摘要(MDS)是指将多个文档中的文本总结为一个简明摘要的任务。生成的摘要能以几句话的形式提供重要内容,从而节省阅读多份文件的时间。抽象 MDS 的目的是利用自然语言生成技术为多个文档生成连贯流畅的摘要。在本文中,我们考虑了无监督抽象 MDS 的情况,即只有文档而没有提供真实摘要,我们提出了 Absformer,一种基于 Transformer 的无监督抽象摘要生成新方法。

2024-08-08 12:11:14 1278

原创 抽象摘要—学术论文中的图表字幕的生成(CLIP-SciBERT-GPT2):Figuring out Figures: Using Textual References to Caption Scie

本文做的就是学术论文中的图像的字幕生成,构造很简单:使用VLM—CLIP+SciBert+GPT2的模型进行训练,CLIP作为图像encoder,scibert作为文本encoder,使用gpt2作为decoder去生成图像字幕文本。

2024-08-07 12:57:28 881

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除