Meronymic Ontology Extraction via Large Language Models

该文章提出了一种基于大型语言模型(LLMs)的全自动部分论本体提取方法,可从原始评论文本中提取产品本体,并在相关性上超越了基于BERT的基线方法,同时还创新了评估方式。

一、文章主要内容

  1. 研究背景
    • 本体在数字时代对组织非结构化文本至关重要,广泛应用于电子商务等领域,但手动构建本体耗时、昂贵且费力。
    • 现有深度学习方法多聚焦于提取分类关系(is),而非部分整体关系(is part of,即部分论关系),且部分论本体评估缺乏标准基准和真实示例。
  2. 核心方法
    • 数据与模型选择:使用Amazon Reviews 2023数据集,选取5类产品评论;采用Mistral-7B-Instruct-v0.2模型,因其在资源有限场景下表现优异,并约束输出遵循JSON语法。
    • 四阶段提取流程
      • 方面提取:通过微调模型从评论中提取方面,结合词性标注过滤幻觉内容和形容词,筛选出高频方面。
      • 同义词集提取:基于词嵌入的等距节点聚类(ENC)对方面分组,相比K-Means聚类更精准。
      • 概念提取:选取同义词集中高频术语作为候选概念,由LLM判断是否纳入本体。
      • 关系提取:筛选含不同同义词集方面的句子,微调LLM判断部分整体关系,将任务转化为三选一的选择题。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值