【9月18日】面向学术文献的知识挖掘方法研究

本文介绍了一种基于位置加权的核心知识挖掘方法,该方法通过量化句子间的关联,并结合社会网络分析,有效地从文本中抽取出核心知识单元。首先构建句子复杂网络,定义并计算句子关联,进而采用社会网络分析中的点度中心度、中介中心度和接近中心度等指标,最后计算各章节的权重。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

本文提出一种基于位置加权的核心知识挖掘方法,旨在以句尾知识处理粒度,抽取正文中的核心句子作为独立的知识单元。通过量化句子间的关联,将正文表示成一个以句子为节点,句子间关联为边的文本关系网络,提出了基于章节的位置加权算法,结合社会网络分析方法,挖掘出文本中的核心知识单元部分的句子。

相关概念

知识抽取 是对蕴含于文献中的知识进行识别、理解、筛选、格式化,从而把文献中的各个知识点抽取出来,是信息抽取规则的升华和深化。可以分为三类:


- 基于模式匹配 : Chunxua Zhang和Peng Jiang研究了研究了如何对韩语语料进行定义抽取;温有奎利用学术文献中创新点表述的句子结构特点对创新点进行抽取。
- 基于本体: 通过建立本体描述概念与概念之间的关系,再基于建好的本体在文档中抽取相匹配的知识内容。车海燕等提出基于本体主题的属性识别方法基于本体属性约束的三元组元素识别方法。
- 基于语义抽取:目前尚没有理想的效果。

抽取方法

构建句子复杂网络-->社会网络分析

第一步的重点是“句子关联”的定义和计算:较简单的做法是经过处理之后直接计算词的耦合,复杂点再加上语法结构–“虽然……但是……”、“如果……就……”,同样的词出现在主句和出现在从句的意义并不一样;“基于该理论……”、“因此……”,“……该方法……”等连词和代词来表现句子之间的紧密联系。


第二步“社会网络分析”:点度中心度,中介中心度和接近中心度等。
本文提出了一种章节权重计算的方法。基于各章节之间词的耦合数进行权重计算,得出

章节权重
第一章(引言)0.175
第二章(相关研究)0.225
第三章(方法)0.215
第四章(实验)0.25
第五章(结论)0.14

实验描述

本文的实验数据选取10篇情报学领域的文献,且均包含五个章节(故适用性并不强)。
主要的工作,一是以词袋的形式表示句子,构建句子间的相似矩阵;二是以词袋的形式表示章节,再以社会网络的分析方式计算出章节的权重。
并没有啥新意。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值