由学科引用矩阵计算相似度

本文介绍如何利用Excel数据计算学科引用矩阵的相似度,包括cosine相似度和claArr方法。通过读取Excel,计算并重新组织结果到新的Excel表中。针对228x228的数据集,进行了行和列的求和操作,改进了代码以适应实际行数和列数。还探讨了使用sklearn库处理稀疏矩阵的方法。

本文是用Excel表格内的学科引用矩阵计算得到学科相似度,分为以下几个步骤:

第一步,读取Excel数据,返回行标签和列标签和内部的数值(n维数组)。
第二步,对数据按行进行计算相似度。

其中这里写了2个计算相似度的方法,一个是cosine相似度,
另一个是由张琳的这篇文章《Diversity of References as an Indicator of the
Interdisciplinarity of Journals: Taking Similarity
Between Subject Fields Into Account》得到,由claArr方法计算,具体如下:
在这里插入图片描述
具体的标准化和归一化,看情况调用。

第三步,将计算得到的结果重新装进excel 表
import math
from openpyxl import load_workbook
import numpy as np
import pandas as pd

def genEmptyArr(i,j):
	a = []
	for ii in range(i):
		b = []
		for jj in range (j):
			b.append(0)
		a.append(b)
	return a

#归一化
def normalization(data):
	_range = np.max(data) - np.min(data)
	return (data - np.min(data)) / _range
 
#标准化
def standardization(data):
	mu = np.mean(data, axis=0)
	sigma = np.std(data, axis=0)
	d = (data - mu) /
我现在有了论文的向量表示,请你给我代码完成下述功能:3.2.3 引文网络边权重计算 传统引文网络建模通常将引用关系简化为二值连接,忽略了科研知识流动中复杂的关系强度差异。为解决这一问题,本研究提出基于多维度特征融合的细粒度权重建模方法,其核心在于平衡显式结构特征与隐式语义关联的贡献。计算流程如下: (1)结构权重计算 本研究首先从显式引用关系出发,通过对数变换量化直接引用的强度关联,建立基础结构关联。如公式(3.14)所示: (3.14) 其中表示论文i对j的原始引用次数,对数函数在保留引用强度相对顺序的同时,有效抑制极端值对权重分布的影响。这种非线性变换使得低频引用仍能保留可区分的信号强度,而高频引用则避免数值爆炸问题。然而,单纯依赖引文频次存在语义关联缺失的局限性,特别是在跨学科引用场景中,高频引用可能反映方法论的工具性借鉴而非实质内容相关性。 (2)共被引权重增强 为进一步捕捉领域内潜在关联,本研究还引入共被引权重增强机制,考虑对无直接引用但常被共同引用的论文对增强连接,公式为(3.15): (3.15) 该计算方式通过分母的几何平均实现共被引关系的归一化处理,有效消除目标论文自身被引量级差异带来的偏差。共被引权重的引入可识别无直接引用但研究方向高度相关的论文对,例如两篇论文若频繁被同一综述论文引用,则可能具有潜在的主题关联性。这种归一化策略本质上是将共被引频次映射到相对比例空间,从而抑制高被引论文对权重计算的支配效应,使得新兴论文间的隐性关联能够被有效识别。 (3)语义权重计算 以上的结构权重本质上仍属于浅层统计特征,难以准确刻画论文间的语义相似度。为进一步突破浅层统计特征的局限性,提出双通道语义权重计算方法,从文本内容和图结构两个维度构建深度语义关联。其实现步骤如下: 首先,在文本内容维度利用文本级语义相似度提取论文向量并计算余弦相似度,直接度量论文间主题和方法的语义相关性,如公式(3.16)所示: (3.16) 其中表示论文标题与摘要经BERT模型输出的向量。 接下来,在图结构维度通过变分图自编码器生成的低维嵌入向量计算图结构语义相似度,捕获引文网络拓扑中隐含的社区结构和传播模式,公式为(3.17): (3.17) 其中为图自编码器生成的低维嵌入向量。两种特征分别从局部文本信息和全局图结构两个互补视角计算论文关联。 最后,通过线性插值融合形成综合语义权重,其中设计文本语义权重占主导地位以保留领域知识的可解释性,公式为(3.18): (3.18) 超参数控制文本语义与图结构语义的贡献比例,本实验设定为0.6。 (4)动态融合策略 最终,为实现结构特征与语义关联的动态平衡,本研究设计自适应权重融合策略。如公式(3.19)所示,针对显式引用边与非显式边采用差异化处理: (3.19) 对于显式引用边,赋予结构权重更高置信度以反映领域内实证研究中显式引用对主题相关性的强指示作用;对于非显式引用边,则依据论文[ Jia M, Liu F, Li X, et al. Hybrid graph neural network recommendation based on Multi-Behavior interaction and time sequence awareness[J]. Electronics, 2023, 12(5): 1223.]的实证研究,将语义权重提升至70%,既保留共被引关系捕捉的潜在关联,又强化语义相似性对跨领域知识关联的发现能力。这种差异化处理机制为后续图嵌入模型提供了兼具结构引导性和语义敏感性的边权重体系,使得引文网络既能表示显式引用关系,又能捕捉潜在路径。
最新发布
04-02
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值