知识图谱加速COVID-19科研突破

知识图谱加速COVID-19研究

知识图谱通过节点和边的网络结构组织信息,使其更易于探索和分析。在COVID-19知识图谱(CKG)中,节点代表实体,边表示实体间的关系。该图谱基于COVID-19开放研究数据集(CORD-19)构建,这是一个不断增长的学术文献库。

图谱结构

图谱包含五类节点:

  • 论文节点:包含标题、ID等元数据
  • 作者节点:记录作者姓名
  • 机构节点:包含机构名称和地理位置
  • 概念节点:提取自论文的医学术语(如布洛芬、心功能障碍、哮喘)
  • 主题节点:代表研究领域(如基因组学、流行病学、病毒学)

同时定义五类关系边:

  • 作者关系:连接论文与作者
  • 隶属关系:连接作者与机构
  • 概念关联:连接论文与相关概念
  • 主题关联:连接论文与主题
  • 引用关系:连接论文与被引文献

构建过程

  1. 数据提取:从标准化格式的CORD-19数据中提取标题、摘要、正文、作者、机构和引文信息
  2. 概念识别:使用某中心的医学文本理解服务提取医学实体并分类
  3. 主题提取:采用Z-LDA主题模型分析论文内容,经医学专家筛选后确定10个核心主题

应用案例:引文排序

图谱结构不仅支持简单引文计数,还能实现定制化统计,如按特定主题或概念筛选的引文分析。

相似论文推荐引擎

该引擎结合两种相似度计算方法:

语义嵌入模型

  • 使用基于科学文本优化的SciBert模型
  • 分别生成标题、摘要和正文的嵌入表示
  • 通过等权平均获得最终嵌入向量
  • 在表征空间中通过向量距离衡量论文相似性

知识图谱嵌入模型

  • 采用某中心开发的DGL-KE工具
  • 从图谱中提取(头实体,关系,尾实体)三元组作为训练数据
  • 通过正负样本训练区分真实与虚假链接
  • 为图中每个节点生成嵌入表示

最终将两种嵌入向量拼接,在高维空间中通过余弦距离计算最相似的k篇论文。由于缺乏标注数据,通过流行度分析、主题交集、低维聚类和摘要比较等方法进行算法评估。

该技术为COVID-19研究人员提供了强大的文献发现和分析工具,显著提升了科研效率。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值