知识图谱加速COVID-19研究
知识图谱通过节点和边的网络结构组织信息,使其更易于探索和分析。在COVID-19知识图谱(CKG)中,节点代表实体,边表示实体间的关系。该图谱基于COVID-19开放研究数据集(CORD-19)构建,这是一个不断增长的学术文献库。
图谱结构
图谱包含五类节点:
- 论文节点:包含标题、ID等元数据
- 作者节点:记录作者姓名
- 机构节点:包含机构名称和地理位置
- 概念节点:提取自论文的医学术语(如布洛芬、心功能障碍、哮喘)
- 主题节点:代表研究领域(如基因组学、流行病学、病毒学)
同时定义五类关系边:
- 作者关系:连接论文与作者
- 隶属关系:连接作者与机构
- 概念关联:连接论文与相关概念
- 主题关联:连接论文与主题
- 引用关系:连接论文与被引文献
构建过程
- 数据提取:从标准化格式的CORD-19数据中提取标题、摘要、正文、作者、机构和引文信息
- 概念识别:使用某中心的医学文本理解服务提取医学实体并分类
- 主题提取:采用Z-LDA主题模型分析论文内容,经医学专家筛选后确定10个核心主题
应用案例:引文排序
图谱结构不仅支持简单引文计数,还能实现定制化统计,如按特定主题或概念筛选的引文分析。
相似论文推荐引擎
该引擎结合两种相似度计算方法:
语义嵌入模型
- 使用基于科学文本优化的SciBert模型
- 分别生成标题、摘要和正文的嵌入表示
- 通过等权平均获得最终嵌入向量
- 在表征空间中通过向量距离衡量论文相似性
知识图谱嵌入模型
- 采用某中心开发的DGL-KE工具
- 从图谱中提取(头实体,关系,尾实体)三元组作为训练数据
- 通过正负样本训练区分真实与虚假链接
- 为图中每个节点生成嵌入表示
最终将两种嵌入向量拼接,在高维空间中通过余弦距离计算最相似的k篇论文。由于缺乏标注数据,通过流行度分析、主题交集、低维聚类和摘要比较等方法进行算法评估。
该技术为COVID-19研究人员提供了强大的文献发现和分析工具,显著提升了科研效率。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
418

被折叠的 条评论
为什么被折叠?



