电子健康推荐系统架构与文本相似度分析
1. 电子健康推荐系统概述
电子健康推荐系统结合数据挖掘技术,从数据中提取证据以推导新知识,并将推荐作为获取新知识的反馈。与其他基于医学本体描述知识库的策略不同,它基于非结构化文本数据进行处理。电子健康记录(EHR)以不同格式补充大数据存储库中的可用数据,其特点是数据的异质性、海量性和快速更新。该系统考虑从与症状和诊断相关的非结构化数据预处理,到利用以往经验和知识预防医疗风险的推荐策略,提供了从医学诊断的叙述风格到基于推荐的预防方案的综合视角,在智慧城市背景下尤为有用。
2. 文本相似度分析策略
在信息检索(IR)领域,搜索、检索和排序与用户输入模式相符的非结构化文本文档是一个挑战。搜索引擎需要解决这个问题,无论是在网络上还是在本地文件系统中搜索内容。为设计这类应用,提出了不同的数学模型和方法,其基本思想是评估两个文档之间的相似度,并根据与输入查询的相关性对结果进行排序,可采用布尔、向量、统计、概率或语义等方法。
传统上,IR中应用的模型可分为以下几类:
1. 基于布尔的模型(或理论集合模型) :
- 布尔标准模型 :以二进制方式衡量文档与查询的相关性,若文档包含搜索词,相关性值为1,否则为0。
- 扩展布尔模型 :能够分配特定权重,衡量与输入查询的部分匹配。
- 模糊逻辑模型 :允许纳入属于集合的概念,测量部分归属程度。
2. 基于向量的模型(或代数模型) :
-
超级会员免费看
订阅专栏 解锁全文
1386

被折叠的 条评论
为什么被折叠?



