临床术语间语义相似度与关联度的实验研究Semantic Similarity and Relatedness between Clinical Terms: An Experimental Study

Semantic Similarity and Relatedness between Clinical Terms: An Experimental Study - PMC

美国国家医学图书馆

问题

在临床术语中,语义相似性相关性的概念不够明确,缺乏有效的测量方法和验证标准,这影响了信息检索和自然语言处理任务的准确性。

挑战

  1. 参考标准有限:缺乏经过验证的参考标准来评估自动化算法相对于人类判断的性能。
  2. 概念理解不足:需要更好地理解医学词汇中语义相关性和相似性的概念,以及它们之间的关系。

创新点

  1. 实验设计创新:通过让医学住院医师对医学术语对进行语义相似性相关性判断,收集了大量的人类判断数据,为后续研究提供了丰富的资源。
  2. 【我感觉相关性是需要知识的,就像我们能很快通过外部信息判断人和芭比娃娃相似,但我们要学过进化论才知道人类和鱼是由相关性的,这种内在的联系是需要挖掘。】
  3. 测量方法创新:采用了基于路径向量空间模型的方法来计算语义相似性和相关性,这些方法在医学领域的应用相对较少,为语义测量提供了新的视角。

贡献

  1. 确认概念区别:证实了在生物医学领域中,概念的相关性与相似性是不同的,且相关性的心理表征可测量独立于上下文
  2. 创建数据集:生成了一个公开可用的数据集,可作为开发和测试语义相关性和相似性测量方法的参考。
  3. 推进研究理解:加深了对医学语言中语义相关性和相似性概念的理解,为后续研究奠定了基础。

提出的方法

  1. 数据收集
    • 参与者:邀请了 8 名明尼苏达大学医学院的医学住院医师(2 女 6 男,平均年龄 30 岁)参与实验,并给予一定报酬。
    • 数据集构建:首先从统一医学语言系统(UMLS)中选择所有具有三种语义类型疾病、症状和药物)的概念,然后进一步筛选出包含至少一个单字术语的概念,以控制术语复杂性对相似性和相关性判断的影响。一名执业医师(Adam)手动选择术语对,使每个相关类别(完全不相关、有点不相关、有点相关和密切相关)和 6 种语义类型类别(疾病 - 疾病、疾病 - 症状疾病 - 药物、症状 - 症状、症状 - 药物、药物 - 药物)中大约包含 30 对术语,最终得到 724 对医学术语的数据集。在呈现术语对时,大多数情况下使用药物的品牌名,以避免因通用名相似带来的偏差。
    • 实验设置:受试者坐在距离 22 英寸电脑显示器两英尺的安静房间里,对显示器中央显示的每对医学术语进行相关性和相似性判断。通过触摸屏幕从左(低相似性 / 相关性)到右(高相似性 / 相关性)来表示两个术语的相似程度,设置 4 秒的时间限制以引出直观反应。每个受试者仅执行相似性或相关性判断任务中的一个,共分为两组,每组 4 人(每组 3 男 1 女)。在实验前,通过提供示例(如 “肺水肿” 和 “心力衰竭” 相关但不相似)向受试者解释任务,而不是依赖详细规则,以获取受试者的直观反应。记录受试者触摸屏幕位置的 X 和 Y 坐标(以像素为单位,从屏幕左边缘偏移,范围为 0 - 1600)以及从刺激呈现到响应的延迟(以毫秒为单位),X 坐标用作相关性 / 相似性的度量,值越低表示相关性 / 相似性判断越低。
  2. 计算机化测量方法
    • 相似性测量:采用简单的基于路径的方法,即概念之间的相似程度是它们在 UMLS 中路径长度的函数。
    • 相关性测量:使用向量空间模型方法,将每个术语表示为术语定义中单词频率的二阶向量,频率通过在大量医学文本语料库中计算得出。本研究使用了来自明尼苏达大学 Fairview 系统的约 500,000 份住院报告(入院、进展和出院记录)的语料库。

指标

  1. 一致性指标:使用组内相关系数(ICC)来衡量评分者在连续尺度响应上的可靠性。
  2. 相关性指标:使用 Spearman 等级相关系数来测试变量之间的线性关联,对于非线性关系的变量使用多项式模型进行分析。

模型结构

  1. 基于路径的相似性模型:将概念在 UMLS 中的层次结构路径作为衡量相似性的依据,路径越短表示概念越相似。
  2. 向量空间模型(用于相关性):将每个医学术语表示为一个向量,向量的元素是该术语定义中单词在大规模医学文本语料库中的频率,通过计算向量之间的某种关系(如余弦相似度等,论文未明确提及具体计算方式,但属于向量空间模型常见方法)来衡量术语之间的相关性。

结论

  1. 语义关系语义相似性和相关性之间存在单向蕴含关系,相似的术语对也可能相关,但反之不一定成立,且对于任何给定的术语对,相关性得分往往高于相似性得分
  2. 上下文独立性:临床术语之间的语义关联在很大程度上独立于可能的上下文。
  3. 任务差异:在相关性和相似性任务中,评分者的一致性程度存在差异,这可能与不同语义类型在相似性判断上的难度有关。通过分析发现,部分分歧源于少数评分者与其他评分者的不同判断,使用 “多数投票” 而非平均值来组合响应可能会使更多数据可用作参考标准。
  4. 研究意义:本研究加深了对生物医学术语语义相似性和相关性的理解,有助于开发自动化测量方法,且同一组术语对的不同相似性和相关性评级对于测试和比较基于路径和向量的自动化测量方法尤为重要。

怎么理解:上下文独立性:临床术语之间的语义关联在很大程度上独立于可能的上下文。

“上下文独立性:临床术语之间的语义关联在很大程度上独立于可能的上下文” 可以从以下几个方面理解:

含义解释

  1. 相对稳定的语义关系:临床术语本身所具有的语义关联相对固定的,不依赖于其出现的具体语境来确定其基本的语义联系。例如,“高血压” 和 “心血管疾病” 这两个术语之间存在内在的语义关联,这种关联是基于医学知识体系中对疾病分类、病理生理机制等方面的定义,无论在何种具体的医疗记录、研究报告或临床讨论中提到这两个术语,它们之间的这种基本语义关系都保持相对一致,不会因为上下文的变化而发生根本性改变。
  2. 核心语义特征主导:临床术语的核心语义特征决定了它们之间的主要关联,这些核心特征在不同的上下文中都具有主导性。以 “糖尿病” 和 “胰岛素” 为例,“糖尿病” 的核心语义特征涉及血糖代谢异常,而 “胰岛素” 是调节血糖的关键激素,它们之间基于疾病与治疗手段的紧密关联是由其核心语义决定的,在各种涉及糖尿病治疗、病理生理研究等上下文情境中,这种基于核心语义的关联都会凸显出来,而不受其他次要上下文信息的干扰。

【相关性是与上下文无关的,就像高血压和心血管疾病,他们之间的关系是由医学分类体系的概念和定义决定的。就像人和鱼的关系是进化论决定的,我补充了一堆上下文,我今天吃了一条红烧鱼,吃的很饱。也无法改变这种内在的事实,这种事实与联系是与上下文无关的。我认为UMLS就是这种事实非常便捷的一种方式。我也因此确定了我第一阶段的相似度首先是上下文无关的,其次是基于词汇的,因为词汇多了之后会产生新的关系,这些关系需要上下文来确定】

研究证据支持

  1. 实验设计体现:在该研究中,通过让医学住院医师对医学术语对进行判断,在设计上并没有为术语对提供特定的上下文情境,受试者主要依据自身对医学术语的专业知识和理解来判断其语义相似性和相关性。例如,在判断 “肺炎” 和 “咳嗽” 这对术语时,受试者是基于对这两个术语在医学概念体系中的固有认知,而非基于某个特定的病例描述临床场景来做出判断,这从实验操作层面暗示了术语之间的语义关联具有一定的上下文独立性。

【我有一个想法,上下文确定与概念确定其实各有各的信息量,这两种信息量是能互相影响的。

节点中的概念是内在定义,边是隐含关系,上下文是外显的关系。我们的很多任务其实都是通过内在定义与隐含关系对外显关系进行处理和判断。外显关系一定是更广泛的,我们要使用合理的方式对外显关系进行细化和推导。第一步是准确的识别关键的概念,然后将外显关系的噪声降低后放回语义中,根据目标进行处理与深化。改写为技术点就是:查询提取概念与关系

  1. 数据结果反映:研究结果中,例如在分析评分者对不同语义类型术语对(如疾病 - 疾病、疾病 - 症状、药物 - 药物等)的判断一致性时,发现尽管存在一些分歧,但总体上对于术语之间语义关系的判断并没有因可能的上下文因素而产生极大的波动。例如,对于 “骨折” 和 “疼痛” 这对术语,不同评分者在判断其相关性时,主要依据的是医学知识中骨折常伴随疼痛这一普遍的语义联系,而不是基于特定上下文(如某个运动员骨折时的特殊情境),这表明在研究的数据结果层面也反映出临床术语语义关联的上下文独立性。

重要意义

  1. 知识体系构建基础:这种上下文独立性有助于构建相对稳定和统一的医学知识体系。医学知识的传承、教育和交流依赖于明确且固定的术语语义关系。如果术语语义关联随上下文大幅变化,医学知识将变得混乱和难以捉摸。例如,医学教材在阐述疾病与症状、治疗方法等关系时,能够基于术语间相对稳定的语义关联进行系统讲解,使学习者能够建立起连贯的医学知识框架,而不必考虑过多复杂多变的上下文因素。
  2. 信息检索与处理优势:在医疗信息检索和处理方面具有重要价值。当开发基于语义的医疗信息检索系统时,如果临床术语语义关联相对独立于上下文,系统可以更准确地基于术语本身的语义关系进行索引和检索。例如,医生在查询电子健康记录(EHR)系统以获取与某种疾病相关的信息时,系统能够依据疾病术语与相关症状、治疗等术语的固有语义关联,准确地检索出相关记录,而不会因不同记录中上下文的差异而遗漏重要信息,从而提高医疗信息检索的效率和准确性,有助于临床决策和研究工作。

剩余挑战和未来工作

  1. 剩余挑战
    • 尽管发现了语义类型对判断一致性有影响,但仍需进一步深入理解如何更准确地定义和测量不同语义类型术语之间的相似性和相关性,特别是对于抽象概念(如疾病、症状)与具体概念(如药物)之间的比较。
    • 在处理评分者分歧方面,虽然提出了 “多数投票” 的思路,但如何更系统地解决分歧,提高数据质量和可靠性,仍然是一个需要探索的问题。
    • 虽然使用了基于路径和向量空间模型的方法进行测量,但这些方法可能存在局限性,例如基于路径的方法可能无法充分捕捉术语之间的语义细微差别,向量空间模型可能受到语料库规模和质量的影响。
  2. 未来工作
    • 进一步研究和改进语义相似性和相关性的测量方法,探索结合多种方法或开发新的方法,以提高测量的准确性和有效性。
    • 利用创建的数据集对更多的自动化算法进行测试和比较,优化算法性能,使其更好地符合人类的语义判断。
    • 扩大研究范围,包括更多类型的医学术语、不同医学领域的术语以及不同语言环境下的医学术语,以增强研究结果的普遍性和适用性。
    • 深入研究语义相关性和相似性在实际医疗应用中的作用,如电子健康记录查询优化、临床决策支持系统等,以评估其对医疗实践的实际价值。

抽象的

自动化测量语义相似性和相关性的方法可以为信息检索应用和许多基本的自然语言处理任务(包括词义消歧)提供必要的语义上下文信息。这些方法的开发面临的挑战包括经过验证的参考标准有限,以及需要更好地理解医学词汇中的语义相关性和相似性概念。我们介绍了一项研究的结果,该研究要求八名住院医师判断 724 对医学术语的语义相似性和相关性。研究结果证实,医学术语之间存在可测量的语义相关性心理表征,这种表征不同于相似性,也与术语出现的上下文无关。这项研究产生了一个经过验证的公开数据集,用于开发自动化测量语义相关性和相似性的方法。

介绍

统一医学语言系统 (UMLS) 中包含的临床和生物医学术语被组织成受控词汇表,而大型临床和生物医学文本库的使用为开发自动化方法来测量概念之间的语义相似性和相关性提供了丰富的资源。在电子健康记录 (EHR) 系统中查询患有特定综合症的患者通常需要使用各种医学术语,这些术语不仅表示诊断,还表示症状、治疗、病症和其他与该综合症密切相关的概念。相似性和相关性的自动测量可用于编译术语组以增强对 EHR 的查询。

心理语言学的既定研究重点是词汇语义和语义关联性。1、2确定并详细研究了两种类型的关联性——联想关联性和语义关联性联想关联性是指一个词让人想起另一个词(例如,针线)的概率,而心理语言学定义的语义关联性则反映了词之间语义特征重叠的程度(例如,鲸鱼-海豚)。这种区别基于启动实验的结果,例如,首先向受试者展示与目标在语义上相关或不相关的启动词,然后测量阅读时间或对目标词呈现的另一种反应(例如,眼球运动)。这些实验表明,受试者对具有共同语义特征(即语义相似)的单词启动的目标的反应比对具有联想关系(即语义相关)的单词启动的目标的反应更快。3、4除了行为启动实验外,神经影像学研究还表明,语义相关的词语与不相关的词语在神经反应上会引发明显不同的差异。5、6

目前,包括我们在内的多个研究小组正在研究确定医学术语之间相似性和关联性强度的计算机化方法。7  12这项工作的关键先决条件之一是提供经过验证的参考标准,这些标准可用于评估自动算法相对于人类判断的性能。此外,为了推进这一研究领域,需要更详细地了解医学语言中的语义关联性和相似性概念。

本研究的目的在于:a) 确认相关性不同于生物医学领域的概念相似性,b) 确定是否可以通过行为来测量上下文无关的语义相关性,以及 c) 创建一个可公开获得的数据集,可用作开发和测试测量语义相关性和相似性的方法的参考。

材料和方法

参与者:明尼苏达大学医学院的 8 名住院医师(2 名女性和 6 名男性;平均年龄为 30 岁)被邀请参加,并获得了适度的金钱补偿。参与者代表了明尼苏达大学所有住院医师的便利样本。本研究已获得明尼苏达大学机构审查委员会的批准。

数据集:术语对数据集的编制方式是,首先从 UMLS(不受来源限制)中选择所有具有以下三种语义类型之一的概念:疾病、症状和药物。随后,仅进一步选择包含至少一个单词术语的条目术语的概念,以控制由于术语复杂性的差异而导致的相似性和相关性响应的潜在差异。经过这种自动选择后,执业医师 (Adam) 手动选择单词术语对,使其在四个相关性类别(完全不相关、有点不相关、有点相关和密切相关)中的每一个类别和 6 个语义类型类别的术语对(疾病-疾病、疾病-症状、疾病-药物、症状-症状、症状-药物、药物-药物)中包含大约 30 个术语对。这产生了如图 1 i所示的数据集。

2e689b173d014cdfba902c7d9d605c88.png

术语对的呈现顺序和每对术语的顺序都是随机的。对于表示药物的术语,我们在大多数情况下使用品牌名称,因为具有相似化学成分和/或功能的药物的通用名称往往具有相似的拼写和发音,这可能是造成偏见的原因。

仪器和程序:受试者坐在距离 22 英寸电脑显示器两英尺远的安静房间里,并被要求对显示器中央显示的每对医学术语(HP TouchSmart IQ506)做出相关性和相似性判断。受试者被指示通过触摸屏幕来响应,以指示两个术语的相似程度,从左(低相似性/相关性)到右(高相似性/相关性)。我们设定了 4 秒的时间限制,以引起直观反应。这对于相关性判断尤为重要,因为我们希望防止受试者检查概念之间无限的关系链,从而可能使结果偏向于比他们最初反应更大的相关性程度。为了最大限度地减少练习效果,受试者参加了一个练习课程,其中包含 30 个未包含在主数据集中的术语对。

每个受试者只执行两个任务(相似性或相关性)中的一项,从而分成两组,每组 4 名受试者(每组 3 名男性和 1 名女性)。通过提供两种现象的例子向受试者解释这些任务(例如“肺水肿”和“心力衰竭”相关但不相似)。我们依赖于示例而不是详细的规则,因为我们感兴趣的是引发受试者的直觉反应。我们记录了受试者按压屏幕位置的 X 和 Y 坐标(以距屏幕左边缘的像素偏移量为单位(范围:0-1600),以及以毫秒为单位测量的从刺激呈现开始的响应延迟。X 坐标用作相关性/相似性的度量,值越低表示判断越不相关/相似。

计算机化测量:我们预计会发现评估者之间存在大量分歧,并假设分歧可能与语义相关性和相似性的强度概念本身有关。为了检验这一假设,我们使用了独立于评估者判断得出的测量值和相关性。相似性测量包括一种简单的基于路径的方法13,其中概念之间的相似度是 UMLS 中它们之间的路径长度的函数。相关性测量包括一种向量空间模型方法10,该方法将每个术语表示为该术语定义中单词频率的二阶向量,频率是通过大量医学文本计算得出的。我们使用了从明尼苏达大学 Fairview 系统的约 500,000 份住院报告(入院、进展和出院记录)语料库中得出的相关性测量。

统计分析:为了测量连续量表反应的评分者间信度,我们使用了 Shrout 和 Fleiss 定义的组内相关系数 (ICC)。14由于评分者的反应明显呈多峰分布,我们无法满足正态性假设,因此在本研究中依靠非参数 Spearman 等级相关来检验变量之间的线性关联。使用多项式模型分析表明非线性关系的变量。所有统计分析均使用 R (v 2.9.1) 包进行。

结果

由于相似性和关联性判断的时间限制,我们预计评估员将无法完成某些术语对的评估。在关联性任务中,所有评估员都成功完成了 724 个样本中的 587 个 (81%)。在相似性任务中,所有评估员都成功完成了 724 对中的 566 对 (78%)。在相似性任务中,评估员在药物-药物类别中的失败率较高 (占所有失败的 22%),其次是症状-症状类别 (占所有失败的 20%)。在关联性任务中,症状-药物类别 (21%) 的失败率最高,其次是疾病-药物类别 (20%)。

相似性与相关性:在两个任务中,所有八位评分员都成功回答了 724 对中的 457 对(63%)。这 457 对在相关性和相似性任务上的回答高度相关(r=0.80,p < 0.0001),表明相似性和相关性之间存在很强的关系。图 2中的图表显示,大多数被判定为不相似的术语对也被判定为不相关,反之亦然。许多术语对也被判定为不相似但有点相关(图的左上角),而没有一对被判定为相似并被标记为不相关(右下角)。相似性任务的成功率较低可能是因为评估不同语义类型之间的相似性很困难,这从表 1中对这些判断的一致性较低可以看出。

e9c13d0a77794e9aab46459b2a578119.png

表 1.

按医学术语对中的术语的语义类型划分的评分者间一致性

172d54e9f746429ea005139ca2e2563d.png

评分者间一致性:四位评分者均对 587 个相关性和 566 个相似性对做出回应,一致性处于中等范围(ICC 分别为 0.50 和 0.47)。表 1分别列出了对中每种语义类型的术语的评分者间一致性。

文章中的ICC值的作用与意义是什么:

    • 衡量评分者间一致性程度:在该研究中,用于评估不同评分者(医学住院医师)对医学术语对的相似性和相关性判断的一致性程度。例如,在计算 587 对相关性判断和 566 对相似性判断的评分者间一致性时,通过 ICC 值来量化评分者之间的一致性水平。
    • 确定数据可靠性和有效性:帮助研究者确定所收集的数据在多大程度上能够代表真实的语义相似性和相关性情况。较高的 ICC 值表明评分者之间的判断较为一致,数据更可靠,可用于后续的分析和作为参考标准;而较低的 ICC 值则提示数据可能存在较大的变异性和不确定性。
  1. 意义
    • 反映语义判断的稳定性:ICC 值反映了不同评分者对于医学术语语义相似性和相关性判断的稳定性。在不同语义类型(如 DISORDER - DISORDER、SYMPTOM - SYMPTOM、DRUG - DRUG 等)的术语对判断中,ICC 值的差异表明了评分者在不同类型术语判断上的一致性差异。例如,DRUG - DRUG 类别在相似性任务中的 ICC 值相对较高(0.63),说明评分者在这类具体概念的相似性判断上更容易达成一致,而在 DISORDER - DRUG 和 SYMPTOM - DRUG 类别中的一致性较低,反映出抽象概念(如疾病和药物)与具体概念(如药物)之间的相似性判断难度较大。
    • 辅助数据集优化和参考标准建立:通过分析 ICC 值,研究者可以确定哪些术语对的评分者间一致性较高,从而筛选出更可靠的子集作为参考标准。例如,研究发现超过 70% 的术语对达到了较好的一致性(ICC > 0.7),这有助于在后续研究中利用这些高质量的数据来开发和测试自动化的语义相似性和相关性测量方法。同时,ICC 值的分布情况(如在相似性和相关性任务中不同类别术语对的 ICC 值)也为进一步优化数据集提供了依据,例如可以针对一致性较低的类别进行更深入的分析或改进数据收集方法。

为了确定分歧是否均匀分布在整个数据集中或仅限于特定子集,我们使用了四位评分员提供的答案的标准差来减少配对集。我们确定了相关性和相似性连续体中一致性较好 (ICC > 0.7) 的配对数量和分布,表明 70% 以上的术语配对达到了良好的一致性。但是,为了将此子集用作参考标准,重要的是确保减少后相关性和相似性连续体中配对的分布与减少前的分布保持相似。

图 3图 4显示了两种分布的比较结果。图 3图 4左侧的面板显示了评分者对术语对刺激做出反应时触摸屏幕的位置。右侧的面板显示了左侧图中所示反应的直方图和概率密度分布。

12507aae76374d408c6b68ec302f814f.png

21783b3fa67c408382fd3d3fea817e79.png

图 3中的图表显示,评分员的回答被分为 3 组,大致对应于“不相关”、“相关”和“有点相关”类别。删除回答标准差较大的对会导致“有点相关”类别的密度略有降低。这表明大多数分歧来自“有点相关”类别;然而,在减少之前和之后,这些类别的分布总体形状保持相似,在“不相关”和“相关”群集之间的空间中有足够大比例的样本。

相似性任务的回答分布(图 4)表明,在量表的“不相似”和“相似”两端之间,模式更加分散。与关联性任务类似,删除评分者意见最不一致的配对会减少“有点相似”配对的数量,而不会显著改变分布的整体形状。

反应延迟:评分者的反应延迟呈 U 形分布,对不相关/不相似和相关/相似的对的反应较快,在这两个极端之间反应较慢(图 5 )。图 5中的图表表明,反应延迟与相关性判断之间的关联相对较强(r=0.42),但在相似性任务中关联较弱(r=0.26)。

分歧分析:首先,如表 1所示,评估者评估的词对中术语的语义类型显然发挥了作用。毫不奇怪,在判断疾病与药物以及症状与药物之间的相似性时,一致性最低。如果两个概念之间的语义相似性概念依赖于比较定义概念的特征集,那么可以预料,评估者在比较抽象概念(例如疾病和症状)与具体的化学物质时会更加困难。同样,可以预料,对于这些具体概念对的相似性判断会比对疾病和症状对的相似性判断更容易,这与表 1中药物-药物对的 ICC(0.63)高于其他类别相一致。

对基于路径和基于向量的相似性和关联性得分进行相关性测试,结果发现基于向量的关联性得分 (r = −0.13, p = 0.004) 与评估者关联性判断的标准差之间存在微弱但统计学上显著的负相关性,但与相似性判断无关 (r = 0.02, p = 0.604)。我们还发现基于路径的相似性度量与评估者在相似性任务 (r = 0.14, p = 0.002) 和关联性任务 (r = 0.1, p = 0.027) 中的判断标准差之间存在微弱但显著的相关性。这些相关性只能解释一小部分分歧;然而,基于向量的方法在关联性和相似性任务之间存在差异,而基于路径的方法没有差异,这一事实与图 2中明显的相似性和关联性判断之间的不对称关系一致。

  1. 相关性测试结果分析
    • 基于向量的关联性得分与评估者判断的关系:基于向量的关联性得分与评估者关联性判断的标准差之间存在微弱负相关(r = -0.13,p = 0.004)。这意味着当评估者对关联性判断的标准差较大(即评估者之间的分歧较大)时,基于向量的关联性得分往往较低;反之,标准差较小时,得分相对较高。然而,该得分与评估者的相似性判断几乎没有相关性(r = 0.02,p = 0.604),说明基于向量的方法在衡量关联性和相似性时具有不同的特性,在关联性方面能捕捉到一定的评估者分歧信息,但在相似性方面则无法体现
    • 基于路径的相似性度量与评估者判断的关系:基于路径的相似性度量与评估者在相似性任务(r = 0.14,p = 0.002)和关联性任务(r = 0.1,p = 0.027)中的判断标准差均存在微弱正相关。这表明在基于路径的方法中,无论是相似性还是关联性判断当评估者之间的分歧较大(标准差大)时路径度量得到的相似性得分也会有一定程度的增加,但这种相关性较弱。
  2. 对分歧解释的意义:尽管这些相关性在统计上显著,但它们只能解释评估者之间分歧的一小部分。这说明评估者之间的分歧不仅仅取决于这些度量方法所考虑的因素,还可能受到其他未被捕捉到的因素影响,如个人的专业知识、临床经验、对医学概念理解的细微差异等。
  3. 与相似性和关联性判断不对称关系的一致性
    • 图 2 中的不对称关系:从图 2 可以看出,相似性和关联性判断之间存在不对称关系,即相似的术语对往往相关,但相关的术语对不一定相似。例如,许多被判断为不相似的术语对也被判断为不相关,但没有术语对被判断为相似却不相关。
    • 与相关性测试结果的一致性基于向量的方法在关联性和相似性任务上的差异(在关联性判断中有与评估者标准差的相关性,而在相似性判断中无)与这种不对称关系一致。这表明基于向量的方法可能更能体现出这种复杂的语义关系特点,而基于路径的方法由于在相似性和关联性任务中与评估者标准差的相关性模式相似(均为微弱正相关),未能很好地反映出这种不对称性。这也进一步说明不同的度量方法在捕捉语义相似性和关联性的本质特征上具有不同的能力和侧重点。

讨论

我们的结果表明,语义相似性和相关性之间的关系是单向蕴涵关系——相似的术语对也可能相关,但反之则不然。我们还发现,对于任何给定的一对术语,相关性相对于相似性得分趋于更高(见图2)。我们的结果还表明,临床术语之间的语义关联在很大程度上与可能的上下文无关。响应延迟的分布提供了额外的证据,表明评估者的表现符合预期。

然而,我们确实发现关联性任务和相似性任务在相关程度方面存在差异。这种差异可能与相似性任务中某些语义类型的一致性远低于关联性任务的发现的原因类似(见表1)。手动检查分歧(标准差 > 400 像素)显示,其中 48% 是由于 4 位评分者中的一位提供的答案与其他三位答案相似的评分者不同。因此,我们认为,如果使用“多数投票”而不是平均值来组合答案,那么更大比例的数据可以用作参考标准。

我们生成关联性/相似性数据集的方法与之前报道过的其他一些方法 15、16 的主要区别在于,我们使用了连续尺度,并且对判断设置了时间限制。因此,我们的方法旨在引出评估者心中概念之间的隐性关系。

结论

这项研究加深了我们对生物医学术语之间语义相似性和相关性的理解,并将推动开发自动化方法来测量它们。对同一组术语对进行不同的相似性和相关性评级对于测试和比较基于路径和基于向量的自动化测量尤为重要。使用语义相似性数据集更适合前者,而相关性数据集更适合后者,这取决于这两种关系的定义方式。

致谢

这项工作得到了美国国家医学图书馆 (R01 LM009623-01) 的支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值