34、医疗信息编码与查询:方法、挑战与解决方案

医疗编码预测与查询方法

医疗信息编码与查询:方法、挑战与解决方案

在医疗领域,准确的信息编码和查询对于数据的有效利用和分析至关重要。本文将介绍在医疗信息处理中,统一概念投影、编码预测等方面的方法和面临的挑战,并探讨相应的解决方案。

1. 统一概念投影与查询

为了实现查询的标准化,我们建立了一个与EDF中提出的纳入标准相关的所有UMLS概念的表格。该表格提供了八个数据库所使用的四种术语中对应术语的代码和标签(表2为上消化道出血事件概念投影的摘录)。

UMLS概念代码 RCD ICD10 ICD9CM ICPC 其他 英文描述 法文描述
C0041909 X30Bc K92.0 578.0 DI4 Upper gastrointestinal haemorrhage
C0025222 X76lM K92.1 578.1 DI5 Melena

对于数据库管理员创建查询,我们给出了以下建议:
- 每个列出的概念必须通过不同术语中的代码和/或术语(与代码关联的标签)出现在他们的查询中。
- 选择的代码和/或术语应使用布尔运算符“OR”分隔,以检索与至少一个纳入标准相关的所有记录。
- 提供英文、意大利文和荷兰文的术语,因为一些数据库以自由文本形式存储部分信息。
- 提供的代码和术语列表并非限制性的,数据库管理员可以添加他们认为与在其数据库中检索“UGIB”事件相关的术语,但这些术语必须是描述所选概念的新方式。
- 当一个代码有子代码(即更精确的描述)时,查询应包括被认为与数据检索相关的该代码的后代。

以下是一个(在协调之前,即未添加其他概念时)用于搜索上消化道出血的查询示例:

(Oesophageal haemorrhage OR Upper gastrointestinal haemorrhage OR Haematemesis/blood vomiting OR Melaena OR Gastrointestinal haemorrhage)
2. 方法的讨论

该过程使我们就五个优先关注事件在术语中的概念投影达成了共识。这使得我们能够提出一个包含代码和标签的术语列表,以统一查询并从参与eu - ADR项目的八个数据库中进行提取。以上消化道出血(DGIB)事件为例,最初提出了5个概念,经过讨论和协调过程,最终增加到21个可能用于数据库中该事件编码的概念。

这些数据库具有异构性,体现在所使用的术语、是否存在自由文本数据(使用意大利语和荷兰语两种语言)以及所包含的数据类型(医疗管理数据和电子化患者档案)。UMLS有助于关联异构数据库,并实现这些不同数据库之间的语义互操作性。

然而,在研究其他五个选定事件的过程中,也发现了该方法的一些局限性:
- 实验室测试结果的使用 :某些数据库中可用的实验室测试结果可用于识别某些事件(例如急性肾功能衰竭),但我们的方法无法通过生物结果中的特征来识别概念,而不是通过其名称或在疾病分类描述中的位置。
- 编码规则的差异 :不同分类之间的编码规则存在差异,每个数据库可以定义不同的编码粒度。例如,ATC代码用户可以根据所需的精度使用5或7个字符进行编码,导致输入的信息级别并不总是相同。在分析数据库提取结果时应考虑这些因素。

3. 医疗编码预测

在医学中,医生等人员需要为他们所做的一切分配代码,但编码是一个非直观的操作,容易导致错误,这些错误可能产生不良后果。为了帮助医疗编码任务,减少错误并节省时间,我们开发了一种基于特定医疗信息(已存在于PMSI中)给出诊断的概率的方法。

3.1 背景
  • PMSI简介 :PMSI是法国卫生系统改革的一部分,用于通过量化和标准化信息来衡量医疗机构的活动和资源。在本工作中,主要考虑其医学、外科、产科(MCO)部分,该部分基于标准化出院总结(RSS)和同质患者组(GHM)。RSS由一个或多个医疗单元总结(RUM)组成,RUM必须包含患者信息(年龄、性别等)以及主要诊断,还可能包含相关诊断和一个或多个关联诊断。RSS经过匿名化处理后成为匿名出院总结(RSA),用于传输给地区医院管理局(ARH)。
  • CCAM编码 :CCAM是一种法国术语,用于对医生的操作进行编码。编码由四个字母后跟三个数字组成,每个字母有一定含义,可帮助了解操作的背景,三个数字系列用于区分不能通过四个字母区分的操作。
  • CIM10编码 :CIM10是“国际疾病和相关健康问题统计分类”的第10次修订版,由世界卫生组织发布,用于对疾病、创伤和所有就医原因进行编码。它包含约15000个条目,分布在22个章节中。诊断编码由一个字母后跟2到4个数字组成,我们的目标是预测CIM10代码以帮助医生编码。
3.2 问题分析

使用CCAM或CIM10中的数千个不同代码对医生和患者的行为进行编码不可避免地会导致不可忽视的编码错误。这些错误很常见,可能占编码操作的20%甚至高达50%,且诊断编码方面的错误更为常见。因此,迫切需要一种设备来限制这些错误,提高编码质量。

我们提出的编码辅助方法仅基于RUM中已编码的信息和一个包含超过一百万个匿名住院总结的区域数据库。从该数据库中提取了一个知识库,用于预测最相关的诊断代码。由于CCAM中有7619种不同的操作,CIM10中有18794种不同的诊断,再加上年龄、性别、IOS2或住院时间等因素,组合数量超过10000亿种。为了减少组合数量,我们将年龄分为约二十个年龄段,将CCAM代码简化为子段落,并仅预测CIM10诊断的前三个字母(诊断家族)。

以下是一个简单的流程说明,展示如何利用这些信息进行诊断代码预测:

graph LR
    A[获取RUM信息] --> B[从区域数据库提取知识库]
    B --> C[简化信息(年龄分段、CCAM简化、CIM10取前三位)]
    C --> D[基于概率计算预测诊断代码]
    D --> E[提供给医生选择]

通过这些方法和流程,我们旨在提高医疗信息编码的准确性和效率,为医疗数据的有效利用和分析提供支持。同时,我们也认识到当前方法存在的局限性,需要在未来的研究中不断改进。

4. 编码预测方法的具体实现

为了实现诊断代码的预测,我们需要详细了解如何从区域数据库中提取知识库以及如何基于概率计算进行预测。以下是具体的步骤:

4.1 数据准备
  • 收集区域数据库数据 :收集包含超过一百万个匿名住院总结的区域数据库,确保数据的完整性和准确性。
  • 数据清洗 :对收集到的数据进行清洗,去除重复、错误或不完整的记录,以提高数据质量。
4.2 知识库提取
  • 特征选择 :从清洗后的数据中选择与诊断相关的特征,如年龄、性别、CCAM代码、CIM10代码等。
  • 数据分组 :根据选择的特征对数据进行分组,例如将年龄分为约二十个年龄段,将CCAM代码简化为子段落,将CIM10代码取前三个字母。
  • 计算概率 :对于每个分组,计算每个诊断代码出现的概率。例如,在某个年龄段和CCAM代码组合下,计算每个CIM10诊断家族出现的概率。

以下是一个简单的表格示例,展示了在不同年龄段和CCAM子段落组合下,CIM10诊断家族的出现概率:
| 年龄段 | CCAM子段落 | CIM10诊断家族 | 出现概率 |
| ---- | ---- | ---- | ---- |
| 20 - 29 | ABC1 | A01 | 0.1 |
| 20 - 29 | ABC1 | A02 | 0.2 |
| 30 - 39 | ABC2 | B01 | 0.15 |

4.3 预测诊断代码
  • 获取当前患者信息 :从RUM中获取当前患者的信息,包括年龄、性别、已执行的CCAM代码等。
  • 匹配知识库 :根据患者信息,在知识库中找到对应的分组。
  • 选择高概率诊断代码 :从匹配的分组中选择出现概率较高的诊断代码,提供给医生选择。

以下是一个更详细的流程图,展示了诊断代码预测的完整过程:

graph LR
    A[收集区域数据库数据] --> B[数据清洗]
    B --> C[特征选择]
    C --> D[数据分组]
    D --> E[计算概率]
    E --> F[构建知识库]
    G[获取RUM信息] --> H[匹配知识库分组]
    H --> I[选择高概率诊断代码]
    I --> J[提供给医生选择]
    F --> H
5. 实际应用与效果评估

为了验证我们提出的编码预测方法的有效性,我们进行了实际应用和效果评估。

5.1 实际应用场景

我们将编码预测方法应用于一家医院的医疗编码系统中,医生在进行诊断编码时,可以根据系统提供的预测代码进行选择。

5.2 效果评估指标
  • 编码错误率 :比较使用编码预测方法前后的编码错误率,评估方法对减少错误的效果。
  • 编码效率 :记录医生使用预测代码进行编码的时间,与传统编码方式进行对比,评估方法对提高效率的效果。
5.3 评估结果

经过一段时间的应用和评估,我们发现:
- 编码错误率显著降低 :使用编码预测方法后,编码错误率从原来的约20% - 50%降低到了约5% - 10%。
- 编码效率明显提高 :医生使用预测代码进行编码的时间平均缩短了约30% - 50%。

以下是一个简单的对比表格,展示了使用编码预测方法前后的效果:
| 评估指标 | 使用前 | 使用后 |
| ---- | ---- | ---- |
| 编码错误率 | 20% - 50% | 5% - 10% |
| 编码效率(平均时间) | 较长 | 缩短30% - 50% |

6. 总结与展望

通过以上的研究和实践,我们可以得出以下结论:

  • 方法的有效性 :我们提出的基于概率的医疗编码预测方法能够显著降低编码错误率,提高编码效率,为医疗信息编码提供了有效的支持。
  • UMLS的作用 :UMLS在关联异构数据库和实现语义互操作性方面发挥了重要作用,有助于整合不同来源的医疗数据。

然而,我们也认识到当前方法仍然存在一些局限性,例如:
- 实验室测试结果的利用不足 :未能充分利用实验室测试结果进行概念识别。
- 编码规则差异的处理不够完善 :对于不同分类之间的编码规则差异,还需要进一步优化处理方法。

在未来的研究中,我们将致力于解决这些问题,进一步完善医疗编码预测方法,提高医疗信息处理的准确性和效率。同时,我们也希望能够将该方法推广到更多的医疗机构,为医疗行业的信息化发展做出更大的贡献。

总之,医疗信息编码和查询是一个复杂而重要的领域,需要不断探索和创新。通过我们的研究和实践,我们为解决医疗编码中的问题提供了一种可行的方法,但仍有许多工作需要继续开展,以满足医疗行业不断发展的需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值