28、从患者笔记中挖掘流程模型及医疗数据的多维分析

从患者笔记中挖掘流程模型及医疗数据的多维分析

1. 从患者笔记中发现流程模型
1.1 背景与问题

流程挖掘通常需要为每个事件标注流程活动的事件日志,但许多流程感知信息系统以文本笔记形式存储流程相关信息,如患者信息系统(PIS)。为基于文本的事件标注活动并非易事,因为数据量大,且文本笔记所代表的活动可能模糊不清。此外,两个事件是否代表同一活动也不明确,这取决于流程分析师的需求。因此,活动标签应被视为分层本体,根据流程模型所需的粒度级别,事件所代表的活动可以用不同但相关的概念来表达。

1.2 相关工作

多数流程挖掘研究集中于使用标注的事件日志,对基于文本的事件日志研究较少。早期尝试将自由文本数据用于自动流程发现时,需用户手动为邮件等文本笔记标注活动,这往往不现实或不可行。部分研究提出了从邮件日志中提取业务流程活动的框架,但依赖手动标注。也有研究提出自动从文本笔记中提取流程模型的框架,使用潜在狄利克雷分配(LDA)对代表同一活动的笔记进行分组并生成关键词。

1.3 挖掘过程
  • 未标注事件日志要求 :从源系统(如PIS)提取未标注事件日志,每个事件包含案例ID、时间戳和包含患者笔记的自由文本字段。时间戳用于确定事件发生顺序。
  • 文本处理 :将每个事件视为文档,所有笔记构成语料库。将每个笔记转换为n - 元组袋,使用长度为(1, 2)的n - 元组在距离矩阵质量和计算性能之间取得良好平衡。创建文档 - 词矩阵(dtm),包含词频/逆文档频率(tf - idf)值,最后使用余弦距离计算距离矩阵。
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值