从患者笔记中挖掘流程模型及医疗数据的多维分析
1. 从患者笔记中发现流程模型
1.1 背景与问题
流程挖掘通常需要为每个事件标注流程活动的事件日志,但许多流程感知信息系统以文本笔记形式存储流程相关信息,如患者信息系统(PIS)。为基于文本的事件标注活动并非易事,因为数据量大,且文本笔记所代表的活动可能模糊不清。此外,两个事件是否代表同一活动也不明确,这取决于流程分析师的需求。因此,活动标签应被视为分层本体,根据流程模型所需的粒度级别,事件所代表的活动可以用不同但相关的概念来表达。
1.2 相关工作
多数流程挖掘研究集中于使用标注的事件日志,对基于文本的事件日志研究较少。早期尝试将自由文本数据用于自动流程发现时,需用户手动为邮件等文本笔记标注活动,这往往不现实或不可行。部分研究提出了从邮件日志中提取业务流程活动的框架,但依赖手动标注。也有研究提出自动从文本笔记中提取流程模型的框架,使用潜在狄利克雷分配(LDA)对代表同一活动的笔记进行分组并生成关键词。
1.3 挖掘过程
- 未标注事件日志要求 :从源系统(如PIS)提取未标注事件日志,每个事件包含案例ID、时间戳和包含患者笔记的自由文本字段。时间戳用于确定事件发生顺序。
- 文本处理 :将每个事件视为文档,所有笔记构成语料库。将每个笔记转换为n - 元组袋,使用长度为(1, 2)的n - 元组在距离矩阵质量和计算性能之间取得良好平衡。创建文档 - 词矩阵(dtm),包含词频/逆文档频率(tf - idf)值,最后使用余弦距离计算距离矩阵。 <