基于语音识别的智能电子病历(三)之 M*Modal

讨论“基于语音识别的智能电子病历”,就绕不开 Nuance 和 M*Modal。这2个公司长时间的占据第一和第二的位置。下面介绍一下M*Modal

这是2019年的一个新闻“专业医疗软件提供商3M公司为自己购买了一份圣诞礼物,即M*Modal IP LLC的医疗技术业务,总价值为10亿美元。3M公司表示,此次收购旨在通过将M*Modal基于人工智能的医生会话软件添加到其产品组合中来推动其自身的医疗健康信息系统业务。”。实际的成交额没有这么高,最终的成交是 2.6亿美元 加 一些股份。但是这个收购,只是收购了 M*Modal 的研发团队和产品。客户和合同留给了Aquity Solutions,Aquity Solutions目前有1.4万员工。

M*Modal 是第一个大规模的把语音识别和结构化电子病历 结合起来的公司。当时 Nuance 的语音识别结果是SRT 和 IDX 文件。M*Modal 的识别结果已经是 CDA文件了(临床文档架构 Clinical Document Architecture)。

生成的CDA电子病历 能够直接编辑、发布、打印

AnyModal Publish  Two components:  Authoring tool for template creation  Server side component  Microsoft Word based conversion tool  CDA DOC, DOCX, PDF, HTML, TXT, …  Easy to configure using Microsoft Word 2007 for template generation  Full support for MsWord formatting features  Formatting templates can be maintained by account manager

接下来是一个具体的CDA 文件的例子

mm:conf的值是语音识别的质量。 

mm:part的值是语音识别的时间信息。

有了语音信息,再浏览CDA时就可以做到语音跟随。

语音跟随的CDA 电子病历编辑器

CDA看上很简单,但是结合发布模板可以生成非常复杂的电子病历文档。而且  M*Modal 提供了发布模板的制作工具。

CDA文件通过发布就可以生成比较复杂的病历,例如:

另: 

这是我们自研引擎的一一个文档,俺在2014-03-13写的。

### 多模态 Transformer 模型架构 多模态 Transformer 是一种基于自注意力机制的神经网络结构,旨在处理来自多个不同模式的数据输入。这种模型可以有效地融合文本、图像、音频等多种形式的信息,在一个统一框架下进行联合建模。 #### 架构特点 - **编码器-解码器结构**:类似于经典的 Transformer 设计,采用堆叠式的编码器和解码器层来捕捉序列间的依赖关系。 - **跨模态交互模块**:引入特定于每种模态类型的子网路(如视觉特征提取器CNN用于图片),并通过交叉注意机制实现各模态间信息交流[^3]。 - **共享参数空间**:为了提高效率并减少过拟合风险,某些版本的设计会尽可能多地让不同模态共用相同的权重矩阵或其他组件。 ```python class MultiModalTransformer(nn.Module): def __init__(self, config): super(MultiModalTransformer, self).__init__() self.text_encoder = TextEncoder(config) self.image_encoder = ImageEncoder(config) self.cross_modal_attention = CrossModalAttention() def forward(self, text_input_ids, image_features): encoded_text = self.text_encoder(text_input_ids) encoded_image = self.image_encoder(image_features) fused_representation = self.cross_modal_attention(encoded_text, encoded_image) return fused_representation ``` ### 应用场景 多模态大模型的应用范围广泛,涵盖了众多实际需求: - **自然语言处理增强**:当结合视觉线索时,机器翻译、问答系统等任务的表现得到显著提升; - **计算机视觉扩展**:借助文字描述辅助目标检测、图像分类等工作变得更加精准可靠; - **多媒体分析与生成**:支持视频字幕创作、语音识别转写等功能,提供更为丰富的用户体验; - **医疗健康领域创新**:利用病历记录配合影像资料帮助医生做出诊断建议,促进个性化治疗方案的发展[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月巴月巴白勺合鸟月半

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值