刚刚踏足医疗方向,目前在研究医疗实体标化问题,相较于广义上的实体链接(entity linking),不存在实体链接一般会存在的一词多义(Entity Ambiguity)问题,确切来说,医疗标准化这块最主要的问题是多词同义(Mention Variations),即同一种病,同一种药等会有许多不同的表达方式,这就是我们要去处理的,让非结构化的数据输入进来,先找到mention,然后去KB里找到对应的entity作为输出,即标准化.举个例子,"感冒"进来,输出"上呼吸道感染".
看了不少论文,目前在对其中一篇进行初探,有想法有疑问就写出来,当成翻译也行,大家一起研究.
Title:<A Lightweight Neural Model for Biomedical Entity Linking>
论文:https://arxiv.org/abs/2012.08844
代码:https://github.com/tigerchen52/Biomedical-Entity-Linking
论文思路分三步:
一~预处理。对语料库中的所有mention和 KB 中的entity进行预处理,使它们具有统一的格式。
二~候选实体生成。对于每个mention,从KB中生成一组候选entity。
三~ranking模型。对于每个mention及其候选entity,使用排名模型对每对进行评分,输出topk
一~预处理
缩写扩充('DM'-'Diabetes Mellitus')
数字替换('VI'-'6')
KB增强(拿训练集扩充KB)

本文探讨了一种针对医疗领域的轻量化神经网络模型,用于解决医疗实体链接问题。重点介绍了模型处理多词同义问题的方法,包括预处理、候选实体生成及排名模型的设计。
最低0.47元/天 解锁文章
8251

被折叠的 条评论
为什么被折叠?



