[ACL 2022]Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

论文网址:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding - ACL Anthology

论文代码:https://github.com/GanjinZero/ICD-MSMN

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Approach

2.3.1. Code Synonyms

2.3.2. Encoding

2.3.3. Multi-synonyms Attention

2.3.4. Classification

2.3.5. Training

2.4. Experiments

2.4.1. Dataset

2.4.2. Implementation Details

2.4.3. Baselines

2.4.4. Main Results

2.4.5. Discussion

2.4.6. Memory Complexity

2.5. Related Work

2.6. Conclusions

1. 心得

(1)感觉创新一般般,正文内容偏少

2. 论文逐段精读

2.1. Abstract

        ①作者认为现在大家都在关注标签相似度,但作者也想关注同义词编码

        ②作者想把ICD标签和UMLS知识库对齐以收集同义词

2.2. Introduction

        ①作者觉得需要匹配同义词如“甲状腺功能减退”=“低的t4指标”

        ②作者提出Multiple Synonyms Matching Network (MSMN)去解决同义词问题

2.3. Approach

        ①设自由诊断文本为S,其中的单词集是\left \{ w_i \right \}^N_{i=1}

        ②任务:多标签分类y_l \in \left \{ 0,1 \right \}

        ③MSMN框架图:

2.3.1. Code Synonyms

        ①先把每个ICD标签对齐UMLS的概念唯一标识符(CUIs)

        ②将同义词去掉连字符和NOS(Not Otherwise Specified)之后\left \{ l^2,...,l^M \right \}与ICD标签l^1连接

        ③每个词组都由很多单词组成:\left\{ j_i^j \right\}_{i=1}^{N_j}

hyphen  n.连字符

2.3.2. Encoding

        ①以前的工作觉得BERT不能帮助ICD分类所以作者选了LSTM作为文本编码器??这,这样写真的好吗

        ②作者使用一个d层的双向LSTM去编码每个单词:

\mathbf{H}=\mathbf{h}_1,...,\mathbf{h}_N=\mathrm{Enc}(\mathbf{x}_1,...,\mathbf{x}_N)\in \mathbb{R}^{h}

        ③对同义词也采用同样的编码方式:

\mathbf{q}^j=\mathrm{MaxPool}(\mathrm{Enc}(\mathbf{x}_1^j,...,\mathbf{x}_{N_j}^j))\in \mathbb{R}^{h}

2.3.3. Multi-synonyms Attention

        ①受多头自注意力的启发,将原始标签特征\mathbf{H}\in\mathbb{R}^{N\times h}拆分成M个(契合多头的不同头)\mathbf{H}^{j}\in\mathbb{R}^{N\times\frac{​{h}}{M}}

\mathbf{H}=\mathbf{H}^1,...,\mathbf{H}^M

分别对每个头把同义词标签组和文本特征实行点积计算相似度\alpha_{l}^{j} \in \mathbb{R}^{N},然后把每个头算出的相似度分别和文本特征乘起来:

\begin{aligned} & \alpha_{l}^{j}=\mathrm{softmax}(\mathbf{W}_{Q}\mathbf{q}^{j}\cdot\mathrm{tanh}(\mathbf{W}_{H}\mathbf{H}^{j})) \\ & \mathbf{v}_{l}=\mathrm{MaxPool}(\mathbf{H}\alpha_{l}^{1},...,\mathbf{H}\alpha_{l}^{M}) \in \mathbb{R}^{h}\end{aligned}

只要至少一个同义词匹配到了相关文本,该特征就会被保留。增强了模型对表达多样性的鲁棒性。

2.3.4. Classification

        ①使用biaffine transformation计算相似度用于分类:

\mathbf{q}_{l}=\mathrm{MaxPool}(\mathbf{q}^1,\mathbf{q}^2,...,\mathbf{q}^M)\\\hat{y}_{l}=\sigma(\mathrm{logit}_{l})=\sigma(\mathbf{v}_{l}^{T}\mathbf{W}\mathbf{q}_{l})

减少了计算量

2.3.5. Training

        ①交叉熵损失:

\mathcal{L}=\sum_{l\in\mathcal{C}}-y_l\log(\hat{y}_l)-(1-y_l)\log(1-\hat{y}_l)

2.4. Experiments

2.4.1. Dataset

        ①数据集:MIMIC-III full和MIMIC III 50

        ②数据集统计:

2.4.2. Implementation Details

        ①同义词数量:在MIMIC III full中M=4,在在MIMIC III 50中M=8

        ②同义词是随机挑选的同个数,如果数量不够就一直重复

        ③文本嵌入是用的别的文章的,CBOW什么的

        ④使用R-Drop且\alpha =5

        ⑤嵌入后的Dropout rate:0.2

        ⑥一些超参数:

2.4.3. Baselines

        ①基线:CAML、MSATT-KG、MultiResCNN、HyperCore、LAAT%JointLAAT

2.4.4. Main Results

        ①在MIMIC III full上的对比实验:

        ②在MIMIC III 50上的对比实验:

2.4.5. Discussion

        ①尝试不同的同义词数量M\in \left \{ 1,2,4,8,16 \right \}和不同的文本-标签匹配方式:

        ②同义词表征空间:

2.4.6. Memory Complexity

        ①使用Einstein 求和优化来少求注意力得分的中间内存

2.5. Related Work

        ①举例一些机器学习,RNN/CNN,标签注意力,图卷积,知识图谱

2.6. Conclusions

        ~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值