[BIBM 2023]ChatICD: Prompt Learning for Few-shot ICD Coding through ChatGPT

部署运行你感兴趣的模型镜像

论文网址:ChatICD: Prompt Learning for Few-shot ICD Coding through ChatGPT | IEEE Conference Publication | IEEE Xplore

论文代码:GitHub - MicroAVA/ChatICD: Prompt Learning for Few-shot ICD Coding through ChatGPT

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related work

2.3.1. Prompt Learning

2.3.2. Few-shot Learning

2.3.3. ICD Coding

2.4. Methods

2.4.1. Data Augmentation with ChatGPT

2.4.2. Prompt-based fine-tuning

2.5. Experiments

2.5.1. Dataset

2.5.2. Evaluation Metrics

2.5.3. Prompt Design

2.5.4. Baselines

2.5.5. Main Results

2.5.6. Ablation Study

2.6. Discussion

2.6.1. Why use ChatGPT for data augmentation?

2.6.2. Why not use ChatGPT directly for ICD coding, but instead use pre-trained models?

2.6.3. Why not use the MIMIC-III-full dataset to validate the method?

2.7. Conclusion

1. 心得

(1)方法仅适合类别少的分类,只适合MIMIC-III 50而绝对不适合MIMIC-III full

(2)方法很别致,至于好不好用就不知道了

(3)效果看上去还没人家MIMIC-III-full的好呢

2. 论文逐段精读

2.1. Abstract

        ①作者提出ChatICD,专注于解决少样本问题

2.2. Introduction

        ①MIMIC-III数据集的分布:

2.3. Related work

2.3.1. Prompt Learning

        ①讲了一些提示学习的发展

2.3.2. Few-shot Learning

        ①介绍一些人怎么解决少样本问题的,如设计特定模型,数据增强或设计特定训练策略

2.3.3. ICD Coding

        ①介绍了深度学习的发展,从CNN到RNN

2.4. Methods

        ①模型框架:

2.4.1. Data Augmentation with ChatGPT

        ①每个token:u=\{u_{1},u_{2},\cdots,u_{n}\}

        ②自回归语言模型ChatGPT的优化目标:已知前面内容,最大化预测内容为正确内容的概率:

L(u)=\sum_{i=1}\log P\left(u_i|u_1,\cdots,u_{i-1};\theta\right)

其中\theta是可学习参数

        ③每个token都有词嵌入和位置嵌入:

h_0=UW_e+W_p

其中W_e是词向量矩阵,W_p是位置向量矩阵

        ④使用N个Transformer去提取特征:

h_l=transformer\_blocks\left(h_{l-1}\right),n\in[1,N]

        ⑤预测token:

P(u)=softmax\left(h_NW_e^T\right)

其中h_N是之前几个Transformer块的输出

2.4.2. Prompt-based fine-tuning

        ①提示:

X_{prompt} =d_1:\left[\mathrm{MASK}\right],d_2:\left[\mathrm{MASK}\right],\ldots,d_N:\left[\mathrm{MASK}\right].X_{in}

类似“一种皮肤病,持续红疹:[yes/no],一种胃病,持续胃疼[yes/no],...,一种传染性疾病,发烧流涕头痛:[yes/no]。发烧流涕”

        ②标签分类:

\begin{aligned} & P\left(x|x_{in}\right)=p\left(\left[MASK\right]_{c_i}=M(y)|X_{prompt}\right) \\ & =\frac{exp\left(W_{M(y)}\cdot h_{\left[MASK\right]_{c_i}}\right)}{\sum_{y\in Y}exp\left(W_{M(y)}\cdot h_{\left[MASK\right]_{c_i}}\right)} \end{aligned}

其中[MASK]_{c_i}是输入x_{in}的隐藏层

2.5. Experiments

2.5.1. Dataset

        ①数据集:MIMIC-III-50和MIMIC-III-rare50

        ②使用样本:对于50个高频代码,训练集有8,066个样本,验证集有1,574个样本,测试集有1,729个样本;对于50个稀有代码,训练集有249个,验证集有20个,测试集有142个样本

2.5.2. Evaluation Metrics

        ①Micro-F1、Macro-F1、P@k等

2.5.3. Prompt Design

        ①多轮对话提示:

2.5.4. Baselines

        ①介绍一些基线:MSATT-KG,MultiResCNN,LAAT和JointLAAT,MSMN,KEPTLongformer

2.5.5. Main Results

        ①结果:

2.5.6. Ablation Study

        ①不同模板的实验:

        ②使用不同预测文本实验:

        ③消融实验:

2.6. Discussion

2.6.1. Why use ChatGPT for data augmentation?

        ①GPT可以进行数据增强,提供更多的表达风湿,还能补充少数类别(?和这个论文有啥关系)

2.6.2. Why not use ChatGPT directly for ICD coding, but instead use pre-trained models?

        ①直接用GPT来预测会缺乏医学专业性,隐私性和可解释性

2.6.3. Why not use the MIMIC-III-full dataset to validate the method?

        ①内存不足....

2.7. Conclusion

        ........

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值