该文章提出一种名为ImbLLM的基于大语言模型(LLM)的过采样方法,旨在解决不平衡分类中现有LLM过采样方法生成样本多样性不足的问题,通过三项核心改进提升合成少数类样本质量与多样性,在10个表格数据集上验证了其性能优势。
一、文章主要内容
- 研究背景与问题
- 不平衡分类中,过采样是常用解决手段,传统方法(如SMOTE)需将分类变量转为数值向量,易导致信息丢失;现有LLM过采样方法虽避免此问题,但生成的少数类样本多样性有限,降低下游分类任务的鲁棒性与泛化性。
- 以医疗数据集为例,罕见疾病样本占比低,直接训练会使分类器偏向多数类,难以学习少数类特征,需通过过采样生成更多少数类样本平衡数据集。
- 核心方法(ImbLLM)
- 采样策略:结合少数类标签与特征构建提示词,而非仅依赖少数类标签,提升生成样本多样性。
- 排列策略:微调预训练LLM时,仅对特征进行排列,将少数类标签固定在句首,确保标签与所有特征间存在注意力分数,避免信息割裂。
- 微调策略:不仅用少数类样本,还加入插值样本微调LLM,补充连续变量特征,进一步丰富样本变异性,且无需额外验证步骤。
- 实验与验证
- 在10个真实表格数据集上与8种主流基线方法(如SMOTE、CTGAN、Great等)对比,Imb
订阅专栏 解锁全文
715

被折叠的 条评论
为什么被折叠?



