13、KNN - SMOTE:提升不平衡生物医学分类效能的创新重采样技术

KNN - SMOTE:提升不平衡生物医学分类效能的创新重采样技术

1. 引言

在当今时代,大数据的重要性与日俱增,对大型数据集的处理和探索研究成为了热门领域。这给传统机器学习方法带来了挑战,因为传统方法追求速度、效率和精度,但目前缺乏高效处理各种现实世界数据类型的方法,比如识别欺诈性信用卡交易、检测未经授权的网络入侵、从卫星图像中发现石油泄漏以及生物医学领域的诊断和预测等任务。

数据科学家面临的一个重大挑战是不平衡数据集的日益普遍。传统机器学习算法基于各类样本均衡分布的假设构建,但样本数量的不平衡会使算法偏向多数类。尽管少数类样本数量少,但往往更具重要性,因此需要提高学习算法正确诊断少数类病例的准确性。例如在生物医学领域,从一系列不同患者的乳腺X光图像数据集中可以看到不平衡学习的现实影响。该数据集将患者分为正常(阴性类)和患癌(阳性类),通常阴性样本数量会远远超过阳性样本。在这个数据集中,有10923个阴性样本(多数类)和260个阳性样本(少数类)。理想的分类器应能以相同的准确率预测多数类和少数类,但实际分类中存在高度不平衡,多数类的准确率可达100%,而少数类只有0% - 10%。若少数类分类准确率为10%,意味着234名癌症患者会被误诊为非癌症患者,在医学领域,这种错误的代价远高于将非癌症患者误诊为癌症患者。

因此,研究类别不平衡问题具有重要意义。类别不平衡问题广泛存在于数据分析的众多关键领域,而且大多数机器学习分类系统在处理类别不平衡问题上能力不足。本文介绍了一种新的过采样方法——K近邻合成少数类过采样技术(KNN - SMOTE),旨在缓解不平衡学习问题并为少数类生成有意义的人工样本。本研究的主要贡献如下:
- 分析了几种先前的数据平衡方法的优缺点,提出了一种

基于模拟退火的计算器 在线运行 访问run.bcjh.xyz。 先展示下效果 https://pan.quark.cn/s/cc95c98c3760 参见此仓库。 使用方法(本地安装包) 前往Releases · hjenryin/BCJH-Metropolis下载最新 ,解压后输入游戏内校验码即可使用。 配置厨具 已在2.0.0弃用。 直接使用白菜菊花代码,保留高级厨具,新手池厨具可变。 更改迭代次数 如有需要,可以更改 中39行的数字来设置迭代次数。 本地编译 如果在windows平台,需要使用MSBuild编译,并将 改为ANSI编码。 如有条件,强烈建议这种本地运行(运行可加速、可多次重复)。 在 下运行 ,是游戏中的白菜菊花校验码。 编译、运行: - 在根目录新建 文件夹并 至build - - 使用 (linux) 或 (windows) 运行。 最后在命令行就可以得到输出结果了! (注意顺序)(得到厨师-技法,表示对应新手池厨具) 注:linux下支持多任务选择 云端编译已在2.0.0弃用。 局限性 已知的问题: - 无法得到最优解! 只能得到一个比较好的解,有助于开阔思路。 - 无法选择菜品数量(默认拉满)。 可能有一定门槛。 (这可能有助于防止这类辅助工具的滥用导致分数膨胀? )(你问我为什么用其他语言写? python一个晚上就写好了,结果因为有涉及json读写很多类型没法推断,jit用了,算这个太慢了,所以就用c++写了) 工作原理 采用两层模拟退火来最大化总能量。 第一层为三个厨师,其能量用第二层模拟退火来估计。 也就是说,这套方法理论上也能算厨神(只要能够在非常快的时间内,算出一个厨神面板的得分),但是加上厨神的食材限制工作量有点大……以后再说吧。 (...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值