24、抗可学习生物与合成数据分类及连续特征单变量离散化算法改进

抗可学习生物与合成数据分类及连续特征单变量离散化算法改进

在机器学习和数据分析领域,抗学习现象以及连续特征的离散化是两个重要的研究方向。抗学习现象挑战了传统的学习算法,而连续特征离散化则是处理连续数据的常用手段。下面将详细探讨这两个方面的内容。

抗学习现象的研究

抗学习现象在自然和合成数据中都有体现,并且对传统的学习算法提出了挑战。

抗学习的基本原理

有一个有趣的“悖论”结果:在检测到抗可学习模式并进行相应处理的情况下,样本越小,泛化越准确。这一结果通过两个观察得到证明:
- $\sum_{i = 1}^{n - 1}(1 - iP_{max})$ 是在多个样本中抽取 $n$ 个不同模式的概率下限。
- 假设确保不等式 (11) 对每个核机器都成立,对于交叉验证的汇总结果 $f_{xv}$ 也同样成立。

对于正交 WL 游戏,点积核 $k(x, x’) := x·x’$ 满足定理 1 的假设 (10),由此得出推论 2:推论 1 适用于线性核和正交 WL 游戏。

自然数据中的抗学习实例

以食管腺癌数据集 (AC) 为例,该数据集包含 9857 个基因的 25 个表达,这些数据是在化疗放疗 (CRT) 治疗前从食管腺癌患者的癌症活检中通过 cDNA 微阵列测量得到的。根据患者对后续治疗的反应(11 例有反应,14 例无反应)分配二进制标签。实验的目的是评估开发用于临床治疗的治疗反应预测器的可行性。

同时,还生成了另一个合成数据集,即 WL 游戏的输出,其中混合矩阵 $A$ 为 $10,000 * 1000$,从标准正态分布中抽取。该数据集包含每个标签的 2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值