3、数据挖掘中的关键特征选择与关键采样

数据挖掘中的关键特征选择与关键采样

在数据挖掘领域,关键特征选择和关键采样是两个重要的问题,它们对于提高模型性能、降低计算成本具有重要意义。

关键特征维度(CFD)

对于特定的“机器” M 和固定的性能阈值 T,存在一个唯一的数字 µ ≤ p,当选择并使用一组合适的 µ 个特征(其余 p - µ 个特征被丢弃)时,M 的性能会超过 T;而当使用少于 µ 个特征的任何特征集时,M 的性能总是低于 T。因此,µ 是确保 M 的性能达到给定阈值 T 所需的关键(或绝对最小)特征数量。

正式地,对于具有 p 个特征的数据集 Dp、机器 M(学习机、分类器、算法等)和性能阈值 T(M 的分类准确率等),如果满足以下两个条件,我们称 µ(1 到 p 之间的整数)为 (Dp, M) 的 T - 关键特征维度:
1. 存在 Dp 的一个 µ 维投影 Dµ(即 Dµ 包含 p 个特征中的 µ 个),使得 M 的性能至少达到 T,即 (∃Dµ ⊂ Dp)[PM(Dµ) ≥ T],其中 PM(Dµ) 表示 M 在输入数据集 Dµ 上的性能。
2. 对于所有 j < µ,Dp 的 j 维投影都无法使 M 的性能至少达到 T,即 (∀Dj ⊂ Dp)[j < µ ⇒ PM(Dj) < T]

确定 Dp 和 M 的组合是否存在 CFD 是一个非常困难的问题,该问题属于复杂度类 DP = {L1 ∩ L2 | L1 ∈ NP, L2 ∈ coNP},并且是 DP - 难的。这意味着它既是 NP - 难的,也是 coNP - 难的,很可能是难以处理的。

关键特征维度问题(CFDP)

CFDP 正式表述为:给定数

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值