机器学习与统计模型理论解析

1、证明对于每个分类规则Ψn,存在另一个分类规则Ψ′n,其分类误差为ε′n,以及一个特征 - 标签分布PX,Y(其中ε∗ = 0),使得对于所有的n,都有E[ε′n] < E[εn]。

提示:找到一个特征 - 标签分布PX,Y,使得X集中在Rd上的有限个点上,且Y是X的确定性函数。

2、在标准抽样情况下,对于i = 1, …, n,有P(Yi = 0) = p0 = P(Y = 0) 且P(Yi = 1) = p1 = P(Y = 1)。证明在单独抽样情况下,样本被分为两部分,其中一部分样本数量为n0,标签为0;另一部分样本数量为n1,标签为1,且n = n0 + n1 ,对于i = 1, …, n,有P(Yi = 0 | N0 = n0) = n0 / n 且P(Yi = 1 | N0 = n0) = n1 / n。提示:在限制条件N0 = n0下,只有标签Y1, …, Yn的顺序可能是随机的。因此,f(Y1, …, Yn | N0 = n0) 是所有(n选n0)种可能排序上的离散均匀分布。

本题可根据条件概率公式和离散均匀分布的性质进行证明。

  1. 明确单独抽样情况的特点 :在单独抽样情况下,样本被分为两部分,其中一部分样本数量为 n0 ,标签为0;另一部分样本数量为 n1 ,标签为1,且 n = n0 + n1 。在限制条件 N0 = n0 下,只有标签 Y1, ..., Yn 的顺序可能是随机的, f(Y1, ..., Yn | N0 = n0) 是所有( n选n0 )种可能排序上的离散均匀分布。

  2. 计算 P(Yi = 0 | N0 = n0) :根据条件概率的定义, P(Yi = 0 | N0 = n0) 表示在已知有 n0 个标签为0的样本的条件下,第 i 个样本标签为0的概率。因为总共有 n 个样本,其中 n0 个样本标签为0,且在限制条件 N0 = n0 下,每个样本被选为标签为0的样本的概率是相等的,所以 P(Yi = 0 | N0 = n0) = n0 / n

  3. 计算 P(Yi = 1 | N0 = n0) :同理, P(Yi = 1 | N0 = n0) 表示在已知有 n0 个标签为0的样本的条件下,第 i 个样本标签为1的概率。由于总共有 n 个样本,其中 n1 个样本标签为1,且在限制条件 N0 = n0 下,每个样本被选为标签为1的样本的概率是相等的,所以 P(Yi = 1 | N0 = n0) = n1 / n

综上,在单独抽样情况下,对于 i = 1, ..., n ,有:

  • P(Yi = 0 | N0 = n0) = n0 / n
  • P(Yi = 1 | N0 = n0) = n1 / n

3、考虑线性判

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值