1、证明对于每个分类规则Ψn,存在另一个分类规则Ψ′n,其分类误差为ε′n,以及一个特征 - 标签分布PX,Y(其中ε∗ = 0),使得对于所有的n,都有E[ε′n] < E[εn]。
提示:找到一个特征 - 标签分布PX,Y,使得X集中在Rd上的有限个点上,且Y是X的确定性函数。
2、在标准抽样情况下,对于i = 1, …, n,有P(Yi = 0) = p0 = P(Y = 0) 且P(Yi = 1) = p1 = P(Y = 1)。证明在单独抽样情况下,样本被分为两部分,其中一部分样本数量为n0,标签为0;另一部分样本数量为n1,标签为1,且n = n0 + n1 ,对于i = 1, …, n,有P(Yi = 0 | N0 = n0) = n0 / n 且P(Yi = 1 | N0 = n0) = n1 / n。提示:在限制条件N0 = n0下,只有标签Y1, …, Yn的顺序可能是随机的。因此,f(Y1, …, Yn | N0 = n0) 是所有(n选n0)种可能排序上的离散均匀分布。
本题可根据条件概率公式和离散均匀分布的性质进行证明。
-
明确单独抽样情况的特点 :在单独抽样情况下,样本被分为两部分,其中一部分样本数量为
n0,标签为0;另一部分样本数量为n1,标签为1,且n = n0 + n1。在限制条件N0 = n0下,只有标签Y1, ..., Yn的顺序可能是随机的,f(Y1, ..., Yn | N0 = n0)是所有(n选n0)种可能排序上的离散均匀分布。 -
计算
P(Yi = 0 | N0 = n0):根据条件概率的定义,P(Yi = 0 | N0 = n0)表示在已知有n0个标签为0的样本的条件下,第i个样本标签为0的概率。因为总共有n个样本,其中n0个样本标签为0,且在限制条件N0 = n0下,每个样本被选为标签为0的样本的概率是相等的,所以P(Yi = 0 | N0 = n0) = n0 / n。 -
计算
P(Yi = 1 | N0 = n0):同理,P(Yi = 1 | N0 = n0)表示在已知有n0个标签为0的样本的条件下,第i个样本标签为1的概率。由于总共有n个样本,其中n1个样本标签为1,且在限制条件N0 = n0下,每个样本被选为标签为1的样本的概率是相等的,所以P(Yi = 1 | N0 = n0) = n1 / n。
综上,在单独抽样情况下,对于 i = 1, ..., n ,有:
-
P(Yi = 0 | N0 = n0) = n0 / n -
P(Yi = 1 | N0 = n0) = n1 / n

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



