贝叶斯误差:概念、示例与应用
1. 贝叶斯问题
在分类问题中,我们常常需要根据一些观测变量来预测类别标签。这里,我们引入一对随机变量 $(X, Y)$,其中 $X$ 取值于 $\mathbb{R}^d$,$Y$ 取值于 ${0, 1}$。可以通过多种方式描述这对随机变量,例如用 $(\mu, \eta)$ 来定义,其中 $\mu$ 是 $X$ 的概率测度,$\eta$ 是 $Y$ 关于 $X$ 的回归。
具体来说,对于博雷尔可测集 $A \subseteq \mathbb{R}^d$,有 $\mu(A) = P{X \in A}$;对于任意 $x \in \mathbb{R}^d$,$\eta(x) = P{Y = 1|X = x} = E{Y|X = x}$,即 $\eta(x)$ 是给定 $X = x$ 时 $Y$ 为 1 的条件概率。
对于任意 $C \subseteq \mathbb{R}^d \times {0, 1}$,可将其表示为 $C = (C \cap (\mathbb{R}^d \times {0})) \cup (C \cap (\mathbb{R}^d \times {1})) \triangleq C_0 \times {0} \cup C_1 \times {1}$,且 $P{(X, Y) \in C} = P{X \in C_0, Y = 0} + P{X \in C_1, Y = 1} = \int_{C_0} (1 - \eta(x))\mu(dx) + \int_{C_1} \eta(x)\mu(dx)$。这表明 $(X, Y)$ 的分布由 $(\mu, \eta)$ 决定,$\eta$ 有时也被称为后验概率。
任何函数 $
超级会员免费看
订阅专栏 解锁全文
6032

被折叠的 条评论
为什么被折叠?



