新手村:逻辑回归-理解01:目标变量、伯努利分布的概率概率、特征X之间的关系
好的!让我们用一个生活化的例子来解释逻辑回归中
目标变量
Y Y Y、伯努利分布的概率
p p p 即 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)和输入特征
x x x 之间的关系。假设我们想预测某人是否会购买某款新手机。
1. 目标变量 Y Y Y
- 定义: Y Y Y是我们想要预测的二分类结果,取值为 0 或 1。
- Y = 1 Y = 1 Y=1:表示“购买手机”(成功事件);
- Y = 0 Y = 0 Y=0:表示“不购买”(失败事件)。
2. 伯努利分布的概率 p p p
- 定义: p = P ( y = 1 ∣ x ) p = P(y=1|x) p=P(y=1∣x) 是在给定特征 x x x 的条件下, y = 1 y=1 y=1(购买手机)的概率。
- 例如,如果某人的特征(如年龄、收入、广告点击次数)表明他有 70% 的概率购买手机,那么 p = 0.7 p = 0.7 p=0.7, 1 − p = 0.3 1-p = 0.3 1−p=0.3 是不购买的概率。
- 伯努利分布:描述单次试验中成功或失败的概率分布。
在这里, y y y 的每一次观测(如每个人的购买行为)都服从参数为 p p p 的伯努利分布。
在逻辑回归中,我们假设目标变量 y y y 服从伯努利分布,即 y ∈ { 0 , 1 } y \in \{0,1\} y∈{ 0,1},而我们的任务是根据输入特征 X X X 预测 P ( y = 1 ∣ X ) P(y=1|X) P(y=1∣X)。
3. 输入特征 x x x
- 定义: x x x 是影响 y y y 的输入变量,例如:
- x 1 x_1 x1:年龄(如 25 岁);
- x 2 x_2 x2:月收入(如 10,000 元);
- x 3 x_3 x3:是否看过广告(1=看过,0=没看过)。