假设有5个样本(样本数为n),一阶特征有2个,性别和爱好,其中性别特征有男女2种,爱好有4种,那么二阶特征有8种(2*4),那么训练数据X的维度应该是5*8。
性别独热编码:
- 男: [1, 0]
- 女: [0, 1]
兴趣独热编码:
- 体育: [1, 0, 0, 0]
- 购物: [0, 1, 0, 0]
- 科技: [0, 0, 1, 0]
- 旅游: [0, 0, 0, 1]
权重向量β的维度应该是β = np.zeros(X.shape[1])=8,也就是说权重的维度应该与特征数量相等。
在逻辑回归中,拟合函数是sigmoid函数,sigmoid(β.x) = β1*x1+β2*x2+...+β8*x8,向量长度是5。
接下来,与线性拟合类似,进行参数估计与损失值计算,不同的是线性模型是采用最小二乘估计,而逻辑回归模型是采用最大似然估计,即分类正确的概率最大的情况下,求解参数,似然函数是一个关于参数的函数。
对于这个二分类任务,y的取值只有0和1两种,当σ≥0.5,y_pred=1,否则y_pred=0.
这里补充最大似然估计MLE的计算公式为样本的联合概率函数。
对于离散概率函数来说,就是将每一种事件发生的概率p取幂累乘,其中幂指数是该事件发生时的真实值。
所以该二分类任务中的似然函数如下: