机器学习之——逻辑回归

在讨论逻辑回归问题(Logistic Regression)之前,我们先讨论一些实际生活中的情况:判断一封电子邮件是否是垃圾邮件?判断一次交易是否是欺诈交易?判断一份文件是否是有效文件?这类问题,我们称之为分类问题(Classication Problem)。在分类问题中,我们往往尝试去预测的结果是否属于某一个类(正确活错误)。

我们从二元的分类问题开始讨论,即问题是正确或错误的。

我们将因变量(Dependent Variable)可能属于的两个类分别称为负向类(Negative Class) 正向类(Positive Class),则因变量:


其中,0表示负向类,1表示正向类

我们假设预测一个肿瘤是否为恶性肿瘤的分类问题(Malignant or Benign),我们假设肿瘤的恶性或良性与肿瘤大小的关系,可以用线性回归的方法求出适合数据的一条直线:


根据线性回归模型,我们只能预测到连续的值,然后对于分类问题,我们只需要输出0或1即可,我们可以预测:


对于上图所示的数据,这样的一个线性模型似乎能很好地完成分类任务。假设我们又观察到一个尺寸非常大的恶性肿瘤,将其加入到我们的训练集中作为一个新的实例,那么将对我们的线性模型有一定影响,获得一条新的直线。


这时候,再使用0.5作为阈值来预测肿瘤是良性还是恶性,就显得不那么合适了。可以看出来,线性回归模型,因为其预测的值可以超越[0,1]的范围,所以并不适合解决这样的问题。

我们引入一个新的模型,逻辑回归,该模型的输出变量范围适中在0和1之间。

逻辑回归模型的假设是:


其中,解释一些标识:


该函数的图像为:


将逻辑函数和假设函数合起来,便得到了逻辑回归模型的假设:


对于模型,可以有以下的理解:

hø(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(Estimated Probablity),即:

举个例子,如果对于给定的x,通过已经确定的参数计算得出hø(x)=0.7,则表示有百分之七十的概率y为正向类,相应的,y为负向类的概率为百分之三十(1-0.7=0.3)。

如上,便是逻辑回归模型。下一次我们讨论判定边界(Decision Boundary)代价函数(Cost Function)



### 头歌平台中的机器学习逻辑回归教程实验示例 #### 逻辑回归简介 逻辑回归是一种广泛应用于分类问题的统计方法,尤其适合处理二分类任务。通过构建一个线性模型并将输出映射到概率空间,逻辑回归能够有效地预测样本属于某一类别的可能性[^1]。 #### 使用Scikit-Learn实现逻辑回归 以下是基于Python和`scikit-learn`库的一个典型逻辑回归实现案例: ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, confusion_matrix import numpy as np # 假设X为特征矩阵,y为目标标签 X = np.random.rand(100, 5) # 随机生成数据作为演示 y = np.random.randint(0, 2, size=(100,)) # 二分类目标变量 # 数据分割 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 初始化逻辑回归模型 model = LogisticRegression() # 训练模型 model.fit(X_train, y_train) # 测试集预测 predictions = model.predict(X_test) # 性能评估 accuracy = accuracy_score(y_test, predictions) confusion_mat = confusion_matrix(y_test, predictions) print(f"Accuracy: {accuracy}") print("Confusion Matrix:") print(confusion_mat) ``` 上述代码展示了如何利用`train_test_split`函数划分训练集和测试集,并通过调用`LogisticRegression()`完成模型初始化、训练以及性能评估的过程[^2]。 #### 解决多分类问题的一般策略 当面对多分类场景时,逻辑回归可以通过扩展机制来适应需求。一种常见的做法是一对剩余法(One-vs-Rest),即针对每个类别分别建立一个二元分类器,最终综合各个分类器的结果得出结论[^3]。 #### 关于头歌平台的具体资源说明 虽然未直接提及头歌平台上具体的内容结构,但从其定位来看,该平台通常会提供详尽的操作指南及配套练习环境供学生实践以上理论知识点。建议关注官方文档或课程目录获取最新资料链接以便深入探索相关内容模块。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值