1、线性回归(linear Regression)和逻辑回归(logistic Regression)的区别
线性回归主要是用来拟合数据,逻辑回归主要是用来区分数据,找到决策边界。
线性回归的代价函数常用平方误差函数,逻辑回归的代价函数常用交叉熵。
参数优化的方法都是常用梯度下降。
eg:
现有一组面积和房价的数据,现在有个朋友要卖房子,120平方米,大概能卖多少钱?
就可以通过这组数据建立一个线性模型,然后用这组数据去拟合模型,拟合完毕后,输入120,它就会告诉你朋友能卖多少钱。
补充:(这是一个监督学习,且是回归问题,回归问题指的是预测一个具体的数据输出,即房价)
补充2:(监督学习中还有一种分类问题,用来预测离散值输出,如观察肿瘤大小,来判断是良性合适恶性,输出只有两种:【0】良性,【1】恶性)
逻辑回归也被称为对数几率回归,实际上是用线性回归解决分类问题的分类模型(在线性回归的基础上,加了一层sigmoid函数,将线性函数变为非线性函数),sigmoid函数的形状呈‘S’形,它能将任意实数映射到0~1之间的某个概率值上;
线性回归一般用于数据预测,预测结果一般为实数;
逻辑回归一般用户分类预测,预测结果一般为某类可能的概率。
2、波士顿房价线性回归案例:
1)获取数据集:
在sklearn1.2版本之前,可用from sklearn.datasets import load_boston # 从读取房价数据存储在变量 boston 中。 boston = load_boston()
在sklearn1.2版本之后,因为某些原因移除了该数据集,
可用如下代码实现:
#导入波士顿房价,自版本1.2之后移除了该数据集,可以通过如下方法获取
from sklearn.datasets import fetch_openml
data_x,data_y=fetch_openml(name='boston',version=1,as_frame=True,return_X_y=True,parser='pandas')
如果出现证书报错:urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certi,可以加入如下代码:
#全局取消证书验证,使用fetch_opneml下载数据时候避免报错
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2)划分训练集测试集:
#随机采样25%的数据构建测试样本,其余作为训练样本
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(data_x,data_y,random_state=33,test_size=0.25)
#分析回归目标值的差异:
print(np.max(data_y),np.min(data_y),np.mean(data_y))
3)数据标准化:
#先导入数据标准化模块
from sklearn.preprocessing impo