回归模型
对于回归模型,线性模型预测的一般公式如下(特征个数为p+1):
线性回归(Logistic Regression)
线性回归,也叫普通最小二乘法。线性回归寻找参数w和b,使得对训练集的预测值与真实值之间的均方误差最小。
做一个方差和均方误差的辨析:
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。(百度百科)
均方误差是反映估计量与被估计量之间差异程度的一种度量。计算方法是预测值与真实值之差的平方除以样本数。
线性回归模型在sklearn.linear_model.LinearRegression库中,训练后可通过coef_和intercept_方法得到其斜率w与截距b,其中coef_返回Numpy数组,intercept_返回浮点数。对于高维度的数据集,当可用数据较少时,线性回归泛化能力较差,当数据增多时,性能增强。
import mglearn
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X, y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_tra