机器学习笔记1-回归分析-线性回归-相关分析-最小二乘

本文介绍了回归分析的基础概念,包括线性和非线性回归的区别、相关系数的含义及其与拟合程度的关系,以及如何通过最小化平方误差和(RSS)来确定最佳回归方程。

1回归分析:

定义:利用样本(已知数据),产生拟合方程,从而对位置数据进行预测

 

用途:预测,判别合理性

 

例子:利用身高预测体重,利用广告费用预测商品销售量;

 

线性(一定是一次的)回归分析:一元线性,多元线性;广义线性

函数关系:是确定性关系,但是线性拟合是相关关系,这是有本质区别.

 

非线性回归分析:

 

困难:选定变量(多元的);避免多重选定;观察拟合方程,避免过度拟合,检验模型是否合理.

 

1.1关系:

函数关系:确定性的关系

相关关系:非确定性的关系

1.2 相关系数:

r(-1 1)正负关系不代表拟合程度,只代表增加或者减少,比如相关系数是正的,x增加,y增加.

r越贴近1,则拟合的越好,但是永远不会是1;

 

1.3 参数:

斜率 截距 误差项 这就是需要拟合出来的回归方程

关键是怎么求出来,问题来了,其实如果我有很多样本的话,那么拟合出来的方程可以有很多,就是说 B a 的值可以有很多,但是我要如何确定哪个B a是最好的呢?

给你样本如何确定出最好的回归方程?

(1) RSS:平方误差和

  


给我样本,只要让RSS最小就行了,从而可以求出来B a

 

得到了这个其实没什么用,因为需要X拔和Y,这是总体均值,但是我没有总体的,只能用样本估计总体的.

 

得到解决

### 关于线性回归最小二乘线性回归是一种用于建模变量之间关系的方法,其中目标是最小化预测值与实际观测值之间的误差平方和。这种方法通常被称为最小二乘法 (Least Squares Method),其核心思想在于通过优化参数使得残差平方和达到最小值[^1]。 #### 最小二乘法的核心原理 假设有一个数据集 \((x_i, y_i)\),\(i=1,...,n\),其中 \(y_i\) 是因变量,\(x_i\) 是自变量。为了找到最佳拟合直线 \(y = wx + b\),我们需要使以下函数最小化: \[ J(w,b) = \frac{1}{2n}\sum_{i=1}^{n}(wx_i+b-y_i)^2 \] 该公式表示的是均方误差 (Mean Square Error, MSE)。通过对 \(w\) 和 \(b\) 进行偏导数计算并令其等于零,可以得到最优解的解析形式。 以下是实现最小二乘法的一个简单 Python 实现示例: ```python import numpy as np def least_squares(X, Y): X_mean = np.mean(X) Y_mean = np.mean(Y) numerator = sum([(X[i] - X_mean)*(Y[i] - Y_mean) for i in range(len(X))]) denominator = sum([(X[i] - X_mean)**2 for i in range(len(X))]) w = numerator / denominator b = Y_mean - w * X_mean return w, b # Example usage X = [1, 2, 3, 4, 5] Y = [2.2, 3.8, 6.1, 7.9, 10.2] w, b = least_squares(X, Y) print(f"Slope (w): {w}, Intercept (b): {b}") ``` 上述代码实现了基于最小二乘法的一维线性回归模型训练过程[^3]。 #### 推荐学习资源 对于更深入的理解以及获取 PDF 或讲解类资料,建议参考如下内容: - **网易公开课机器学习系列**:此课程涵盖了从基础到高级的各种机器学习方法,其中包括详细的线性回归及其变体讨论。 - **优快云 下载专区**:提供了许多高质量的学习笔记和技术文档下载服务,例如提到过的链接可能包含相关内容。 如果希望进一步探索理论推导或者实践应用案例,则可以通过查阅吴恩达教授开设的相关在线课程材料获得更多启发。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值