【机器学习个人笔记】part3——用sklearn实现多元线性回归
简单线性回归可以看做是y = ax + b的函数,多元线性函数则可以看做是y = ax1 + bx2 + cx3 + d的函数。
简单线性回归就是通过一个特征去预测(比如用工作经验去预测薪水),而多元线性回归则是用多个特征去预测。
例子:根据“研究开发经费”、“行政投入”、“市场支出”、“所在区域” 来预测 “公司盈利额”
这里可以用虚拟编码来处理“state”这个特征
但要注意,使用虚拟编码会存在一个虚拟编码陷阱问题。
解决方案:去掉一个特征,比如D2项
什么是虚拟编码陷阱?
在进行虚拟编码操作后,产生了D1和D2两项,但这两项是存在数学关系的,D1 + D2 = 1,即可以用D1来表示D2,D2 = 1 - D1,为了去掉冗余的特征,所以要删掉D1或D2.
编码步骤:
- 导入标准库、导入数据集
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
dataset = pd