【机器学习个人笔记】part3——用sklearn实现多元线性回归

这篇博客介绍了如何利用sklearn实现多元线性回归,特别是处理分类特征的虚拟编码以及避免虚拟编码陷阱。通过一个案例,解释了如何预测公司盈利额,涉及'研究开发经费'、'行政投入'、'市场支出'和'所在区域'等特征。文章提到了反向淘汰方法用于模型选择,通过设定阈值来剔除不显著的特征,优化模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【机器学习个人笔记】part3——用sklearn实现多元线性回归

简单线性回归可以看做是y = ax + b的函数,多元线性函数则可以看做是y = ax1 + bx2 + cx3 + d的函数。
简单线性回归就是通过一个特征去预测(比如用工作经验去预测薪水),而多元线性回归则是用多个特征去预测。

例子:根据“研究开发经费”、“行政投入”、“市场支出”、“所在区域” 来预测 “公司盈利额”


这里可以用虚拟编码来处理“state”这个特征

但要注意,使用虚拟编码会存在一个虚拟编码陷阱问题。
解决方案:去掉一个特征,比如D2项

什么是虚拟编码陷阱?
在进行虚拟编码操作后,产生了D1和D2两项,但这两项是存在数学关系的,D1 + D2 = 1,即可以用D1来表示D2,D2 = 1 - D1,为了去掉冗余的特征,所以要删掉D1或D2.

编码步骤:
  1. 导入标准库、导入数据集
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值