100 Days Of ML Code 学习笔记-Day 3

这篇博客主要介绍了多元线性回归的概念,包括回归方程式、回归分析的前提假设、虚拟变量陷阱,并提到了数据预处理、拟合模型以及预测测试集的过程。文章以100 Days Of ML Code Day 3的学习内容为基础,探讨了线性回归在处理包含分类变量的数据时的注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

多元线性回归

先看下数据:50_Startups.csv,相应的数据可以在:https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/datasets/50_Startups.csv中下载(右击“Raw”然后另存为即可),多元线性回归方程式:y=b0+b1x1+b2x2+…+bnxn

回归分析的前提假设
假设一:线性(Linearity),自变量和因变量的关系是线性的;
假设二:同方差性(Homoscedasticity),误差项方差应是常数;
假设三:多元正态性(Multivariate Normality),误差项符合正态分布;
假设四:缺乏多重共线性(Lack of Multicollinearity),自变量间相互独立。

虚拟变量陷阱
分类变量不是numeric的,所以要将变量转换成虚拟变量,比如男和女,在回归模型中,“性别”这个变量,可虚拟出“男”和”女”两个变量,男性的话“男”值为1,”女”值为0;女性的话“男”值为0,”女”值为1;这里所说的虚拟变量陷阱是两个或多个变量高度相关的情况,简单地说,一个变量可以从其他变量中预测出来,那么这里就有一个重复的类别:如果我们去掉了男性类别(零女性值表示男性,反之亦然)。所以虚拟变量要比实际变量的种类少一个。

1.数据预处理:参见Day 1;

import numpy
import pandas
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值