机器学习:单或双变量常用分析技巧

本文总结了机器学习中常见的单变量和双变量分析方法,包括boxplot图、散点图、回归分析和分类分析。通过实例展示了如何利用matplotlib和scikit-learn进行数据探索,帮助理解变量间的关系和影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

你好,我是你们的老朋友,zhenguo!

在机器学习EDA阶段,变量分析及可视化是常做的事情,这篇文章总结变量分析中,最常使用的单变量,双变量分析以及可视化。

单变量分析

单变量分析是指分析单个变量对目标变量的影响。

例如,在预测房屋价格的模型中,单变量分析可以探究房屋面积对价格的影响。

单变量分析中,常用到boxplot图,用来显示一个变量的分布情况,并且常用于离散变量。

import matplotlib.pyplot as plt

# 准备数据
data = [0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5]

# 绘制盒须图
plt.boxplot(data)
plt.show()
73b19f54ce6761efdd4eb591d396ccc2.png

双变量分析

双变量分析则是分析两个变量之间的关系。或者,两个变量联合对目标值的影响。

例如,在同样的房屋价格预测模型中,双变量分析可以探究房屋面积和房龄对价格的影响。

常用的分析技巧包括:

  • 散点图: 用来显示两个变量之间的关系,常用于连续变量

  • 回归分析: 用来确定两个变量之间的关系强度以及预测目标变量

  • 分类分析: 用来确定哪些变量最能预测目标变量属于哪一类

散点图确定两个变量之间的关系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值