数据特征分布的可视化探索与双变量关系分析
在数据探索和建模过程中,了解特征和目标变量的分布情况以及它们之间的关系至关重要。本文将介绍如何使用直方图、箱线图和小提琴图来检查特征的分布,以及如何识别双变量关系中的异常值和极端值。
1. 使用直方图、箱线图和小提琴图检查特征分布
在理解特征和目标的可能分布以及识别极端值和异常值方面,可视化是一种强大的工具。以下是具体的操作方法:
1.1 使用直方图
直方图可以帮助我们直观地看到数据的分布情况。以下是创建直方图的步骤:
1. 导入必要的库并加载数据 :
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
landtemps = pd.read_csv("data/landtemps2019avgs.csv")
covidtotals = pd.read_csv("data/covidtotals.csv", parse_dates=["lastdate"])
covidtotals.set_index("iso_code", inplace=True)
- 创建总病例数每百万人口的直方图 :
plt.hist(covidtotals['total_cases
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



